bogofilter さらに自動化

internet — Hidekichi @ 2005/4/12 火曜日

bogofilter、まだまだサンプルが足りないのか、日本語のスパムを結構通してしまう。

そういうわけで、一日一回、スパムとして覚えさせるメールを集めて、
・find . -type f -exec sh -c ‘cat {} | bogofilter -sNv’ ‘;’
・終わったスパムをスパムフォルダに放り込む。

なんてことをやっていたのだが、毎日だとめんどくさい。日に日にスパムの認識精度が上がっているのを見るのは楽しいけれど、同じ作業の繰り返しは嫌だ。

というわけで、cronにやらせることにする。

crontab -e から
30 5 * * * cd [誤認識したスパムメールのディレクトリ] && find . -type f -exec sh -c ‘cat {} | bogofilter -sNl’ ‘;’ && mv [誤認識したスパムメールのディレクトリ]/cur/* [スパムメールの保存ディレクトリ]/cur/
一日一回、朝の5時半にまとめて処理させることにした。

これで後はスパムを通してしまったときのみ、そのスパムを[誤認識したスパムメールのディレクトリ] に置いておけば、勝手に再学習してメールも片付けてくれる。らくちんだ。

ちなみに、同様に非スパムをスパムと認識した場合も、同じやり方で再学習させられるけれど、今のところ必要ないので作ってない。bogofileter、よっぽどスパムだと確信したメール以外は、非スパムと判断するようだ。

関連する投稿


コメント (1) »

  1. No.1

    きょうusakichiは、ディレクトリへ認識するはずだったみたい。
    きのうusakichiが、usakichiはここで繰り返しっぽい認識した?
    ここにサンプルが認識した?

    コメント by BlogPetの「usakichi」 — 2005/4/14 木曜日 @ 10:25:39

コメント RSS

コメントをどうぞ

段落や改行は自動挿入です。メールアドレスはサイト上では非表示です。
使用できる HTML タグ: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

HTML convert time: 1.914 sec. Powered by WordPress ME