Gmail 日本語化される

internet — Hidekichi @ 2005/4/14 木曜日

20050413.gif

そんなわけで、日本語化されたGmail。ざっとみて変わったのは、
・メニュー
これは英語でもどうってこと無かった気がする。
・ヘルプ
いざというときに助かりそう。英語で一通り読んだから、もう一度読む気はしないけど。
・送信メールがユニコードからISO-2022-JPへ変更された
携帯へ送信すると文字化けしていたのが、これで解消。
・ログイン前(またはログアウト後)のページ
英語ではじわじわと3GBへ向かって?増えていくメールボックスの容量が「2,000 MB の容量が用意されているため、メッセージを削除する必要はありません。」と固定のメッセージになってしまったのは、ちょっと残念。

メールの文字化けが解消されたことで、メールのこと余り分かってない人にも常用のメールとして勧められるようになった気がする。

Gmailの招待状、あいかわらず余りまくってますので、欲しい方は遠慮なく言ってください。

bogofilter さらに自動化

internet — Hidekichi @ 2005/4/12 火曜日

bogofilter、まだまだサンプルが足りないのか、日本語のスパムを結構通してしまう。

そういうわけで、一日一回、スパムとして覚えさせるメールを集めて、
・find . -type f -exec sh -c ‘cat {} | bogofilter -sNv’ ‘;’
・終わったスパムをスパムフォルダに放り込む。

なんてことをやっていたのだが、毎日だとめんどくさい。日に日にスパムの認識精度が上がっているのを見るのは楽しいけれど、同じ作業の繰り返しは嫌だ。

というわけで、cronにやらせることにする。

crontab -e から
30 5 * * * cd [誤認識したスパムメールのディレクトリ] && find . -type f -exec sh -c ‘cat {} | bogofilter -sNl’ ‘;’ && mv [誤認識したスパムメールのディレクトリ]/cur/* [スパムメールの保存ディレクトリ]/cur/
一日一回、朝の5時半にまとめて処理させることにした。

これで後はスパムを通してしまったときのみ、そのスパムを[誤認識したスパムメールのディレクトリ] に置いておけば、勝手に再学習してメールも片付けてくれる。らくちんだ。

ちなみに、同様に非スパムをスパムと認識した場合も、同じやり方で再学習させられるけれど、今のところ必要ないので作ってない。bogofileter、よっぽどスパムだと確信したメール以外は、非スパムと判断するようだ。

スパムフィルタを bogofilter + kakasi に

internet — Hidekichi @ 2005/4/10 日曜日

gmailのスパム除去、割といいんだけど、英文のメールに対してはbogofilterに軍配が上がる。

そういうわけで、bogofilterを日本語に対応させる方法を試してみる。

まずはbogofilter + kakasiのパッチをもらってくる。

bogofilter も改めてダウンロード。前に入れたのが、0.17.5だったのだが、今回のは0.92.8。ずいぶんバージョンが上がっている。

で、パッチは3種用意してくれていますが、ばっちりあうのが無い。一番近い、0.92.7用をバージョン番号だけ変えて当ててみる。1箇所だけエラーになったので手動で変更。

./configure
make

make でまたエラー。configure.in が無いと言っている。config.in があったので、リネームして使う。今度はできた。

make install で /usr/local/bin/ の bogofilterが更新された。

スパム用のデータベースは今まで物をそのまま使用し、日本語のスパムを大量に登録。これでうまくいくかと思いきや、イマイチ精度が出ない。

しょうがないので、データベースの作り直し。
スパムじゃないメールのディレクトリで
find . -type f -exec sh -c ‘cat {} | bogofilter -nv’ ‘;’
うちにある半年分ほどのスパムコレクション、約5万通のメールディレクトリに移動して、
find . -type f -exec sh -c ‘cat {} | bogofilter -sv’ ‘;’

これがなかなか終わらない。夜に始めて次の日の朝にも終わってない。丸一日はかからなかったものの、ちょっと時間かかりすぎ。

新しいデータベースでのスパム判定は、日本語以外では以前のまま、ほぼ完璧。日本語も以前はほとんど通していたものが、半分くらいは通さなくなってくれた。データベースをもっと鍛えれば、かなり使えそうだ。

というわけで、Gmailでのスパムフィルタはやめてしまった。やっぱり自前で用意できるのなら、そっちを優先したいからね。

« 前のページ次のページ »

HTML convert time: 2.713 sec. Powered by WordPress ME