最近、届くスパムがひどい。
ベイジアンフィルタの POPFile をことごとくすり抜けてくる。
おかげで、99% あった分類精度が 70% まで落ちて、スルスルとスパムが届く。
70% と言っても正しいメールも含んでいるためで、スパム自体は 8割近く分類漏れする。
ひたすら学習させているのだが、一週間くらいまるで分類できていない。
どんなスパムかというと、
- 英語なのに単語をスペースで区切らない
- 上記の一行と、URLだけ
例:
HogeMageMoge http://fooobar.com/
POPFileは、ヘッダーと本文をベイズフィルタにかけるので、
本文の量が極端に少ないと、なかなか正しく分類できないという弱点がある。
また、英語は空白で区切るという英語用コーパスの盲点をついている。
(日本語は、そもそも空白関係なく kakasi や MeCab で"わかち書き"されるので問題ない)
それでも、単語の重みづけがあるため、
前述の新しいスパムでも、スパムと判定されるものがある。
解析結果を見るに、ヘッダーの送信者やサーバー、メーラー、
本文のURLのドメイン名でなんとか判別している模様。
同じ内容のスパムなら、3度目くらいはさすがに届かないハズ、
と思ったら、同じ内容でURLだけ変えてきたりすると、もう駄目。
しかし、このパターンのスパムは、学習次第でどうにかなる問題なのだろうか……?
■後記[2008/03/27]
ruby + WWW::Mechanize で
貯まった300通 くらいのスパムを全部、
POPFileでスパム認定しましたら
9割くらい振り分けるようになりました。
ある程度は対応できますね。
■参考リンク
カテゴリ: [ ソフトウェア ]
コメント (2)
うちでは、ヘッダの Date: に +09:00 が無い、ってだけでspam候補として振り分けてます。
海外からの予期せぬメールを受け取る事がないならお勧め。(予期してるのはホワイトリスト式に別途振り分け)
さすがに、学習型のフィルタリングでは、そんな問答無用の振り分けルールは学習しないでしょうねぇ。
投稿者: 爆竹銃 | 2008年01月16日 11:06
日時: 2008年01月16日 11:06
> ヘッダの Date: に +09:00
な、なんだってーΩΩΩ
日本から発信されたのは、GMT+9がヘッダーがつくんですね。
メーラー側でも振り分けはできますので、分類できなかったものはとりあえず、spam候補にしとくってのはありです。
試してみます。
投稿者: TOBY | 2008年01月17日 08:48
日時: 2008年01月17日 08:48