« Delphiでも高階関数使いたい!ヽ(`Д´)ノ ウワァァン!! | メイン | ニュース系サイトに載るとどのくらいアクセスがくるかという話(映像系とか、朝目新聞とか) »

[ソフトウェア] 新手のメールスパム(spam)がひどい

最近、届くスパムがひどい。
ベイジアンフィルタの POPFile をことごとくすり抜けてくる。

おかげで、99% あった分類精度が 70% まで落ちて、スルスルとスパムが届く。
70% と言っても正しいメールも含んでいるためで、スパム自体は 8割近く分類漏れする。

ひたすら学習させているのだが、一週間くらいまるで分類できていない。

どんなスパムかというと、

  • 英語なのに単語をスペースで区切らない
  • 上記の一行と、URLだけ

例:

HogeMageMoge
http://fooobar.com/

POPFileは、ヘッダーと本文をベイズフィルタにかけるので、
本文の量が極端に少ないと、なかなか正しく分類できないという弱点がある。

また、英語は空白で区切るという英語用コーパスの盲点をついている。
(日本語は、そもそも空白関係なく kakasi や MeCab で"わかち書き"されるので問題ない)

それでも、単語の重みづけがあるため、
前述の新しいスパムでも、スパムと判定されるものがある。
解析結果を見るに、ヘッダーの送信者やサーバー、メーラー、
本文のURLのドメイン名でなんとか判別している模様。

同じ内容のスパムなら、3度目くらいはさすがに届かないハズ、
と思ったら、同じ内容でURLだけ変えてきたりすると、もう駄目。

しかし、このパターンのスパムは、学習次第でどうにかなる問題なのだろうか……?

後記[2008/03/27]

ruby + WWW::Mechanize で
貯まった300通 くらいのスパムを全部、
POPFileでスパム認定しましたら
9割くらい振り分けるようになりました。

ある程度は対応できますね。

参考リンク

カテゴリ: [ ソフトウェア ]

コメント (2)

 うちでは、ヘッダの Date: に +09:00 が無い、ってだけでspam候補として振り分けてます。
 海外からの予期せぬメールを受け取る事がないならお勧め。(予期してるのはホワイトリスト式に別途振り分け)

 さすがに、学習型のフィルタリングでは、そんな問答無用の振り分けルールは学習しないでしょうねぇ。

TOBY:

> ヘッダの Date: に +09:00
な、なんだってーΩΩΩ
日本から発信されたのは、GMT+9がヘッダーがつくんですね。

メーラー側でも振り分けはできますので、分類できなかったものはとりあえず、spam候補にしとくってのはありです。
試してみます。

コメントを投稿

プロフィール

あわせて読みたい

あわせて読みたいブログパーツ

人気エントリー

About

2008年01月16日 09:04に投稿されたエントリーのページです。

ひとつ前の投稿は「[Delphi] Delphiでも高階関数使いたい!ヽ(`Д´)ノ ウワァァン!!」です。

次の投稿は「[雑記] ニュース系サイトに載るとどのくらいアクセスがくるかという話(映像系とか、朝目新聞とか)」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。