在FreeBSD上安装FuzzyOCR来对付图片垃圾邮件

2009-05-13 16:04:23来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折


垃圾邮件无所不在,由早期文字形态的信件,进化到图文并貌的HTML格式。而由于anti-spam技术的进步,几乎可达到九成的拦阻率。但「道高一尺、魔高一丈」,spammer开始大量运用图片形态的方式来寄送邮件。图像式垃圾邮件在图片内容加入大量的噪声数据(noisy data),藉以回避扫描引擎的侦测。
以目前anti-spam市场所推出的产品,若是缺少扫描图像式垃圾邮件的功能,相信也无法在市场上生存,例如:IronPort、Sophos
PureMessage
等厂商皆推出具备相,关功能的产品。
当然,开放源码的SpamAssassin也不能在此一功能上缺席,也出现了不少相对应的solution,例如:OcrPlugin。
而此篇文章所要介绍的 FuzzyOCR,是一套修改自OcrPlugin的Spamassassin plugin。同样是利用光学字符辨认(OCR)的方式,来识别图像式邮件所包含的「文字讯息」,并利用Fuzzy word matching算法判断辨识出来的文字。
主要具备了下列的功能:
Optical Character Recognition using different engines and settings
Fuzzy word matching algorithm applied to OCR results
Image hashing system to learn unique properties of known spam images
Dimension, size and integrity checking of images
Content-Type verification for the containing email
Matching and learning techniques
可弹性支持不同的OCR interface,并利用fuzzy word matching算法来处理辨识的结果。
支持DB,可将处理过的图片,以feature vectors的形态储存在数据库。因此相同或是类似的图片,便可以利用储存在DB的特征向量来处理。
能检测不同维度、size与整合性的测试。
邮件内容检测。
Resource saving techniques
仅扫描邮件,而非辨认该封信件是否为垃圾信件。信件的分类仍交由spamassassin所判别的分数高低来决定。
对于已达到spam分数门坎的邮件,FuzzyOCR在处理该封邮件时会忽略该封信件而不进行扫描,进而减轻系统负载。(3.5版之后提供)
藉由比对储存于DB的feature vectors(dimensions and file size)。若比对成功,则忽略该封信件,而不再进行OCR辨识与处理。
Safety measures
可设定扫描邮件timeout的时间,藉以避免Denial of Service的攻击。
使用word sets取代simple lists,避免FuzzyOCR错判的可能。
具体过程如下:
更新ports
# portsnap fetch update
通过ports安装
# cd /usr/ports/mail/p5-FuzzyOcr-devel
# make install clean

# cp /usr/local/share/examples/FuzzyOcr/FuzzyOcr.* /usr/local/etc/mail/spamassassin
# vi /usr/local/etc/mail/spamassassin/init.pre
加入如下内容:
# FuzzyOcr
loadplugin Mail::SpamAssassin::Plugin::FuzzyOcr

# vi /usr/local/etc/mail/spamassassin/FuzzyOcr.cf
确定focr_logfile设置为:
focr_logfile /var/log/FuzzyOcr.log
保存设置以后,重启反垃圾邮件网关引擎,例如:mailscanner
# /usr/local/etc/rc.d/mailscanner restart
如果没有用mailscanner,那么重启sa-spamd

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:升级FreeBSD7.0到7.1的方法

下一篇:请问在FreeBSD6.2下如何编写监控脚本!!!!!!!!!!!!!