|
Je viens juste d’installer SpamBayes et j’ai été assez impressionné par les résultats… Ce filtre aborde le problème de manière statistique, en utilisant la théorie de Bayes.
A sa réception, un email est scindé en plusieurs petites parties, mots ou groupe de mots. La “probablilité de spam” de chacune de ces petites entités est recherchée dans une base de donnée locale. La probabilité globale que ce message soit du spam est calculée à partir des probabilités individuelles et le message est filtré en fonction du résultat final.
La beauté de l’algorithme, c’est que la base de donnée est entièrement construite à partir des messages reçus précédemment. En fait, il y a une période de “rodage” pendant laquelle on doit indiquer quels messages sont du spam et quels messages ne le sont pas pour que la base de donnée ce construise. Le filtre se personnalise et s’améliore au cours du temps, plus il filtre de messages, meilleur il devient et moins il devient nécessaire de le corriger…
Quelques liens intéressants sur le sujet:
- Article hyper intéressant de Paul Graham, l’auteur de l’algorithme de filtrage “bayésien”.
- SpamBayes, une implémentation dans le domaine publique de l’algorithme de Paul Graham en Python. Project hébergé à sourceforge. Spambayes est compatible avec la plupart des clients emails et platformes, sous la forme d’un proxy pop. Il peut aussi s’intégrer directement à Microsoft Outlook.
- Popfile, une autre implémentation (en perl), aussi hébergé par sourceforge.
- Comparaison intéressante de SpamBayes et Popfile.
|
Désolé, le formulaire de commentaire est fermé pour le moment.