Por @Alvy — 17 de Julio de 2006

Spamsieve-IconDespués de casi dar por perdida la batalla contra el spam decidí buscar algún software adicional para Mac OS X que resultara más inteligente que los filtros del Apple Mail, que definitivamente funcionan fatal y con el tiempo se vuelven tontos y dejan de ser efectivos. Encontré varias referencias interesantes para hacer algunas pruebas. Si recibes mucho correo, el spam es algo en lo que se acaba perdiendo tanto tiempo que merece la pena invertir recursos en solucionar el problema, aunque sea pagando. Finalmente decidí probar SpamSieve, que es lo que finalmente ha solucionado mis problemas. Funciona a partir de Mac OS X 10.2 y con diversos programas de correo, y es multiidioma incluyendo castellano. Se puede probar durante un mes y la licencia para un usuario cuesta 25 dólares.

En Apple Mail, que es mi programa de correo, SpamSieve funciona como un plug-in. La idea de añadir un plug-in al programa de correo no me gustaba mucho, pero al final resultó ser la más práctica, mejor que soluciones externas o intermediarias. Una vez descargado e instalado hay que desactivar el anti-spam que lleva Apple Mail y SpamSieve ocupa su lugar, filtrando todo el correo entrante de todas las cuentas configuradas. Hay que crear una carpeta especial de Spam y añadir una regla que envíe todos los mensajes allí para que SpamSieve los filtre, tal y como indica la documentación.

Al principio hay que pasar algunos días entrenándolo, simplemente marcando el spam como spam y los mensajes buenos como buenos con un par de teclas, porque se basa en varias técnicas diferentes para distinguir el correo basura de los mensajes buenos (filtros bayesianos, listas de bloqueo, listas blancas, cabeceras especiales como «publicidad» o «adv» que suelen ser spam, etc.) También se pueden añadir mensajes antiguos (buenos o basura) si se quiere. Incluso se puede rellenar la «lista blanca» con una agenda válida de direcciones de correo, de modo que recononzca que los mensajes de esas personas suelen ser buenos y no basura. Una vez que se ha completado el entrenamiento, se le puede dejar funcionar solo.

Estas son sus estadísticas de las últimas dos semanas:

Mensajes Filtrados
874 Mensajes Buenos
1.363 Mensajes Correo Basura (61%)
82 Mensajes Correo Basura por día

Precisión de SpamSieve
3 Positivos Falsos
52 Negativos Falsos
97.5% Correcto

Corpus
3.041 Mensajes Buenos
2.388 Mensajes Correo Basura (44%)
13.5042 Palabras Totales

Reglas
2.763 Reglas de Bloqueo
2.164 Reglas en la Lista Blanca
El resumen es que funciona casi al 98% de efectividad. Ha detenido más de 1.300 mensajes de correo basura (casi 100 al día) que hubieran significado algunas horas de borrado a mano, varios minutos cada día. Dejó pasar 2 ó 3 spams al día como buenos (falsos negativos) que simplente borré y re-enterené con una tecla. Y se comió por error 3 mensajes que no eran spam (falsos positivos – que echando un vistazo rápido a la carpeta Spam durante el entrenamiento pude recuperar y re-entrenar. Los marca con colores de «spam más probable» a «menos probable»).

El «Corpus» que genera SpamSieve es una base de datos de mensajes buenos y malos en función de los cuales aprende las «reglas» para distinguir el polvo de la paja. Esa información se puede ver y editar, lo cual resulta curioso y a la vez útil para cazar cierto tipo de spam especial o para no dar por spam ciertos mensajes buenos. Cada palabra de cada mensaje tiene sus estadísticas particulares (si suele formar parte de mensajes basura o no) y eso se emplea para validar los mensajes. Los spams en lenguas asiáticas caen «como moscas» con este sitema. Los usuarios más técnicos pueden ver también en los logs o registros las razones por las que algunos mensajes se eliminan o se dan por válidos, para afinar el sistema si es necesario. Cada vez que se arranca Apple Mail y se empiezan a recibir mensajes aparece la ventana de SpamSieve, y se pueden consultar las estadísticas para ver cómo trabaja, o afinar la rigidez de las reglas y otros factores en las preferencias.

La documentación de SpamSieve es muy completa, la interfaz e integración están bien pero resultan un poco extrañas. Su mayor problema es que es ciertamente un poco difícil de instalar y entender cómo funciona. Conviene dedicarle algo de tiempo para comprenderlo bien, y leer y seguir paso a paso toda la documentación (que está sólo en inglés), o el entrenamiento no funcionará ni tampoco el sistema en sí. Pero una vez hecho, ahí está: 98% de efectividad. Si consiguieran simplificarlo para «todos los públicos» sería mucho mejor programa. Aun así, los usuarios de nivel medio o medio-alto no deberían tener problemas para trabajar con él y ahorrar así una gran parte de ese tiempo que ahora dedican a borrar mensajes basura.

Relacionado:

Compartir en Flipboard Publicar / Tuitear