Por @Alvy — 19 de Mayo de 2006

¡Idea de viernes por la tarde! No sé si a alguien se le ocurrió que los filtros anti-spam de los programas de correo deberían actuar por idiomas. Desde luego no parece que ahora lo hagan, pero diría que podría servir para eliminar mucha basura.

En mi caso e imagino que en el de mucha gente, la mayor parte de los mensajes que quiero recibir están en castellano. Tal vez un veinte o treinta por ciento, en inglés (depende de las épocas y los trabajos). Curiosamente, el 90 ó 95% del correo basura que se cuela está en inglés. Y si recibo un mensaje en cualquier otro idioma distinto de inglés y castellano, aparte de que no lo voy a entender, con toda probabilidad será correo basura, especialmente si viene en coreano, japonés o algún otro idioma asíatico que ni soy capaz de interpretar.

Detectar en qué idioma está un texto es casi trivial, comparado con lo complicadas que resultan las reglas para adivinar si el mensaje es basura o evitar los falsos positivos y negativos.

Alterativamente, debería poderse configurar algo así en los programas como:

Para mensajes en castellano, utiliza para el spam un filtro «normal». Para mensajes en inglés, utiliza un filtro «más estricto». Para mensajes en idioma xyz, aplica el filtro ijk. En otros idiomas, directamente a la papelera.
En algunos programas como SpamAssassin se pueden configurar la «puntuación de spam» que reciben los mensajes y a partir de qué umbral se consideran basura, pero no he visto que sea posible hacerlo por idiomas. Igual esto ayudaría a mejorar la eficacia de los filtros.

Esto sería aplicable tanto al spam de correo como al «spam de comentarios» en blogs y similares.

Todo esto viene porque desde hace meses que todo lo relativo al spam sigue siendo el mundo al revés: el spam se cuela y los mensajes de verdad se pierden. Ridículo.

Actualización: ¡Genial! En GenBeta han publicado Filtra el spam de otros idiomas donde hablando de este problema han dado con una solución precisamente con SpamAssassin. Esto no es especialmente sencillo ni para principiantes, requiere tener SpamAssassin instalado en el servidor, saber configurarlo y todo eso, pero básicamente permite llevar a cabo esta idea:

Para añadir puntos positivos a un idioma, debes añadir al archivo (o editar si ya está presente) la línea ok_languages XX, dónde XX son los códigos de los idiomas a habilitar. Por ejemplo, si quieres recibir únicamente emails en inglés, castellano, catalán y euskera (no encontré el código gallego), añade la siguiente línea: ok_languages en es ca eu
A probarlo a ver qué tal.

Actualización: Pau nos cuenta por correo que SpamOracle tiene en cuenta el idioma entre los diversos factores para detectar el spam y marcar las cabeceras como basura o no-basura, lo que supone una ventaja. Tampoco parece fácil de instalar y configurar para novatos, pero ahí está por si a alguien le interesa.

Más: Juan dice que con POPFile también se pueden usar cuatro «buckets»: dos por cada lenguaje, mensajes buenos y spam. Al cabo de un par de días de entrenamiento (emplean análisis bayesiano) funciona mejor.

Compartir en Flipboard Publicar / Tuitear