Habrán observado en los artículos sobre productos y servicios contra el SPAM, con frecuencia hablan del uso de filtros bayesianos en el sistema usado para discernir si un mensaje es SPAM o no. Estos filtros son lo último en la lucha contra el SPAM, pero se basan en un método estadístico descubrimiento en el siglo XVIII, por el clérigo y matemático Thomas Bayes, (1701-1761). La estadística bayesiana, sigue siendo la herramienta más eficaz para ponderar la probabilidad de que ocurra un acontecimiento, cuando necesitamos matizar la pura probabilidad estadística con la experiencia de lo ocurrido anteriormente en casos semejantes.
ste tipo de estadísticas se utiliza en múltiples campos, tradicionalmente donde más se ha utilizado ha sido en estudios epidemiológicos, como modo de diagnosticar enfermedades de acuerdo con los síntomas observados y el historial del enfermo. Un cuadro clínico de síntomas, como el resultado de un análisis de sangre, la temperatura, vómitos etc., permite diagnosticar varias enfermedades como posibles.
Pero, si una enfermedad es hereditaria y otra es tropical, aunque el cuadro clínico responda a otras enfermedades, si el paciente tiene antecedentes familiares de la primera, o ha vuelto recientemente de un viaje a país tropical, el médico se decidirá por diagnosticar la enfermedad que corresponda en cada caso, aunque la pura probabilidad señale a una tercera enfermedad como la más probable.
Modelos matemáticos capaces de aprender
Cuando pretendemos utilizar un modelo matemático que de respuesta a problemas de este tipo, donde junto a datos mensurables y concretos hay se añade la experiencia adquirida, el método más eficaz es la estadística bayesiana. En resumen, un filtro bayesiano es una herramienta matemática que permite, retroalimentar la fórmula que calcula la probabilidad de un acontecimiento, con la experiencia adquirida anteriormente en casos similares, de modo que la formula "aprende" y cada vez da respuestas que en principio acierten con más probabilidad que en el pasado, pues el peso de cada una de las antiguas creencias, (o síntomas), aumenta o disminuye de acuerdo con la experiencia adquirida.
Un filtro bayesiano nunca es categórico, es decir, nunca garantiza al 100% la calidad de la respuesta, pero al incorporar la experiencia anterior, permite mejorar cada vez más la probabilidad de acertar en la respuesta. Es por ello que este tipo de estadísticas es especialmente adecuado en los casos en que solicita un pronóstico sobre la posibilidad que ocurra determinado suceso.
Usos de la estadística Bayesiana
La estadística de Bayes, resulta de particular utilidad, cuando se valora, junto a datos objetivos, la convicción personal sobre la posibilidad que ocurra o no un suceso. Por ejemplo, sería el sistema adecuado para pronosticar resultados de las quinielas a partir de aseveraciones del tipo es muy probable que el equipo X gane al Z, tal árbitro es casero, o la lluvia perjudica al equipo A, es decir obtener una valoración subjetiva de la probabilidad, a diferencia de la respuesta dada por una estadística puramente frecuentista, que solo devuelve conclusiones dicotómicas, correcto o falso.
En el mundo informático la estadística bayesiana se utiliza en multitud de campos; en la limpieza de ruidos en todo tipo de señales analógicas, en la elección del camino a seguir en internet por los paquetes de información, en la ponderación que hacen los buscadores de las páginas web, para reconstruir imágenes digitales a partir ficheros comprimidos con pérdida, en traducciones automáticas, etc. Su uso es amplísimo y todos los días se encuentran nuevas utilidades en campos relacionados de alguna manera con la inteligencia artificial, dada la posibilidad de crear procesos basados en esta estadística, con capacidad para aprender.
Riesgos de esta estadística
No obstante, la estadística bayesiana, incorporar inevitablemente la opinión personal del investigador, lo que puede producir, desde sesgos inadvertidos en el resultado, a resultados matemáticos que han sido manipulados de forma voluntaria en una dirección preestablecida. Este error no depende tanto del método empleado como de la ecuanimidad del investigador. Ello es claramente notorio en las encuestas de opinión, donde las respuestas obtenidas, suelen estar claramente condicionadas por la ideología de quien encarga la encuesta.
En cualquier caso, un filtro bayesiano, por su propia esencia, no puede dar resultados concluyentes, por lo que da siempre lugar a la aparición de falsos positivos y falsos negativo, o sea, hay casos en los que el filtro de Bayes fracasa, bien por marcar como correctos casos erróneos o por lo contrario. No obstante el hecho de incorporar la experiencia al resultado, consigue reducir el coeficiente de error con el paso del tiempo.
Un programa gratuito para experimentar
Si desea experimentar con filtros bayesianos, aconsejo descargarse el programa gratuito anti SPAM K9
(Ka nine). En esta dirección encontrarán unas instrucciones en español y aquí lo pueden descargar gratuitamente el programa. Observará, que el programa tras un periodo de aprendizaje sobre los mensajes que manualmente Vd. clasifica, se vuelve cada vez más eficaz en la tarea de seleccionar el correo, pues añade por si mismo nuevas reglas para la ponderación de los mensajes y es capaz de identificar nuevas tendencias que aparezcan. En función de ello, identifica y puntúa un mensaje de acuerdo con el "parecido" a otros correos que antes hayamos aceptado o rechazado, modificando los parámetros de ponderación de cada regla, conforme con la experiencia obtenida.
Que pese a todo puede ser de utilidad
No obstante, como dijimos, siempre dará falsos negativos, es decir identificará un mensaje como SPAM sin serlo, y con toda seguridad, de acuerdo con las Ley de Murphy, ese mensaje será precisamente aquel que más estemos esperando recibir. Por otra parte, si dejamos de revisar los resultados dados por el filtro, por considerar que ya funciona correctamente, el filtro deja de aprender. Por ello es aconsejable que se siga supervisando el resultado obtenido del filtro indefinidamente.
Como indiqué en un artículo, no puede hacerse un programa anti SPAM eficaz y menos aún seguro, pues la etiqueta de SPAM, la impone el sujeto receptor ante el contenido del mensaje, según su opinión personal, subjetiva y cambiante, pero el mensaje en sí, no tiene característica alguna que lo identifique como tal. No hay que olvidar que el mensaje que uno considera SPAM, otro lo considerará útil.
A pesar de todo, un programa como K9 es sumamente eficaz para separar inicialmente mensajes que muy probablemente nos interesan, de aquellos otros que muy probablemente nos molesten, lo que por sí, ya es algo que resulta tremendamente útil el día que no se tiene tiempo para revisar la totalidad del correo recibido sino solo una parte del mismo.
Excelente miniartículo para tener un basamento, sencillo de comprender, de la estadística Bayesiana.
¿Existe en español una obra sobre estadística de Bayes que sea introductoria y sencilla de leer para aquellos que no tenemos conocimientos estadísticos?
Muy buen artículo, enhorabuena.
Uso el K9 desde hace un mes. Coincido contigo en la posibilidad de falsos negativos (o falsos positivos), pero no superan en ningún caso el 0,5%, así que estoy encantado con el programa. En la base de datos tiene unas 50.000 palabras para decidir si un correo es bueno o basura, y el porcentaje de aciertos ronda el 99%.
En suma: he pasado de recibir unos 300 correos basura diarios a CERO. Gloria bendita.
Exelente información por favor enviar direcciones o recomedar libros en los que pueda encontrar mas información.
Estimados
Mi nombre es Aldemar La Torre de Perú y estoy estudiando el master en dirección de empresas en la escuela de dirección de la universidad de piura, el tema de toma de decisiones me encanta y me gustaría que me puedan ayudar ndicandome que material me recomiendan y que casos podrían facilitarme para ejercitarme en la materia.
Mi nivel es principiante pero le encuentro mucho sentido al tema.
Si me podrían ayudar, les estaría muy agradecido.
Saludos
Aldemar
muy bien pues la informacion es muy clara y presisa
yo quiero son las leyes de bayes
Excelente articulo, muchisimas gracias por la data y tu tiempo.
Felicitaciones
Hi! Ebanij vrot! o6hqa5briz chjxyh3gdh!
HOMBRE FELICITACIONES Y GRACIAS ESPERO QUE MIS ARTICULOS TENGA ESTA CALIDAD
SIGA ESCRIBIENDO
GRACIAS
Once you view the plot's key arrangement, you can behaviour Texas coop up 'em and ordered some of its variants. Texas Holdem is an mild engagement to learn, upright laborious to master. The "mastering" role is the costly on the whole, requiring library and practice. This website offers lots of articles and tools to be paid you started on the studying. You can office practically all you fancy for free in online poker rooms.