La Ley de Benford (los números suelen empezar por «1») aplicada a redes sociales para detectar fraudes

Por @Alvy — 23 de abril de 2015

Jennifer Golbeck ha detectado que la Ley de Benford -tan fascinante como carente de «sentido común»- también se aplica a las redes sociales y que eso puede tener interesantes aplicaciones prácticas. Puede leerse el trabajo completo en Arxiv: Benford's Law Applies To Online Social Networks (La aplicación de la Ley de Benford a las redes sociales online).

Esta «ley fenomenológica» se da en muchos conjuntos de números de la naturaleza y el MundoReal™; simplemente predice que en un conjunto determinado de números aquellos cuyos primer dígito sea «1» aparecerá de forma más frecuente que los que empiezan por otros dígitos (del 2 al 9). Así, por ejemplo, los números del 100 al 199 (que empiezan por 1) aparecerán más frecuentemente que los del 500 al 599 (que empiezan por 5) si consultamos en una enciclopedia las longitudes de los ríos.

Aunque parezca peregrino, funciona: este método se ha usado con éxito para detectar tickets de gastos falsos, valores sesgados o erróneos en algunas investigaciones o declaraciones de renta fraudulentas.

La autora utilizó un método muy directo para realizar la comprobación:

Golbeck empleó los datos de miles de usuarios de las cinco principales redes sociales: Facebook (18.000 usuarios), Twitter (78.000), Google Plus (20.000), Pinterest (40 millones) y LiveJournal (45.000). Su método consistió en mirar el número de amigos y seguidores de cada usuario y contar la distribución de los dígitos. Los resultados fueron interesantes: en todos los conjuntos de datos excepto en uno [Pinterest] la distribución estadística de los primeros dígitos seguía perfectamente la Ley de Benford.

Golbeck también explicó que el hecho de que Pinterest no siga la ley no quería decir que hubiera un alto nivel de fraude necesariamente. Lo que sucedía era que por la forma en que se registran los usuarios -a los que se obliga a elegir cinco «intereses»- los datos quedaban artificialmente sesgados. (Habría que preguntarse por qué esto no sucedía en Twitter, donde un nuevo usuario ha de registrar a 20 «famosos» sugeridos por Google.)

En el caso de Twitter, por ejemplo, esto le sirvió para detectar en unas cuentas cuyos datos seguían una «distribución un tanto extraña» a una serie de bots rusos que habían creado cuentas falsas. Una aplicación interesante para minimizar la lacra de las cuentas falsas de todas las redes sociales.

(Vía Technology Review.)