La demo de la API de Cloud Vision, la IA de aprendizaje automático de Google, resulta un poco inquietante cuando la pruebas con tus fotos

Por @Alvy — 3 de agosto de 2019

Google tiene una demo de Cloud Vision y su API en la nube, uno de los servicios que ofrecen a desarrolladores, con la que se pueden fácilmente arrastrar-y-soltar fotos a ver qué es lo que «adivina». Abre la demo, arrastra una foto, demuestra que no eres un robot haciendo un clic (¡oh, la ironía!), y listo.

Básicamente la demo de Cloud Vision muestra un resumen rápido de toda la información que puede extraer de una imagen, organizada en varias pestañas: rostros, objetos, textos, etcétera. De este modo se puede ver si reconoce personas en la fotografía o no, y si los rostros son identificables, cuáles son sus gestos y características: disfrutando, tristes, enfadados, sorpresa… Con algoritmos como este funcionan las cámaras de fotos y también los sistemas de seguimiento que hay en algunas tiendas para estudiar el comportamiento de los clientes, entre otros.

El algoritmo también puede identificar objetos y situar la imagen en su contexto y categorizarla: ¿es una estación de metro? ¿hay coches? ¿árboles? En el ejemplo [véase completo en alta resolución] clasifica la imagen dentro de la categoría transporte, sabe que es una estación de metro y que en algún lugar aparece carteles publicitarios (en este caso se equivoca, son meramente informativos). A cada característica se le asigna un porcentaje entre 0% y 100% (certeza). También utiliza una clasificación similar llamada Entidades Web, en este caso de 0 a 1 (transporte rápido, anuncios, estación intercambiadora).

Otra cosa que calcula son los colores dominantes y también hay información sobre el Safe Search (búsqueda segura) que básicamente es la forma en que Google filtra las imágenes para menores. Hay varias categorías ahí (ninguna en esta foto): adultos, falsificación, médicas, violencia y «picante».

Finalmente hay otra categoría interesante que son los textos. La API lee todo lo que se pueda leer en la imagen y lo convierte a texto. Es una especie de OCR razonablemente bueno, sobre todo teniendo en cuenta los tamaños de los textos en las fotografías y que suelen estar borrosos, estropeados o en ángulos extraños. Si lo pruebas verás que funciona con distintos tipos de vehículos, marcas, modelos y matrículas sin mayores problemas.

Persona 6 @ Cloud Vision / Google Lo interesante de esta herramienta es darle fotos y ver qué es capaz de hacer. Es divertido probar fotos de la calle o de interiores y ver qué cantidad de textos nos pasa desapercibidos a los humanos. También qué cosas es capaz de clasificar un algoritmo respecto a lo que teníamos ni la menor idea: ¿vehículo híbrido con solo ver un Toyota Prius aparcado en la lejanía? Cara 6: alegre ¿Acaso no había sólo dos personas en la foto? (Había dos en primer plano, pero también otras cuatro detrás, en el fondo, y una sonreía claramente).

Eso sí: un poco inquietante sí que resulta, quizá reminiscencias de esa sensación de ver hacer a una máquina algo que no sabes exactamente cómo lo hace pero parece funcionar bastante bien. Aunque el problema de estas cosas no suele ser que exista un algoritmo que funcione estupendamente… sino que se pueda aplicar masivamente a cantidades ingentes de datos, imágenes y vídeos obtenidos muchas veces sin consentimiento o sin respeto a la privacidad. Y que aun sabiendo que se podrá usar para hacer el bien en muchas áreas, indefectiblemente también sabes que se usará para hacer el mal porque las personas y las corporaciones somos como somos.

Relacionado: