Por @Alvy — 6 de Agosto de 2019

Este instructivo y sucinto vídeo de Google Developers explica cómo se utiliza la visualización espacios de múltiples dimensiones en las técnicas de aprendizaje automático que se utilizan en artificial.

La explicación tiene una parte teórica y algunos ejemplos; la teórica es simplemente descriptiva y con los ejemplos es muy fácil de entender: al pensar en las características de cualquier elemento podemos distinguir diversas variables (por ejemplo, en un persona: la edad, lugar de nacimiento, color del pelo, etcétera). Si se trata cada uno de ellos como una dimensión –en ocasiones se usan 200 o más– los que son similares y comparten algunas de esas características van quedando agrupados. En realidad son sólo números y más números, pero con unos cálculos sencillos se pueden calcular las distancias y agrupamientos.

Por ejemplo cuando la gente escribe números o letras los caracteres equivalentes suelen ser más o menos parecidos y en una matriz de píxeles muchos coincidirán; alguno quedará descolgado pero serán los menos, el resto quedarán claramente agrupados y parecerán una «A» o un «6» o lo que corresponda. Tal y como muestra el vídeo a un algoritmo se le puede alimentar con millones de textos y aprenderá por sí mismo que hay «conceptos» similares, como por ejemplo los nombres propios de personas, los de los números, las palabras musicales relacionadas con el término «piano» y otros por estilos. Todo a partir de números analizados en múltiples dimensiones.

Breve e instructivo.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 4 de Agosto de 2019

De momento los humanos somos más precisos que las máquinas clasificando fotos, pero no por mucho  / Perficient Digital

La gente de Perficient Digital ha publicado un interesante estudio que compara diferentes sistemas de reconocimiento de imágenes: Image Recognition Accuracy Study. Se comparan cuatro sistemas: Amazon AWS Rekognition, Google Vision, IBM Watson y Microsoft Azure Computer Vision, a los que se añade como control y comparación «humanos clasificando a mano». En total se utilizaron unas 500 imágenes para evaluar diversos parámetros.

En cuanto a precisión los humanos todavía estamos por delante, con una precisión del 88% seguidos de Google Vision (hace poco hablamos de su demo), Rekognition de Amazon, y los sistemas de Microsoft e IBM. Curiosamente tres de los cuatro sistemas clasifican con un 90% de confianza más de 5 etiquetas (que es hasta donde llegan los humanos)

La clasificación humana también es muy superior cuando se trata de describir una imagen (la siguiente en la lista es Google Vision). También hay alguna que otra curiosidad, como que Watson de IBM es la que tiene una mayor capacidad para distinguir y nombrar colores (términos como «jade», «azul metálico», «gris ceniza»… frente a «amarillo») y Amazon –apropiadamente– para reconocer términos relacionados con la vestimenta: camisetas, pantalones y ropa interior.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 3 de Agosto de 2019

Frankenbook

Frankenbook, editado por PubPub es la versión web, libre y completa, de Frankenstein: Annotated for Scientists, Engineers, and Creators of All Kinds editado por MIT Press, un libro de Guston, Finn, Robert y otros autores basado en la novela de Mary Shelley de 1818. Y tiene pintaza:

(…) La dramática historia de Victor Frankenstein y su criatura puede entenderse como la parábola definitiva de la arrogancia científica. Víctor, "el moderno Prometeo, trató de hacer lo que quizás deberíamos dejar que sólo pueda hacer la naturaleza: crear vida (…) Mary Shelley era muy consciente de los avances científicos contemporáneos y los incorporó a su historia. En nuestra era de la biología sintética, la inteligencia artificial, la robótica y la ingeniería climática, esta edición de Frankenstein es apropiada para los lectores con formación o interés en la ciencia y la ingeniería, y para cualquiera que esté intrigado por las cuestiones fundamentales de la creatividad y la responsabilidad.

Además de ser «lectura clásica casi obligatoria» esta edición –convenientemente anotada– podría ser también útil en la asignatura de ética / valores que cursan muchos jóvenes en edad escolar actualmente. En la web puede verse cómo los tres volúmenes, de unos 7-8 capítulos cada uno, incluyen preguntas para debate, pero que más que trabajar sobre los tecnicismos literarios lo hacen sobre los aspectos éticos de la obra:

¿Por qué Víctor no busca el perdón entre sus seres queridos sino que prefiere recluirse? ¿Por qué la gente que se encuentra con la criatura reacciona con miedo u hostilidad? ¿Cómo explora la criatura la ambivalencia de la adquisición de nuevos conocimientos, que a veces le resultan útiles pero a veces dolorosos? ¿Si tú fueras Víctor, permitiría que la criatura encontrara una pareja y se reprodujera? ¿Por qué sí o por qué no? ¿Qué otras posibilidades habría?

Cambia criatura de Frankenstein por «inteligencia artificial», «robot» o «dispositivo autónomo» y prácticamente podrías hacerte las mismas preguntas.

(Vía Kottke.)

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 3 de Agosto de 2019

Estación del Arte (CC) Alvy @ Cloud Vision / Google

Google tiene una demo de Cloud Vision y su API en la nube, uno de los servicios que ofrecen a desarrolladores, con la que se pueden fácilmente arrastrar-y-soltar fotos a ver qué es lo que «adivina». Abre la demo, arrastra una foto, demuestra que no eres un robot haciendo un clic (¡oh, la ironía!), y listo.

Básicamente la demo de Cloud Vision muestra un resumen rápido de toda la información que puede extraer de una imagen, organizada en varias pestañas: rostros, objetos, textos, etcétera. De este modo se puede ver si reconoce personas en la fotografía o no, y si los rostros son identificables, cuáles son sus gestos y características: disfrutando, tristes, enfadados, sorpresa… Con algoritmos como este funcionan las cámaras de fotos y también los sistemas de seguimiento que hay en algunas tiendas para estudiar el comportamiento de los clientes, entre otros.

El algoritmo también puede identificar objetos y situar la imagen en su contexto y categorizarla: ¿es una estación de metro? ¿hay coches? ¿árboles? En el ejemplo [véase completo en alta resolución] clasifica la imagen dentro de la categoría transporte, sabe que es una estación de metro y que en algún lugar aparece carteles publicitarios (en este caso se equivoca, son meramente informativos). A cada característica se le asigna un porcentaje entre 0% y 100% (certeza). También utiliza una clasificación similar llamada Entidades Web, en este caso de 0 a 1 (transporte rápido, anuncios, estación intercambiadora).

Otra cosa que calcula son los colores dominantes y también hay información sobre el Safe Search (búsqueda segura) que básicamente es la forma en que Google filtra las imágenes para menores. Hay varias categorías ahí (ninguna en esta foto): adultos, falsificación, médicas, violencia y «picante».

Finalmente hay otra categoría interesante que son los textos. La API lee todo lo que se pueda leer en la imagen y lo convierte a texto. Es una especie de OCR razonablemente bueno, sobre todo teniendo en cuenta los tamaños de los textos en las fotografías y que suelen estar borrosos, estropeados o en ángulos extraños. Si lo pruebas verás que funciona con distintos tipos de vehículos, marcas, modelos y matrículas sin mayores problemas.

Persona 6 @ Cloud Vision / GoogleLo interesante de esta herramienta es darle fotos y ver qué es capaz de hacer. Es divertido probar fotos de la calle o de interiores y ver qué cantidad de textos nos pasa desapercibidos a los humanos. También qué cosas es capaz de clasificar un algoritmo respecto a lo que teníamos ni la menor idea: ¿vehículo híbrido con solo ver un Toyota Prius aparcado en la lejanía? Cara 6: alegre ¿Acaso no había sólo dos personas en la foto? (Había dos en primer plano, pero también otras cuatro detrás, en el fondo, y una sonreía claramente).

Eso sí: un poco inquietante sí que resulta, quizá reminiscencias de esa sensación de ver hacer a una máquina algo que no sabes exactamente cómo lo hace pero parece funcionar bastante bien. Aunque el problema de estas cosas no suele ser que exista un algoritmo que funcione estupendamente… sino que se pueda aplicar masivamente a cantidades ingentes de datos, imágenes y vídeos obtenidos muchas veces sin consentimiento o sin respeto a la privacidad. Y que aun sabiendo que se podrá usar para hacer el bien en muchas áreas, indefectiblemente también sabes que se usará para hacer el mal porque las personas y las corporaciones somos como somos.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear