Por @Alvy — 19 de Agosto de 2021

Neuralhash A   Neuralhash B

Las dos imágenes del ejemplo que ha encontrado Sarah Jaime Lews tienen el mismo Neural Hash: 1e986d5d29ed011a579bfdea. Lo cual no debería ser posible porque se supone que variaciones de la imagen original en cuanto a objetos y contenido deberían generar un valor distinto; el algoritmo es –teóricamente– resistente a que la imagen cambie un poco de tamaño, color o calidad de compresión.

Neural Hash es el sistema de clasificación que se utiliza en el polémico CSAM de Apple que examina las imágenes archivadas en los dispositivos:

Neural HASH es un avanzado sistema de clasificación de personas u objetos (…) capaz de detectar 3.072 sujetos u objetos por segundo en cada punto de conteo con una precisión del 97-99,9%, tanto en espacios cerrados como abiertos. – Infinity Neural
La tecnología de hashing, llamada NeuralHash, analiza una imagen y la convierte en un número único específico a esa imagen. Sólo otra imagen que parezca casi idéntica puede producir el mismo número; por ejemplo, las imágenes que difieren en tamaño o calidad de transcodificación tendrán el mismo valor Neural Hash. – Apple CSAM Tech Summary

Como en otros sistemas diseñados para engañar y confundir a los algoritmos de inteligencia artificial, este truco consiste en ir probando variaciones hasta dar con el hash correcto, lo que técnicamente se conoce una «colisión matemática de una imagen adversaria», lo hemos visto incluso con imágenes colgadas del cuello y jerseys para engañar a otros clasificadores.

Ya han publicado un código llamado Neural Hash Collider que sirve precisamente para realizar esta tarea de forma automática:

neuralhash 2611fc

Como experimento curioso StackSmashing– utilizó la herramienta para generar otras curiosidades, como esta imagen autorreferente que contiene una imagen gráfica de su propio valor hash.

Relacionado:

Compartir en Flipboard Tuitear
Por @Alvy — 30 de Julio de 2021

GitHub - Kazuhito00/Tokyo2020-Pictogram-using-MediaPipe

Uno de los grandes exitos de la inauguración de la ceremonia de inauguración de los Juegos Olímpicos de Tokio 2020 fue la presentación de los pictogramas: iconos animados muy estilosos y bien resueltos. Ahora esto mismo se puede hacer en casa con una webcam y software libre con un software para crear pictogramas animados. El resultado es bastante simple pero llamativo y, oye, ¡it’s free!

Tras esta idea está Kazuhito Takahashi, que ha publicado el código en Github: Tokyo 2020 Pictogram using MediaPipe. El código es básicamente un reconocedor de poses humanas mediante aprendizaje automático que emplea el software MediaPipe para procesar las imágenes de la webcam. El resto es un poco «unir los puntos» pero con estilo según

En la inauguración oficial unos artistas representaron cada uno de los 50 pictogramas con gracia y habilidad, tras semanas o meses de ensayo. Ahora puedes hacer lo mismo desde el salón e intentar batir algún récord, aunque sea desde el sofá o haciendo el pictograma del «levantamiento de birra» tomándote una cervecita.

Relacionado:

Compartir en Flipboard Tuitear
Por @Alvy — 17 de Julio de 2021

Image Super-Resolution via Iterative Refinement

Un equipo del equipo Brain Team de Google Research ha dado a conocer su más reciente trabajos sobre algoritmos para mejorar imágenes de baja resolución convirtiéndolas en imágenes de superresolución, lo que significa que con un pequeño puñado de píxeles se puede obtener una foto «bastante realista» mejorada, sin ruido ni basteces y bastante asombrosa a simple vista. Es un poco como haber dado un paso hacia el futuro aproximándonos a las predicciones del irrepetible zoom de C.S.I.:

El software en cuestión se llama S3 (Image Super-Resolution via Iterative Refinement) y la explicación completa está en un trabajo lleno de ecuaciones y tablas en Arxiv: Image Super-Resolution via Iterative Refinement. En palabras de los propios investigadores (y traducción de DeepL, otra IA):

SR3 es una aproximación a la superresolución de imágenes a través del refinamiento repetido. SR3 adapta los modelos probabilísticos de difusión de eliminación de ruido a la generación condicional de imágenes y realiza la superresolución mediante un proceso estocástico de eliminación de ruido. La inferencia comienza con ruido gaussiano puro y refina iterativamente la salida utilizando un modelo U-Net entrenado en filtrar diversos niveles de ruido. SR3 muestra un estupendo rendimiento en tareas de superresolución con diferentes factores de aumento, en rostros e imágenes naturales.

Image Super-Resolution via Iterative Refinement

Explicado en modo fácil de entender quiere decir que el modelo matemático parte de una imagen a baja resolución, genera una a mayor resolución que es ruido puro (píxeles aleatorios) y lo va filtrando descartando lo que no cuadra. El problema de esto es que hay muchas más imágenes de mayor resolución que imágenes que podrían generarse a tamaños más pequeños (incluyendo diferentes detalles, colores, etcétera) así que hay que probar cuáles pueden ser válidas y consistentes. Otros algoritmos hacen algo parecido utilizando «trozos» de las características faciales o de la piel y texturas de millones de fotografías reales. En el ejemplo de arriba se ven distintos algoritmos: algunos generan al mismo chico con y sin gafas, pelo canoso o barba; las de la chica son todas más parecidas, excepto la central que parece de un cantante de rock o quizá el Rubius en versión melena morena.

La técnica de muchos de estos algoritmos es emplear imágenes reales que proceden de fotografías de objetos existentes (rostros, animales, vehículos, etcétera) y que se utilizan para ir probando y así crear más imágenes «falsas» pero de modo realista a la vez. En el S3 se parte del ruido aleatorio absoluto pero se filtran y refiltran unas 100 veces hasta que el resultado queda limpio. Además el algoritmo parece potente porque puede pasar de 64×64 a 256×256 y 512×512 o 1024×1024 de forma bastante eficiente.

Una curiosidad de este método de «zoom» es que se puede entender como un truco casi de magia o de autoengaño. Si lo pruebas con imágenes de tu archivo y de personas que conozcas verás que es menos creíble que si observas fotos de personas desconocidas como las de las demos. Así que es un poco cuestión de cuánto te dejes engañar.

De hecho la forma de comprobar si funciona o no es validarlo con personas, que puntúan humanamente si las imágenes generadas son válidas y creíbles o no. Se hace una especie de prueba doble ciego con imágenes reales (es decir, de las que existe el original a alta resolución) y las generadas por el algoritmo, y se mira a ver cuántas «cuelan». Los resultados son que la tasa de engaño del SR3 ya supera el 50%, es decir, a día de hoy la mayoría son creíbles, parecen el zoom de la imagen pequeña.

¿Si el 90 o el 99% de las personas creyera que algo es creíble, sería entonces real y «cierto»? ¿Es esto una especie de test Voight-Kampff para engañar la percepción visual ser humano? ¿Qué sucedería si la IA pudiera hacer esto mismo pero con otros aspectos de nuestra percepción? Como siempre un sencillo algoritmo del campo de la IA puede abrir un melón de un montón de cuestiones interesantes.

(Vía @CristobalVila + @Edulix.)

Relacionado:

Compartir en Flipboard Tuitear
Por @Alvy — 6 de Julio de 2021

The Flemish Scrollers, 2021 – Dries Depoorter

Dries Depoorter es un hacker que ha creado una combinación definitiva y letal para los políticos adictos al móvil y que ha llamado The Flemish Scrollers (algo así como «los flamencos que hacen scroll»). Consiste en capturar las retransmisiones en vivo del parlamento belga para aplicarles un sistema de reconocimiento facial capaz de averiguar quiénes están despistados mirando a su teléfono móvil y entonces darles un toque tras comprobar quiénes son para llamarles la atención con un tuit citado a través de la cuenta @FlemishScroller y de Instagram: ¡Querido XYZ, permenece atento!

El sistema de reconocimiento de objetos/poses y rostros es Keras; además de eso se utiliza la API de Twitter y FFmpeg para capturar y revisar el streaming de vídeo que está disponible públicamente a través de YouTube.

No sé cuán efectiva será la iniciativa, ni cuántos políticos alegarán que están «trabajando consultando algo importante en el móvil», pero desde luego es llamativo. Los tuits además llevan incluidos los fragmentos de vídeo en los que son cazados in fraganti. Si se adaptara al parlamento español los resultados podrían ser de lo más sorprendentes.

(Vía Victoriano Izquierdo.)

Compartir en Flipboard Tuitear

Un libro de @Alvy y @Wicho

Se suponía que esto era el futuro | un libro de Microsiervos, por Alvy y Wicho

Se suponía que esto era el futuro
Ciencia, tecnología y mucho más
www.microsiervos.com/libro


PUBLICIDAD

Desarrolla más rápido con Xojo