Por @Alvy — 17 de Julio de 2021

Image Super-Resolution via Iterative Refinement

Un equipo del equipo Brain Team de Google Research ha dado a conocer su más reciente trabajos sobre algoritmos para mejorar imágenes de baja resolución convirtiéndolas en imágenes de superresolución, lo que significa que con un pequeño puñado de píxeles se puede obtener una foto «bastante realista» mejorada, sin ruido ni basteces y bastante asombrosa a simple vista. Es un poco como haber dado un paso hacia el futuro aproximándonos a las predicciones del irrepetible zoom de C.S.I.:

El software en cuestión se llama S3 (Image Super-Resolution via Iterative Refinement) y la explicación completa está en un trabajo lleno de ecuaciones y tablas en Arxiv: Image Super-Resolution via Iterative Refinement. En palabras de los propios investigadores (y traducción de DeepL, otra IA):

SR3 es una aproximación a la superresolución de imágenes a través del refinamiento repetido. SR3 adapta los modelos probabilísticos de difusión de eliminación de ruido a la generación condicional de imágenes y realiza la superresolución mediante un proceso estocástico de eliminación de ruido. La inferencia comienza con ruido gaussiano puro y refina iterativamente la salida utilizando un modelo U-Net entrenado en filtrar diversos niveles de ruido. SR3 muestra un estupendo rendimiento en tareas de superresolución con diferentes factores de aumento, en rostros e imágenes naturales.

Image Super-Resolution via Iterative Refinement

Explicado en modo fácil de entender quiere decir que el modelo matemático parte de una imagen a baja resolución, genera una a mayor resolución que es ruido puro (píxeles aleatorios) y lo va filtrando descartando lo que no cuadra. El problema de esto es que hay muchas más imágenes de mayor resolución que imágenes que podrían generarse a tamaños más pequeños (incluyendo diferentes detalles, colores, etcétera) así que hay que probar cuáles pueden ser válidas y consistentes. Otros algoritmos hacen algo parecido utilizando «trozos» de las características faciales o de la piel y texturas de millones de fotografías reales. En el ejemplo de arriba se ven distintos algoritmos: algunos generan al mismo chico con y sin gafas, pelo canoso o barba; las de la chica son todas más parecidas, excepto la central que parece de un cantante de rock o quizá el Rubius en versión melena morena.

La técnica de muchos de estos algoritmos es emplear imágenes reales que proceden de fotografías de objetos existentes (rostros, animales, vehículos, etcétera) y que se utilizan para ir probando y así crear más imágenes «falsas» pero de modo realista a la vez. En el S3 se parte del ruido aleatorio absoluto pero se filtran y refiltran unas 100 veces hasta que el resultado queda limpio. Además el algoritmo parece potente porque puede pasar de 64×64 a 256×256 y 512×512 o 1024×1024 de forma bastante eficiente.

Una curiosidad de este método de «zoom» es que se puede entender como un truco casi de magia o de autoengaño. Si lo pruebas con imágenes de tu archivo y de personas que conozcas verás que es menos creíble que si observas fotos de personas desconocidas como las de las demos. Así que es un poco cuestión de cuánto te dejes engañar.

De hecho la forma de comprobar si funciona o no es validarlo con personas, que puntúan humanamente si las imágenes generadas son válidas y creíbles o no. Se hace una especie de prueba doble ciego con imágenes reales (es decir, de las que existe el original a alta resolución) y las generadas por el algoritmo, y se mira a ver cuántas «cuelan». Los resultados son que la tasa de engaño del SR3 ya supera el 50%, es decir, a día de hoy la mayoría son creíbles, parecen el zoom de la imagen pequeña.

¿Si el 90 o el 99% de las personas creyera que algo es creíble, sería entonces real y «cierto»? ¿Es esto una especie de test Voight-Kampff para engañar la percepción visual ser humano? ¿Qué sucedería si la IA pudiera hacer esto mismo pero con otros aspectos de nuestra percepción? Como siempre un sencillo algoritmo del campo de la IA puede abrir un melón de un montón de cuestiones interesantes.

(Vía @CristobalVila + @Edulix.)

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 6 de Julio de 2021

The Flemish Scrollers, 2021 – Dries Depoorter

Dries Depoorter es un hacker que ha creado una combinación definitiva y letal para los políticos adictos al móvil y que ha llamado The Flemish Scrollers (algo así como «los flamencos que hacen scroll»). Consiste en capturar las retransmisiones en vivo del parlamento belga para aplicarles un sistema de reconocimiento facial capaz de averiguar quiénes están despistados mirando a su teléfono móvil y entonces darles un toque tras comprobar quiénes son para llamarles la atención con un tuit citado a través de la cuenta @FlemishScroller y de Instagram: ¡Querido XYZ, permenece atento!

El sistema de reconocimiento de objetos/poses y rostros es Keras; además de eso se utiliza la API de Twitter y FFmpeg para capturar y revisar el streaming de vídeo que está disponible públicamente a través de YouTube.

No sé cuán efectiva será la iniciativa, ni cuántos políticos alegarán que están «trabajando consultando algo importante en el móvil», pero desde luego es llamativo. Los tuits además llevan incluidos los fragmentos de vídeo en los que son cazados in fraganti. Si se adaptara al parlamento español los resultados podrían ser de lo más sorprendentes.

(Vía Victoriano Izquierdo.)

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 3 de Julio de 2021

Nos escribieron algunos lectores para llamarnos la atención acerca de Copilot, una llamativa herramienta de GitHub/Microsoft que habíamos visto pasar el otro día y que sirve para generar código de programación a partir de un entrenamiento mediante inteligencia artificial. Llámalo «sugerencias», llámalo «copiar ejemplos de StackOverflow» este resultado de aplicar GPT-3 ya se había visto en alguna demostración y es bastante llamativo, aunque todavía no está claro cuán útil resultará en la práctica.

De momento puedes apuntarte para probarlo en la página de registro (hay lista de espera), utilizando una cuenta de Github. En el análisis han hecho en Fireship pueden verse muchos ejemplos de cómo funciona: normalmente basta simplemente comenzar a escribir comentarios para que la herramienta ofrezca código ya listo para usar. Se pueden definir funciones que por el nombre llevan al código que hace lo que se necesita, e incluso para cada trozo de código se puede elegir entre varias alternativas.

Copilot GitHub

Al utilizar técnicas de aprendizaje automático y haber sido entrenado con toneladas de código procedentes de GitHub, StackOverflow, foros y otros sitios la capacidad de producir sugerencias o «autocompletar el código» y que además funcione es descomunal; como dice el vídeo «parece la parodia de los memes en la que los programadores simplemente van buscando ejemplos en Google y copiando los mejores resultados, hecha realidad».

Como todo lo de GPT-3, el asunto tiene su enjundia. Digamos que no es fácil distinguir si la «magia» que hace es «real» (por decirlo de alguna forma) o simplemente un truco muy elaborado con el que nos engaña haciéndonos creer que es más «inteligente» de lo que es¹. Otra forma de verlo es que el motor de sugerencias funciona con todos los lenguajes: Python, JavaScript, TypeScript, Ruby, Go… de modo que claramente no es algo específico sino que funciona tan bien (o tan mal, o tan regular) como lo hace cuando sugiere textos temáticos. En fin: una herramienta para evaluar con más calma antes de anunciar el «fin de los programadores», porque como dice la propia página, «el que pilotas eres tú y esto no es nada más que un copiloto asistente».

_____
¹ En estos asuntos siempre me faltan comillas.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear
Por @Alvy — 2 de Julio de 2021

Este divertido clip que vuelve a hacer las rondas estos días fue una idea de Josh Darnit. El «reto» consiste en escribir las instrucciones exactas para hacer un sandwich. Y muestra cómo algo supuestamente sencillo puede convertirse en algo tan complicado como hilarante. El vídeo lo protagoniza el mismo Darnit con sus hijos; la idea se la dio un amigo cuyo profesor de ciencias lo utilizaba como práctica en los experimentos de clase.

Hay quien lo ve como metáfora de la informática y los algoritmos, de las interminables guías e instrucciones que a pesar de ser sumamente detalladas no consiguen que los usuarios hagan las cosas bien. El problema, en ese caso, no son los usuarios –a quienes no hay que suponerles ningún tipo de conocimiento, sino más bien lo contrario– sino de cómo se explica la tarea a llevar a cabo. Como bien apunta Fernand0, es un poco como darle instrucciones a un monstruo de Frankenstein que no entiende nada de nada y todo lo interpreta literalmente.

Hay quien también lo ve como una metáfora de la ciencia, donde damos muchas cosas por supuestas aunque en realidad no lo sean tanto: a veces incluso para las cuestiones más triviales como «meter el cuchillo en el bote» hay que especificar muchos más detalles. Y si no, que se lo pregunten a los ingenieros.

Crear un sandwich desde la nada tiene un poco de ambas cosas: algo de ciencia y algo de algoritmo, pero también mucho de sentido común, cultura de lo cotidiano y uso del lenguaje. Algo que por cierto tendemos que enseñar a las máquinas si queremos que hagan bien todo lo que les pedimos.

Relacionado:

Compartir en Flipboard Compartir en Facebook Tuitear

Un libro de @Alvy y @Wicho

Se suponía que esto era el futuro | un libro de Microsiervos, por Alvy y Wicho

Se suponía que esto era el futuro
Ciencia, tecnología y mucho más
www.microsiervos.com/libro


PUBLICIDAD

Desarrolla más rápido con Xojo