Por @Alvy — 22 de Febrero de 2017

Image to Image Tensorflow

Esta Demo de Imagen-a-Imagen es una peculiar forma de ver cómo funcionan algunos sistemas de aprendizaje automático especializados en imágenes. Se trata de una adaptación a Tensorflow (una librería de código abierto para aprendizaje automático) de un trabajo titulado Image-to-Image Translation with Conditional Adversarial Networks.-

El experimento funciona así: el tipo de imágenes es, por ejemplo, «fachadas». Primero un humano entrena al sistema categorizando los elementos de diversas imágenes, por ejemplo ventanas, puertas, balcones, cornisas, columnas, muros, etcétera. Entonces se lleva a cabo el proceso inverso: dibujar en un esquema los elementos que se desean y el software calcula y construye la imagen que mejor encajaría en esa clasificación.

Es muy entretenido jugar con la demo interactiva a borrar, dibujar o probar «diseños aleatorios».

El resultado es, cuando menos, sorprendente. Las imágenes geométricas son bastante realistas, ajustan bien los elementos y en realidad no hay dos iguales puesto que al proceder de diversas fuentes –pueden surgir en varios estilos y colores. El sistema no solo sirve para un tipo de dibujos: como se puede entrenar con imágenes de todo tipo puede servir para muebles, ropa, e incluso gatos:

Gatos ML

El problema con los gatos parece ser que el algoritmo no tiene suficiente «entrenamiento» o que se le va un poco la olla con ciertos trazos: la mayor parte de los imaginarios bichos resultantes son criaturas mutantes que parecen salidas de un freak show. En especial parece tener algún problema con los ojos (¡ah, ojitos!), y es más que probable encontrarse con gatos con tres ojos, con ojos en las orejas, en las patas… En fin, que debe mejorar un poco en este aspecto.

Impresionante en cualquier caso, y el código se puede bajar para jugar con él.

Compartir en Flipboard  Compartir en Facebook  Tuitear
Por Nacho Palou — 8 de Febrero de 2017

Super resolution feature image 0

A partir de las imágenes pixeladas de muy baja resolución, sólo 64 píxeles, (columna izquierda) el sistema Google Brain trata de recrear el rostro de la persona con un aceptable nivel de detalle y de exactitud (columna central) cuando se comparan con la imagen original (columna derecha).

El resultado no es perfecto, pero hay que admitir cierto parecido teniendo en cuenta que Google Brain no dispone de toda la información que falta. En cambio la recrea empleando inteligencia artificial y aprendizaje máquina. «Es importante hacer notar que la imagen resultante “no es la imagen real”, sino que se trata de una “suposición” hecha por el ordenador y nada más», dicen en Ars Technica.

Super resolution feature image

Para llegar hasta esa “suposición” el sistema primero compara la imagen de baja resolución, de 8x8 píxeles, con numerosas imágenes en alta resolución ya existentes, con el fin de “entender” cómo sería una imagen en alta resolución que sea equivalente a eso que hay en un puñado de píxeles. Después la red neuronal detalla la imagen resultando lo que cada píxel individiual en baja resolución suele representar en una imagen en alta resolución.

El sistema funciona esencialmente igual que la tecnología RAISR que Google ha desarrollado para reducir el consumo de datos del móvil transfiriendo imágenes en baja resolución que después, una vez están ya en el móvil, se recrean en alta resolución para su visualización en la pantalla del teléfono.

Más: Pixel Recursive Super Resolution.

Relacionado,

Compartir en Flipboard  Compartir en Facebook  Tuitear
Por Nacho Palou — 12 de Enero de 2017

La propuesta del equipo de especialistas de inteligencia artificial de DeepDrive es aprovechar el mundo realista del juego Grand Theft Auto (GTA) como entorno virtual en el que los coches aprendan a conducir con «costes y riesgos cero»,

Los videojuegos modernos como GTA V generan un mundo donde los coches autónomos pueden recorrer grandes áreas urbanas, complejas y repletas de carreteras realistas, con meteorología variable, peatones, ciclistas y otros vehículos sin el problema que supone el riesgo de sufrir un accidente. Otra ventaja es que este tipo de simulación permite crear situaciones críticas de riesgo, algunas de las cuales sólo suceden en el mundo real una vez cada varios millones de kilómetros. Esto reduce drásticamente el tiempo que implica profundizar apropiadamente los distintos supuestos de la conducción.

Visto así la idea se podría calificar como brillante. La gente de DeepDrive ya tiene construida una plataforma de aprendizaje máquina aplicada a la conducción en el entorno virtual de Grand Theft Auto, en la que una red neuronal utiliza la imagen procedente del videojuego y actúa sobre los controles del vehículo para aprender a conducir.

El modelo es capaz de mantener el coche el carril, detenerse cuando otros coches frenan y circular bajo diferentes condiciones meteorológicas, de luminosidad y de tráfico, tal y como se puede ver en los vídeos de DeepDrive en YouTube.

Vía TNW + TechCrunch.

Compartir en Flipboard  Compartir en Facebook  Tuitear
Por @Alvy — 27 de Diciembre de 2016

Esta demostración denominada simplemente Wavenet TTS es una especie de avance de la línea que está siguiendo Google con DeepMind para mejorar la tecnología de síntesis de text-a-voz (TTS).

Las voces actuales de Google, Siri (Apple) y Cortana (Microsoft) están bien pero claramente suenan un poco mecánicas, con entonaciones extremadamente raras y en el caso de Google, demasiado «alegre y dicharachera», casi de broma. Tal y como cuentan en Geek, una nueva tecnología que predice y modela directamente la forma de las ondas del sonido resulta mucho más «humano». Realizando miles de predicciones por segundo y usando la red neuronal de DeepMind –entrenada por grabaciones de humanos– es una idea bastante distinta de la «concatenación de sonidos» a la que estamos acostumbrados.

Según dicen, además de generar una voz más clara y natural también puede usarse para generar muchas voces distintas sin extraordinario esfuerzo o incluso, a cierto nivel, directamente música. Las demostraciones que hay hasta el momento no son muy numerosas, ni largas, pero hay que reconocer que suenan prometedoras.

Compartir en Flipboard  Compartir en Facebook  Tuitear