Por @Alvy — 27 de Diciembre de 2016

Esta demostración denominada simplemente Wavenet TTS es una especie de avance de la línea que está siguiendo Google con DeepMind para mejorar la tecnología de síntesis de text-a-voz (TTS).

Las voces actuales de Google, Siri (Apple) y Cortana (Microsoft) están bien pero claramente suenan un poco mecánicas, con entonaciones extremadamente raras y en el caso de Google, demasiado «alegre y dicharachera», casi de broma. Tal y como cuentan en Geek, una nueva tecnología que predice y modela directamente la forma de las ondas del sonido resulta mucho más «humano». Realizando miles de predicciones por segundo y usando la red neuronal de DeepMind –entrenada por grabaciones de humanos– es una idea bastante distinta de la «concatenación de sonidos» a la que estamos acostumbrados.

Según dicen, además de generar una voz más clara y natural también puede usarse para generar muchas voces distintas sin extraordinario esfuerzo o incluso, a cierto nivel, directamente música. Las demostraciones que hay hasta el momento no son muy numerosas, ni largas, pero hay que reconocer que suenan prometedoras.

Compartir en Flipboard  Compartir en Facebook  Tuitear

Microsiervos Selección


Steve Jobs

EUR 9,49

Comprar


Python for Data Analysis

EUR 27,94

Comprar


Amazon Associates

Los productos aquí enlazados están a la venta en Amazon. Incluyen un código de Afiliado Amazon Associates que nos cede un pequeño porcentaje de las ventas. Los productos están seleccionados por los autores del blog, pero ni Amazon ni los editores de los libros o fabricantes de los productos participan en dicha selección.

Más libros y productos en:

Microsiervos Selección