Un algoritmo que convierte texto a voz «con emoción y sentimiento» e imita a personajes y voces conocidas

Por @Alvy — 15 de Junio de 2022

15.ai se autodefine como un «sistema de síntesis de texto-a-voz de alta fidelidad, natural y emotivo, con los mínimos datos posibles». Se puede probar tecleando cualquier texto breve (o pulsando el icono Random) y reproduciendo las tres versiones distintas que se generan con cierto grado de confianza.

Lo más interesante de 15.ai (también conocido como DeepThroat = Garganta profunda) es cómo lo hace: «aprendiendo» como es la voz de diversos personajes a partir de unos pocos minutos de muestra e imitándolos en los resultados. Así que puede hacerse pasar con cierta facilidad por HAL9000, por el robot de Portal o por el mismísimo Doctor Who con su característico acento británico.

Entre los algoritmos que utiliza 15.ai están la separación de palabras en fonemas y la «detección de sentimientos» con DeepMoji. De hecho me pareció especialmente simpático que a partir de unas pocas frases extraiga los emoticonos más apropiados, con caritas tristes, enfadadas o divertidas, con el pulgar hacia arriba o el bíceps flexionado de «¡fuerza!» y cosas así.

Esto está bastante por encima de los chismes tipo Voicemaster, y dicen sus creadores que es muy superior a otros sistemas de conversión de texto a voz en lo que respecta a las emociones y el sentimiento. Personalmente encontré interesantes las pausas y el ritmo y que ciertamente se nota que según el contenido del texto se «interpreta» el resultado según lo que se intenta transmitir. Mejor que algunos actores y actrices sí que lo hace. Ojalá entrenarlo con la voz de Don Gregorio y ponerlo a prueba.

Relacionado: