Por @Alvy — 12 de Abril de 2018

Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.

El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).

El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.

El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la cara de la persona que se quiere escuchar limpiamente y el resto lo hace la máquina. Imagina un bar o una videoconferencia múltiple. O lo bien que escucharía Siri o tu coche inteligente si pudiera concentrarse sólo en ti y no en el ruido de alrededor.

Según afirman el sistema produce resultados superiores a los de otros métodos y es completamente independiente de la persona, es decir: una vez pasada la «fase de entrenamiento» previa puede reconocer y separar cualquier voz sin necesidad de que sea muy distinta de otras que se están solapando.

Los vídeos muestran monologuistas y entrevistas de televisión con dos personas, gente en un bar y en una videoconferencia con ruidos de voces de fondo. Y va muy bien. Me gustaría eso sí verlo en los acalorados debates televisivos sobre política – más que nada porque sería gracioso escuchar las pistas de audio limpias de las barbaridades que sueltan los tertulianos de turno. Lo que nos vamos a reír cuando lo hagan.

(Vía Android Police.)

Relacionado:

Compartir en Flipboard  Compartir en Facebook  Tuitear

Microsiervos Selección


Leonardo da Vinci: La biografía

EUR 12,34 (Reseña en Microsiervos)

Comprar


One Click: Jeff Bezos and the Rise of Amazon.com

EUR 9,49

Comprar


Amazon Associates

Los productos aquí enlazados están a la venta en Amazon. Incluyen un código de Afiliado Amazon Associates que nos cede un pequeño porcentaje de las ventas. Los productos están seleccionados por los autores del blog, pero ni Amazon ni los editores de los libros o fabricantes de los productos participan en dicha selección.

Más libros y productos en:

Microsiervos Selección