Cultura

El sistema de Facebook puede entrenar a los modelos de IA para que reconozcan el habla sin datos de audio transcritos

El equipo de inteligencia artificial de Facebook Inc. reveló hoy una forma de construir sistemas de reconocimiento de voz sin utilizar ningún dato de audio transcrito para entrenarlos.

El reconocimiento de voz es uno de los tipos más comunes de IA, ampliamente utilizado en muchas aplicaciones populares. Amazon Alexa y Google Assistant, por ejemplo, usan el reconocimiento de voz para comprender los comandos de sus usuarios. Y las herramientas de transcripción, como los subtítulos generados automáticamente en YouTube, también dependen de él.

Pero no todo el mundo se beneficia del reconocimiento de voz. La tecnología se ha implementado solo para hablantes de algunos de los idiomas más comunes del mundo, como inglés, árabe, chino, español, francés, etc. Pero para los hablantes de idiomas menos comunes, como el euskera, el suajili o el tagalo, los sistemas de reconocimiento de voz son mucho más limitados.

La razón de esto es que dichos sistemas deben entrenarse en grandes cantidades de audio que ya se han transcrito. Cantidades masivas de esos datos están disponibles en inglés y otros idiomas comunes, pero eso no es cierto para muchos de los idiomas menos hablados en el mundo.

Es para los hablantes de estos idiomas que se creó “wav2vec Unsupervised”. Wav2vec-U, como lo llaman los investigadores de Facebook, es un método que se puede utilizar para crear modelos de reconocimiento de voz de alta calidad sin ningún dato de entrenamiento etiquetado.

“Wav2vec-U es el resultado de años de trabajo de Facebook AI en reconocimiento de voz, aprendizaje auto supervisado y traducción automática no supervisada”, escribieron los investigadores de Facebook AI Alexei Baevski, Wei-Ning Hsu y Michael Auli en una publicación de blog hoy. “Es un paso importante hacia la construcción de máquinas que pueden resolver una amplia gama de tareas con solo aprender de sus observaciones”.

Wav2vec-U todavía necesita datos de entrenamiento, por supuesto, pero puede aprender usando audio de voz grabado y texto no emparejado, lo que significa que no hay necesidad de transcripciones de audio menos comunes. Comienza aprendiendo la estructura del habla del idioma de destino a partir del audio sin etiquetar.

Luego utiliza lo que se llama una “red generativa de confrontación” que consta de un “generador” y un “discriminador” para enseñar al modelo a asociar textos del idioma de destino con el audio sin etiquetar que se envía a él. Inicialmente, las transcripciones creadas por el generador serán bastante deficientes, pero el discriminador proporciona información que permite que el modelo sea más preciso con el tiempo.

Los resultados de los experimentos de Facebook muestran que los modelos entrenados con wav2vec-U eventualmente se vuelven extremadamente precisos. Cuando se evaluaron los primeros modelos en el punto de referencia TIMIT, se descubrió que reducían las tasas de error en un 63% en comparación con otros métodos de aprendizaje no supervisados.

LEER  PACTO CON EL DIABLO

Los investigadores de Facebook también compararon el rendimiento de wav2vec-U con modelos de IA supervisados ​​que se entrenaron de la manera tradicional. Utilizando el punto de referencia Librispeech, se descubrió que wav2vec-U era tan preciso como los que se consideraban modelos de reconocimiento de voz de última generación hace solo un par de años.

Facebook dijo que wav-2vec-U es un avance importante porque cree que el reconocimiento de voz no solo debería ser útil para las personas que dominan los idiomas más hablados del mundo. Quiere que todos puedan beneficiarse.

“Reducir nuestra dependencia de los datos anotados es una parte importante de ampliar el acceso a estas herramientas”, dijeron los investigadores. “Esperamos que esto conduzca a una tecnología de reconocimiento de voz altamente eficaz para muchos más idiomas y dialectos en todo el mundo”.

Wav-2vec-U también nos acerca a la construcción de modelos de IA que pueden aprender de una manera mucho más humana, explicaron los investigadores.

“De manera más general, las personas aprenden muchas habilidades relacionadas con el habla con solo escuchar a los que les rodean”, escribieron. “Esto sugiere que existe una mejor manera de entrenar modelos de reconocimiento de voz, una que no requiera grandes cantidades de datos etiquetados”.

Imagen: Facebook

Ya que estás aquí …

Muestre su apoyo a nuestra misión con nuestra suscripción de un clic a nuestro canal de YouTube (abajo). Cuantos más suscriptores tengamos, más YouTube le sugerirá contenido empresarial relevante y de tecnología emergente. ¡Gracias!

Apoya nuestra misión: >>>>>> SUSCRÍBETE AHORA >>>>>> a nuestro canal de YouTube.

… También nos gustaría contarte sobre nuestra misión y cómo puedes ayudarnos a cumplirla. El modelo comercial de SiliconANGLE Media Inc. se basa en el valor intrínseco del contenido, no en la publicidad. A diferencia de muchas publicaciones en línea, no tenemos un muro de pago ni ejecutamos anuncios publicitarios, porque queremos mantener nuestro periodismo abierto, sin influencia ni la necesidad de perseguir el tráfico.El periodismo, los informes y los comentarios sobre SiliconANGLE, junto con el video en vivo sin guión de nuestro estudio de Silicon Valley y los equipos de video trotamundos en el cubo – requiere mucho trabajo, tiempo y dinero. Mantener la calidad alta requiere el apoyo de patrocinadores que estén alineados con nuestra visión de contenido periodístico sin publicidad.

Si le gustan los informes, las entrevistas en video y otro contenido sin publicidad aquí, tómese un momento para ver una muestra del contenido de video respaldado por nuestros patrocinadores, tuitea tu apoyoy sigo volviendo a SiliconaANGLE.

Author

Moisés Cabrera

Encantado de emprender, el Internet es como pez en el rio para mi y quiero aportar valor a este mundo digital. Si crees que es de interés estos artículos no dudes en comentar.

¿Te gusta nuestro contenido?Recibe noticias y estrategias digitales a tu correo.

No pierda la oportunidad de recibir también descuentos de nuestros servicios.