El Nuevo testamento de la Biblia fue una de las fuentes de entrenamiento de un modelo de inteligencia artificial de Meta, empresa matriz de Facebook e Instagram, que permite identificar hasta 4,000 idiomas y también facilita la traducción de voz a texto y de texto a voz para 1,107 idiomas.
Equipar sistemas con la capacidad de comprender y producir voces puede permitir que muchas más personas accedan a la información, incluidas aquellas que dependen totalmente de la voz para hacerlo.
Sin embargo, crear modelos de aprendizaje automático de buena calidad para estas tareas requiere grandes cantidades de datos etiquetados: en este caso, miles de horas de audio, además de transcripciones. Estos datos son inexistentes para la mayoría de los idiomas.
Por ejemplo, los modelos de reconocimiento de voz actuales solo abarcan aproximadamente 100 idiomas, una fracción de los más de 7,000 idiomas que se hablan en todo el mundo.
Creado a partir de textos de la Biblia
Recopilar datos de audio de miles de idiomas fue el primer desafío para Meta, ya que los mayores conjuntos de datos de voz actuales abarcan, como mucho, 100 idiomas. Para superarlo, los investigadores recurrieron a textos religiosos, como la Biblia, que se tradujeron a muchos idiomas distintos y cuyas traducciones se estudiaron en profundidad para investigar la traducción de textos lingüísticos.
Estas traducciones cuentan con grabaciones de audio, a disposición del público, de personas leyendo estos textos en diferentes idiomas. Como parte de este proyecto, creamos un conjunto de datos de lecturas del Nuevo Testamento en más de 1,100 idiomas, lo que proporcionó un promedio de 32 horas de datos por idioma.
Mediante las grabaciones no etiquetadas de otras lecturas religiosas cristianas, los investigadores pudieron incrementar el número de idiomas disponibles a más de 4,000.
En el proyecto
Massively Multilingual Speech (MMS, por sus siglas en inglés), se integró
wav2vec 2.0, un trabajo precursor en aprendizaje autosupervisado, así como un nuevo conjunto de datos que proporciona datos etiquetados para más de 1,100 idiomas y datos sin etiquetar para casi 4,000 idiomas. Los resultados demuestran que el nuevo modelo de
inteligencia artificial de Meta se desempeña bien en comparación con los modelos actuales y cubre
10 veces más idiomas.
Aunque estos datos provienen de un ámbito específico y los suelen leer hablantes masculinos, el análisis demuestra que los modelos funcionan con la misma eficacia tanto para voces masculinas como femeninas.
"Y, si bien el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no sesga el modelo para producir un lenguaje más religioso. Creemos que esto se debe a que utilizamos un enfoque de clasificación temporal conexionista (CTC), que está mucho más restringido en comparación con los modelos de lenguaje grandes (LLM, por sus siglas en inglés) o los modelos secuencia a secuencia de reconocimiento de voz", indicó la compañía en su blog oficial.
A medida que aumenta el número de idiomas, el rendimiento disminuye, pero muy poco: al pasar de 61 a 1.107 idiomas, el porcentaje de errores de caracteres aumenta solo en un 0,4%, pero la cobertura lingüística aumenta más de 17 veces.
¿Mejor modelo de inteligencia artificial para idiomas?
En una comparación equivalente con el modelo Whisper de
OpenAI, los investigadores de Meta descubrieron que los modelos entrenados con los datos del proyecto de
inteligencia artificial reducen a la mitad el porcentaje de errores de palabras, pero MMS abarca 11 veces más idiomas. Esto demuestra que el modelo de Meta puede funcionar muy bien en comparación con los mejores modelos de voz actuales.
Con el entrenamiento de más de 4,000 idiomas, el rendimiento sigue siendo bueno, aseguran los investigadores. Por otro lado, también crearon sistemas de conversión de texto a voz para más de 1,100 idiomas.
"Nuestros resultados nos motivan pero, como ocurre con todas las nuevas tecnologías de inteligencia artificial (IA), estos modelos no son perfectos. Por ejemplo, existe cierto riesgo de que el modelo de voz a texto transcriba mal determinadas palabras o frases. En función de los resultados, esto podría generar un lenguaje ofensivo o inexacto. Creemos que la colaboración a lo largo de la comunidad de IA es fundamental para el desarrollo responsable de tecnologías impulsadas por inteligencia artificial", aclara Meta.
Muchos idiomas del mundo están en peligro de desaparecer y las limitaciones de las tecnologías actuales de reconocimiento y generación de voz solo acelerarán esta tendencia. Es por ello que Meta busca que se puedan preservar estos idiomas en riesgo.
"Nuestro objetivo es facilitar a las personas el acceso a la información y el uso de los dispositivos en su idioma de preferencia", concluye la compañía.
Más en Andina: (FIN) NDP/ SPV
JRA
Publicado: 22/5/2023