Meta anunció que el SeamlessM4T, el primer modelo de traducción de IA multimodal y multilingüe todo en uno que permite a las personas comunicarse sin esfuerzo a través de voz y texto en diferentes idiomas, se integrará a Facebook, Instagram, Messenger, WhatsApp y Threads.
En un video mostró cómo un audio en inglés es transcrito en segundos al español, y luego se reproduce audio en este idioma también.
¿Cómo funciona el modelo de traduccion IA?
El modelo de inteligencia artificial SeamlessM4T facilita el reconocimiento de voz para casi 100 idiomas, así como la traducción de voz a texto, de voz a voz (con salida de 36 idiomas), de texto a texto y de texto a voz (con salida de 35 idiomas).
SeamlessM4T ha sido publicado bajo una
licencia de investigación para permitir que los investigadores y desarrolladores usen este modelo de IA.
También se han liberado los metadatos de SeamlessAlign, el conjunto de datos de traducción multimodal abierto más grande hasta la fecha, con un total 270.000 horas de alineaciones de voz y texto extraídas.
Construir un traductor universal de idiomas es un desafío porque los sistemas existentes de voz a voz y de voz a texto solo cubren una pequeña fracción de los idiomas del mundo, señala la compañía.
"En comparación con los enfoques que utilizan modelos separados, SeamlessM4T reduce los errores y los retrasos, lo que aumenta la eficiencia y la calidad del proceso de traducción. Esto permite que las personas que hablan diferentes idiomas se comuniquen más entre sí efectivamente", indica Meta en un comunicado.
Uso de la tecnología en la traducción
El año pasado, Meta lanzó No Language Left Behind (NLLB), un modelo de traducción automática de texto a texto que admite 200 idiomas. Este servicio fue integrado a Wikipedia como uno de los proveedores de traducción.
Además, la propuesta de Meta se convirtió en el primer sistema de traducción directa de voz a voz para Hokkien, un idioma sin un sistema de escritura en Asia.
Previamente, la empresa tecnológica había presentado Massively Multilingual Speech, que proporciona reconocimiento de voz, identificación de idiomas y tecnología de síntesis de voz en más de 1,100 idiomas.
Más en Andina:
(FIN) NDP/SPV
Publicado: 22/8/2023