Meta presenta un nuevo modelo de IA que traduce y transcribe cerca de 100 idiomas

El modelo multilingüe puede traducir del habla al texto, de texto a texto y de texto a voz

Este artículo es exclusivo para suscriptores (3)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

Ingrese a su cuenta para continuar disfrutando de nuestro contenido


Este artículo es exclusivo para suscriptores (2)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

Este artículo es exclusivo para suscriptores (1)

Suscríbase para disfrutar de forma ilimitada de contenido exclusivo y confiable.

Subscribe

Madrid. Meta presentó este martes un nuevo modelo de inteligencia artificial (IA) que realiza traducciones y transcripciones en casi 100 idiomas como parte de sus esfuerzos para desarrollar un traductor universal.

SeamlessM4T sigue un enfoque de sistema único para reducir los errores y los retrasos en los procesos de traducción, y aprovecha los avances realizados en otros modelos de la compañía, como No Language Left Behind, el traductor universal de voz y los modelos de voz multilingüe masivos.

Específicamente, este modelo multimodal y multilingüe puede reconocer el discurso en cerca de 100 idiomas, traducir del habla al texto en casi 100 idiomas de entrada y salida, traducir de voz a voz en casi 100 idiomas de entrada y 36 de salida, traducir de texto a texto en cerca de 100 idiomas, y traducir de texto a voz en 100 idiomas de entrada y 35 de salida.

“Construir un traductor de idiomas universal, similar al ficticio Pez de Babel de (la novela) Guía del autoestopista galáctico, es un desafío, ya que los sistemas de voz a voz y de voz a texto existentes solo abarcan una pequeña fracción de los idiomas del mundo. Sin embargo, creemos que el trabajo que anunciamos hoy representa un importante paso adelante en este viaje”, aseguró la compañía en su blog de IA.

Junto a este modelo, Meta también ha facilitado el conjunto de datos de traducción multimodal abierto SeamlessAlign, que contiene un total de 270.000 horas de alineaciones entre voz y texto.