UPC: Sistema multilingüe de búsqueda y traducción de contenidos audiovisuales
Estará listo en julio y podrá traducir emisiones de radio, TV y texto en todas las lenguas del Estado y en inglés.
El sistema desarrollado en el marco del proyecto Buceador, liderado por el Grupo de Tratamiento del Habla (VEU) de la Universitat Politècnica de Catalunya (UPC), permite realizar búsquedas y traducciones para archivos de vÃdeo, audio y documentos de texto en castellano, catalán, vasco, gallego e inglés.
Con el nuevo sistema, el resultado de la búsqueda de un vÃdeo o un audio es un documento, bien con la voz traducida y sintetizada en el idioma que se desee, bien subtitulado en otro idioma. En caso de que el documento buscado tenga formado texto, el resultado podrá ser igualmente un texto y un archivo de audio en el idioma de traducción elegido.
Esta aplicación es la primera que traduce emisiones de radio, televisión y texto en todas las lenguas del Estado español, además del inglés. "Puede traducir una emisión de televisión en vasco al catalán en audio y en texto. Además, permite que la palabra de búsqueda se pueda introducir en cualquiera de esos idiomas y obtener resultados para los mismos idiomas", explica Asunción Moreno, coordinadora de Buceador.
El proyecto, liderado por la UPC, se desarrolla en el marco del Plan Nacional de I+D+i con la participación de las universidades del PaÃs Vasco y de Vigo, y con el apoyo de Barcelona Media. En el ecuador de la investigación, que finalizará en el 2012, ahora se está desarrollando un prototipo que estará listo en julio.
El objetivo final del proyecto es mejorar las tecnologÃas y sistemas de reconocimiento automático del habla, la traducción y la sÃntesis de voz. Aunque la aplicación está pensada para ser empleada en la industria audiovisual, "el sistema puede convertirse en un buscador que ponga al alcance de todos imágenes en movimiento, fotografÃas y textos asociados a una palabra y las pueda traducir a cualquier idioma", prevé Moreno.
La traducción, centro del sistema
El proyecto Buceador va un paso más allá de un proyecto anterior, llamado Avivavoz, en el marco del que la UPC desarrolló, con las universidades del PaÃs Vasco y de Vigo, un sistema de subtitulado automático de archivos de vÃdeo para las lenguas gallega, catalana y castellana.
Los sistemas de traducción empleados por la UPC son estadÃsticos pues, como el de Google o el N-II —traductor automático para castellano, catalán e inglés desarrollado por el Grupo VEU de la UPC—, son idóneos para traducir el habla. Superan los sistemas basados en reglas porque son capaces de resolver traducciones de palabras ligadas, aprenden de las traducciones y se les puede entrenar para especializarlos en registros o ámbitos especÃficos. "En traducciones que dependen del contexto, como es el caso de la palabra ‘portero’, estos traductores son capaces de discernir si hablamos del "portero" de fútbol o del "portero" de un edificio", aclara Moreno.
Además, las traducciones desarrolladas por la UPC, siguen el proceso siguiente: se transcribe lo que se habla (reconocimiento del habla), el texto resultante se traduce al idioma deseado en formato texto y este texto se convierte de nuevo al lenguaje oral. "Gracias a este proceso, el sistema puede detectar las pausas, puede resolver los difluencias que se dan en la lengua hablada y es capaz de dar a la comunicación la entonación y el sentido adecuados", concluye Moreno.