Axolotl es un repositorio náhuatl - español que busca generar traducciones automáticas

Cuando hablamos de Procesamiento del Lenguaje Natural, hablamos de esa capacidad que tiene una máquina de entablar una conversación con nosotros, entender lo que decimos y emitir una respuesta ante ello, para lograrlo, se requieren diversas disciplinas trabajando en conjunto, entre ellas la lingüística, computación, estadística y matemáticas por citar algunas. El sueño de las creadoras de Axolotl es lograr un corpus paralelo náhuatl - español con la idea de crear un traductor automático entre ambas lenguas.

Un corpus es una gran colección de documentos que se alimentan a una base de datos en la búsqueda de patrones del lenguaje humano, esto permite conocer el lenguaje y desarrollar la tecnología necesaria para poder realizar la interacción humano - máquina. Dentro de los corpus destacan los corpus paralelos, en tecnologías digitales, estos se utilizan principalmente para hacer traducciones de una lengua a otra. El trabajo que se hace con Axolotl es crear un corpus paralelo náhuatl - español.

Un vistazo a…
POCO X4 Pro 5G: IMPRESIONES del ¿MEJOR en CALIDAD-PRECIO de XIAOMI?

Ximena Gutiérrez, Elena Vilchis y Rocío Cerbón son las ingenieras detrás de este corpus lingüístico. Un corpus recoge aspectos de la realidad pero debe ser amplio y relevante para conformar un modelo al cual recurrir en un entorno en que se demande la traducción.

Para la creación de Axolotl se obtuvieron diversas fuentes entre textos históricos, didácticos, cuentos, recetarios, musicales suman un total de 38 libros, que presentan una variación dialectal y diacrónica, lo que le dá más riqueza ya que no todos los textos pertenecen a la misma variante ni a la misma época.

Estas fuentes no estaban disponibles de manera digital, así que tuvieron que digitalizarse y corregir manualmente los textos digitalizados, pues la tecnología OCR de reconocimiento automático de caracteres, no sabía como interpretar el náhuatl.

Actualmente, el corpus paralelo Axolotl está disponible en línea y puede ser consultado por cualquier persona, solo es necesaro que se cree una cuenta de registro en la página de la UNAM.

Sin duda es un reto lograr que una lengua minoritaria y con baja o nula representación digital como el náhuatl pueda ser la base de un corpus paralelo, y que a partir de ella y sus traducciones al español, se pueda lograr un aprendizaje de esta lengua que actualmente es hablada por más de un millón y medio de personas en nuestro país.

Ver todos los comentarios en https://www.xataka.com.mx

VER 1 Comentario

Portada de Xataka México