El nuevo algoritmo de IA está descifrando lenguajes no descifrados
Los científicos han creado un nuevo algoritmo para buscar similitudes en idiomas antiguos y está destinado a desenredar el misterio de todos los idiomas no descifrados.
Según un nuevo informe del MIT, "la mayoría de los idiomas que han existido ya no se hablan". El estudio de idiomas perdidos y "no descifrados" se convierte en un desafío excepcional, ya que existen muy pocos registros antiguos para ayudar a las herramientas y algoritmos de traducción automática comunes como Google Translate. Dado que en ninguna parte se comprende lo suficiente sobre la gramática, el vocabulario o la sintaxis de las lenguas antiguas, muchos textos permanecen sin descifrar. Sin estos, todo un cuerpo de conocimiento sobre las personas que los hablaron ha sido inaccesible, hasta ahora dice el equipo del MIT.
Seguimiento de la evolución de idiomas no descifrados
El equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT creó recientemente un nuevo sistema informático que tiene la capacidad de "descifrar automáticamente los idiomas perdidos" sin necesidad de conocimientos avanzados de su relación con otros idiomas, incluidas las pausas, la puntuación, e inflexión. Además, este nuevo sistema fue probado por su capacidad de determinar automáticamente cualquier relación entre grupos lingüísticos, y en estas pruebas se estableció que la lengua ibérica de España no está relacionada con el euskera.
Una de las cinco placas del Monumento a los Fueros (Paseo de Sarasate, Pamplona). Éste fue escrito en 1905 en lengua vasca y en una adaptación de la escritura ibérica nororiental. (CC BY SA 3.0)
En este nuevo proyecto, que fue financiado en parte por la Actividad de Proyectos de Investigación Avanzada de Inteligencia (IARPA), la profesora del MIT Regina Barzilay explica en un nuevo artículo que el sistema "se basa en varios principios basados en conocimientos de la lingüística histórica" porque los idiomas evolucionan en términos predecibles. El Dr. Barzilay explica que los idiomas rara vez agregan u omiten sonidos completos y que es probable que se produzcan ciertas sustituciones de sonido, por ejemplo, las palabras con el sonido "p" en el idioma principal pueden desarrollar un sonido "b" en los idiomas descendientes, pero porque de la brecha de pronunciación significativa, es menos probable que una "p" se convierta en una "k".
Traducir sonidos en el vasto silencio del ciberespacio
Al reunir todos los patrones lingüísticos conocidos, el equipo de científicos desarrolló un nuevo "algoritmo de desciframiento" que está diseñado para procesar e interpretar lo que los investigadores describen como el "vasto espacio de posibles transformaciones y la escasez de una señal de guía en la entrada". " El nuevo algoritmo aprende automáticamente al incorporar los sonidos del lenguaje "en un espacio multidimensional donde las diferencias en la pronunciación se reflejan en la distancia entre los vectores correspondientes".
Lo que esto significa es que el nuevo sistema, o algoritmo, permite a los investigadores aislar patrones de lenguaje que expresan cambios, y los usa para formar nuevas restricciones y restricciones computacionales, y una vez que se segmentan en palabras en un lenguaje perdido, las similitudes con lenguajes relacionados pueden ser mapeado. Básicamente, busca puntos en común en los sonidos y sugiere posibles vínculos.
Además de identificar algunos signos para los números, Linear A sigue siendo un lenguaje no descifrado. (Olaf Tausch / CC BY 3.0)
Programación del espejo fonético vampírico
Flotando en un ciberespacio conceptual, el nuevo algoritmo actúa como un 'espejo fonético de vampiro' en el sentido de que refleja cualquier estructura de sonido que reconoce como similar a otras, pero no ofrece ningún reflejo de no relacionado o desconectado, sonidos, (de ahí el vampiro). El sistema también puede identificar la proximidad entre dos idiomas dados y puede determinar con precisión las "familias de idiomas". Es por eso que el equipo aplicó la nueva prueba (algoritmo) en las lenguas ibérica y vasca, "así como en candidatos menos probables de familias románicas, germánicas, turcas y urálicas".
Si bien se encontró que el euskera y el latín estaban más cerca del ibérico que otros idiomas, todavía eran demasiado diferentes para ser considerados "relacionados", y el equipo de académicos está actualmente en desacuerdo sobre el idioma relacionado real, algunos académicos afirman que el ibérico "no se relaciona con cualquier idioma conocido", según el nuevo artículo.
Los investigadores del MIT esperan que su conexión de textos antiguos con palabras relacionadas en idiomas conocidos, un proceso conocido como "desciframiento basado en afines", sea solo el primer paso en la creación de un sistema súper avanzado que finalmente podrá identificar el significado semántico de palabras, incluso si se desconoce cómo exactamente se pronunciaron originalmente estas palabras antiguas.
Imagen de portada: La escritura rongorongo es un idioma no descifrado. Fuente: Arthur Chapman / CC BY NC 2.0
Autor: Ashley Cowie
- Inicie sesión o regístrese para comentar