Saltar la navegación

5.2 Desarrollar

La diversidad lingüística del ser humano y de las IA

Las lenguas son más que meras herramientas de comunicación; son portadoras de identidades culturales, conocimientos ancestrales y vínculos comunitarios. Su diversidad es paralela a la diversidad de culturas y sociedades y expresan la riqueza de la experiencia humana. Actualmente, se estima que hay unas 7000 lenguas habladas en el mundo, aunque muchas no tienen reconocimiento oficial, presencia en los medios de comunicación, están perdiendo hablantes o en peligro de desaparición. La Organización de las Naciones Unidas estima que el 90% de las lenguas del mundo podrían desaparecer en 2100, y la llegada de las tecnologías de inteligencia artificial puede acelerar este proceso.

La tecnología ha transformado la forma en que nos comunicamos, introduciendo nuevos términos, abreviaturas y formas de expresión. Sin embargo, también ha generado desafíos para la diversidad lingüística. Términos como "selfie", "tuitear" y "streaming" han surgido gracias a la influencia de la tecnología, enriqueciendo el vocabulario de los idiomas, pero no son términos presentes en todas las lenguas o que se hayan adaptado a ellas. Por ejemplo, el euskera creó neologismos como ordenagailu ("ordenador"), pero si no se usan en apps o videojuegos, la juventud prefiere el préstamo castellano ordenador. Las plataformas digitales y las redes sociales fomentan el uso de lenguas dominantes, lo que lleva a la simplificación de la lengua y a la pérdida de dialectos y expresiones regionales. En la actualidad, el 90% de los contenidos en internet están en solo 10 idiomas, lo que deja a miles de lenguas sin representación digital.

Todas las lenguas del mundo tienen su importancia y dignidad: no hay una lengua que no pueda expresar conocimientos abstractos o adaptarse a estructuras técnicas complejas. Sin embargo, su presencia es desigual. Muchas lenguas carecen de recursos tecnológicos (como traductores automáticos, chatbots o interfaces adaptadas) y otras comunidades lingüísticas se esfuerzan por preservar sus lenguas ante el predominio de idiomas globales como el inglés. La presión de la globalización y la existencia de esferas comunicativas internacionales pueden llevar a la pérdida de lenguas locales.

Factores que afectan la representación de las lenguas en la IA

La presencia de un idioma en la IA depende de factores como la disponibilidad de datos (corpus lingüísticos digitalizados), la inversión económica y tecnológica de países o empresas y la demanda comercial (mercados prioritarios para las empresas de IA). En definitiva, la presencia de una lengua en las nuevas tecnologías está determinada por brechas y desigualdades preexistentes. Con datos de 2024 podemos indicar que:

  • Dominio de la lengua inglesa: El inglés tiene una presencia mayoritaria en internet y en los desarrollos de inteligencia artificial; entre el 70 y el 80% de los modelos de lenguaje se entrenan primero en inglés.
  • Auge del chino mandarín: El mercado chino y las inversiones de empresas como Baidu o Alibaba le dan una posición destacada en el desarrollo de modelos de IA.
  • El español: Cuenta con una amplia presencia global, pero con menos recursos que el inglés y el mandarín.
  • Idiomas con un papel secundario: Lenguas como el francés, alemán, japonés, portugués, árabe, ruso, italiano y coreano están bien representadas en herramientas habituales (ChatGPT, traductores), pero con limitaciones en dialectos y contextos especializados.
  • Idiomas infrarrepresentados: Lenguas como el bengalí, hindi, suajili, yoruba o lenguas indígenas (quechua, mapudungun) apenas tienen contenidos digitales, a pesar de contar con millones de hablantes.
  • Idiomas minorizados: Variantes dialectales y lenguas minorizadas están casi ausentes de las tecnologías avanzadas.

Las consecuencias de la exclusión lingüística

La falta de representación de las lenguas en herramientas digitales avanzadas (como modelos de IA o traductores automáticos) genera un círculo vicioso de exclusión que afecta a tres niveles:

  • Pérdida de funcionalidad: Los hablantes se ven obligados a emplear idiomas dominantes para acceder a servicios digitales, reduciéndose el uso cotidiano de su lengua.
  • Pérdida de vocabulario: Sin adaptación tecnológica, las lenguas no desarrollan términos para conceptos modernos.
  • Desconexión intergeneracional: Los mayores, que dominan la lengua minoritaria pero no las tecnologías, quedan excluidos de la comunicación digital.

La diversidad lingüística es una fuente inagotable de creatividad y conocimiento. La IA puede ser una aliada en la preservación de las lenguas, pero se debe garantizar la representación equitativa de todas ellas en el mundo digital.

Feito con eXeLearning (Nova xanela)