A diversidade lingüística do ser humano e as IA
As linguas son máis que meras ferramentas de comunicación; son portadoras de identidades culturais, coñecementos ancestrais e vínculos comunitarios. A súa diversidade é paralela á diversidade de culturas e sociedades e expresan a riqueza da experiencia humana. Actualmente, estímase que hai unhas 7000 linguas faladas no mundo, aínda que moitas non teñen recoñecemento oficial, presenza nos medios de comunicación, están perdendo falantes ou en perigo de desaparición. A Organización das Nacións Unidas estima que o 90% das linguas do mundo poderían desaparecer en 2100, e a chegada das tecnoloxías de intelixencia artificial pode acelerar este proceso.
A tecnoloxía transformou a forma en que nos comunicamos, introducindo novos termos, abreviaturas e formas de expresión. Porén, tamén xerou desafíos para a diversidade lingüística. Termos como "selfie", "tuitear" e "streaming" xurdiron grazas á influencia da tecnoloxía, enriquecendo o vocabulario dos idiomas, pero non son termos presentes en todas as linguas ou que se adaptaran a elas. Por exemplo, o éuscaro creou neoloxismos como ordenagailu ("ordenador"), pero se non se usan en apps ou videoxogos, a mocidade prefire o préstamo castelán ordenador. As plataformas dixitais e as redes sociais fomentan o uso de linguas dominantes, o que leva á simplificación da lingua e á perda de dialectos e expresións rexionais. Na actualidade, o 90% dos contidos en internet están en só 10 idiomas, o que deixa a miles de linguas sen representación dixital.
Todas as linguas do mundo teñen a súa importancia e dignidade: non hai unha lingua que non poida expresar coñecementos abstractos ou adaptarse a estruturas técnicas complexas. Porén, a súa presenza é desigual. Moitas linguas carecen de recursos tecnolóxicos (como tradutores automáticos, chatbots ou interfaces adaptadas) e outras comunidades lingüísticas esfórzanse por preservar as súa linguas ante o predominio de idiomas globais como o inglés. A presión da globalización e a existencia de esferas comunicativas internacionais poden levar á perda de linguas locais.
Factores que afectan a representación das linguas na IA
A presenza dun idioma na IA depende de factores como a dispoñibilidade de datos (corpus lingüísticos dixitalizados), o investimento económico e tecnolóxico de países ou empresas e a demanda comercial (mercados prioritarios para as empresas de IA). En definitiva, a presenza dunha lingua nas novas tecnoloxías está determinada por brechas e desigualdades preexistentes. Con datos de 2024 podemos indicar que:
- Dominio da lingua inglesa: O inglés ten unha presenza maioritaria en internet e nos desenvolvementos de intelixencia artificial; entre o 70 e o 80% dos modelos de linguaxe entrénanse primeiro en inglés.
- Auge do chinés mandarín: O mercado chinés e os investimentos de empresas como Baidu ou Alibaba dánlle unha posición destacada no desenvolvemento de modelos de IA.
- O español: Conta cunha ampla presenza global, pero con menos recursos que o inglés e o mandarín.
- Idiomas cun papel secundario: Linguas como o francés, alemán, xaponés, portugués, árabe, ruso, italiano e coreano están ben representadas en ferramentas habituais (ChatGPT, tradutores), pero con limitacións en dialectos e contextos especializados.
- Idiomas infrarrepresentados: Linguas como o bengalí, hindi, suajili, ioruba ou linguas indíxenas (quechua, mapudungun) a penas teñen contidos dixitais, a pesar de contar con millóns de falantes.
- Idiomas minorizados: Variantes dialectais e linguas minorizadas están case ausentes das tecnoloxías avanzadas.
As consecuencias da exclusión lingüística
A falta de representación das linguas en ferramentas dixitais avanzadas (como modelos de IA ou tradutores automáticos) xera un círculo vicioso de exclusión que afecta a tres niveis:
- Pérdida de funcionalidade: Os falantes vén obrigados a empregar idiomas dominantes para acceder a servizos dixitais, reducindose o uso cotián da súa lingua.
- Pérdida de vocabulario: Sen adaptación tecnolóxica, as linguas non desenvolven termos para conceptos modernos.
- Desconexión interxeracional: Os maiores, que dominan a lingua minoritaria pero non as tecnoloxías, quedan excluídos da comunicación dixital.
A diversidade lingüística é unha fonte inagotable de creatividade e coñecemento. A IA pode ser unha aliada na preservación das linguas, pero débese garantir a representación equitativa de todas elas no mundo dixital.