Cuando utilizamos la inteligencia artificial para traducir un texto, responder una pregunta o escribir un correo electrónico, tendemos a imaginar que funciona igual en cualquier idioma. La idea es lógica: si es "inteligente", debería poder manejar todos los idiomas con la misma soltura. Sin embargo, la realidad es bastante diferente. Los modelos no funcionan igual en inglés que en español, ni en español que en euskera. ¿Porque? ¿Es una limitación tecnológica inevitable o un reflejo de desigualdades más profundas en el mundo digital?
Para entender esto, hay que mirar la base de estas tecnologías: los datos. Los modelos de lenguaje como ChatGPT se entrenan con grandes cantidades de texto, tanto originales como creados por las personas que los entrenaron. Pero aquí surge la primera gran asimetría: la mayor parte del contenido escrito en línea está en inglés. No es una preferencia de modelo, es lo que es.
Idiomas para la formación
OpenAI, la empresa detrás de ChatGPT, y otras empresas no publican los porcentajes de peso exactos de cada idioma en entrenamiento, ni los modelos pueden calcularlos en función de los datos que manejan. Sin embargo, la tendencia es clara: el inglés domina con diferencia este contexto, seguido de los principales idiomas mundiales como el español, el francés o el alemán. A una distancia considerable encontramos lenguas con una presencia digital limitada, como el catalán o el galés. Y a una distancia aún mayor, las lenguas minoritarias cuyos rastros textuales en Internet son escasos o casi inexistentes.
Con esta distribución, el resultado es predecible: los modelos funcionan mejor en lenguajes con más datos. No se trata de afinidad, se trata de oportunidades de aprendizaje. Cuando un modelo ve millones de ejemplos de inglés, aprenderá mejor su gramática, vocabulario, diferentes registros y antecedentes culturales. Por otro lado, cuando tienes pocos ejemplos en un idioma, tienes menos material del cual derivar patrones confiables.
Leer más: Por qué las máquinas no hablan bien español y por qué deberían hacerlo
Esto explica por qué en algunos idiomas, especialmente el inglés, la IA parece más precisa y natural, mientras que en otros comete errores: errores de concordancia, expresiones que suenan "traducidas", construcciones rígidas o un estilo demasiado neutral o desconocido. La falta de datos también afecta al tipo de escritura: las lenguas que utilizan la escritura latina suelen estar mejor cubiertas que aquellas con sistemas menos extendidos digitalmente, como la escritura árabe o las escrituras indígenas, donde la escasez de ejemplos genera más errores.
¿Se puede reducir esta brecha?
Afortunadamente, la inteligencia artificial moderna no se limita a reproducir pasivamente esta desigualdad. Hay una serie de estrategias diseñadas para aliviar de alguna manera la falta de datos en idiomas escasos. Uno de los más importantes es el equilibrio del corpus, es decir, el número de textos que han sido respondidos. Entonces, incluso si el inglés es miles de veces más frecuente, durante el entrenamiento se puede aumentar la frecuencia con la que el modelo consulta idiomas minoritarios y reducir la exposición al inglés. Es una forma de evitar el entierro de las lenguas minoritarias.
Otra técnica clave es la transmisión multilingüe. Los modelos no aprenden cada idioma por separado: comparten representaciones internas. Si un modelo aprende español, parte de ese conocimiento se utiliza para portugués o italiano. Del mismo modo, el alemán refuerza a los holandeses. Esta transferencia ayuda a las lenguas con pocos datos siempre que pertenezcan a una familia lingüística con más parientes. Por otro lado, las lenguas más aisladas –como el japonés o el coreano– se benefician menos de este proceso.
Enseñar idiomas a la IA
Los datos sintéticos también se generan mediante traducción automática o corpus paralelos multilingües, como documentos de organizaciones internacionales o versiones de Wikipedia, que se utilizan para aprender la equivalencia entre idiomas. En etapas posteriores, intervienen instructores nativos, corrigiendo expresiones inapropiadas, reforzando el tono apropiado y afinando los detalles culturales que los big data no capturan.
Finalmente, existen técnicas específicas para evitar lo que se llama "olvido catastrófico": cuando un modelo continúa entrenándose con datos en el idioma dominante y sin darse cuenta comienza a degradar lo que sabía en los idiomas minoritarios. De esta forma, los métodos de regularización y aprendizaje continuo ayudan a mantener un cierto equilibrio.
Leer más: ¿Qué significa el experimento con Sam, el niño que enseña a hablar a las máquinas?
¿Qué está pasando con la diversidad lingüística?
Aun así, ningún recurso técnico puede compensar totalmente la falta de datos en el idioma y con poca restauración de su contenido, por lo que el inglés sigue siendo el idioma dominante y, por tanto, la brecha persiste.
Esto plantea una pregunta importante: ¿podría la inteligencia artificial contribuir a la pérdida de diversidad lingüística? Ese es un riesgo real. Si funciona mejor en inglés, es posible que algunas personas prefieran usarlo en ese idioma. Si los textos generados tienden a tener un estilo homogéneo, pueden influir en la redacción institucional, académica o mediática y así reemplazar los registros locales. Y si el lenguaje apenas aparece en Internet, puede quedar fuera de las herramientas tecnológicas que configuran cada vez más nuestra comunicación.
Revitalizar las lenguas minoritarias
También existe el potencial opuesto: la IA puede revitalizar las lenguas minoritarias. Puede generar materiales educativos, ayudar a documentar vocabulario, servir como interlocutor en procesos de aprendizaje o apoyar proyectos de digitalización. Con voluntad política y cultural, la tecnología puede ser una aliada.
El rendimiento desigual de la IA entre idiomas no es sólo una cuestión técnica: refleja la desigualdad del mundo real. No se trata de si la IA habla algunos idiomas mejor que otros, porque la respuesta es clara: sí, lo hace. La cuestión es cómo construir un futuro en el que la tecnología no se reproduzca, sino que reduzca las brechas lingüísticas.
0 Comentarios