El espejismo digital: ¿está la inteligencia artificial aprendiendo de un pasado incompleto?

Gracias por darme amor compartiendo en tu app favorita:

En plena era de la inteligencia artificial y la digitalización global, surge una paradoja inquietante: mientras más dependemos de los datos digitales para entrenar algoritmos inteligentes, más evidente se hace la pérdida progresiva de contenido en línea y la exclusión de enormes fragmentos del conocimiento humano no digitalizado. ¿Está la IA aprendiendo sobre el mundo desde una base incompleta, sesgada y efímera?

Este artículo analiza los riesgos del “espejismo digital”, la fragilidad de la web como archivo, el papel de los motores de búsqueda en la desaparición del contenido valioso, y la desconexión entre las inteligencias artificiales y la vastedad del conocimiento humano.

Además, explora soluciones urgentes: desde la preservación activa de archivos digitales hasta la necesidad de modelos verdaderamente multilingües y multimodales. Una reflexión crítica sobre cómo, sin memoria ni diversidad real en los datos, el futuro de la inteligencia artificial puede estar construido sobre arenas movedizas.


La paradoja del conocimiento digital y la desaparición silenciosa

En una era en la que el acceso al conocimiento parecía al alcance de un clic, nos enfrentamos a una contradicción alarmante: mientras dependemos cada vez más de sistemas de inteligencia artificial (IA) para interpretar el mundo, la base de datos que utilizan es incompleta, volátil y profundamente sesgada. El conocimiento humano, en su vastedad y diversidad, ha sido transmitido a lo largo de milenios mediante formas que no siempre son accesibles al ojo digital.

Esta paradoja no es solo técnica: es cultural, histórica y filosófica.

Nos obliga a preguntarnos si la visión del mundo que están formando las IAs modernas es una representación precisa o una proyección limitada, construida a partir de lo que ha sido digitalizado —y, más aún, de lo que permanece en línea y accesible. Como planteaba la filósofa y especialista en medios digitales Wendy Hui Kyong Chun, en 2008, “el archivo digital es más frágil que cualquier papiro”.


La fragilidad de la web: un archivo en constante disolución

La idea de que Internet es un repositorio permanente del conocimiento humano es una ilusión. Diversos estudios han demostrado que grandes cantidades de información en línea desaparecen constantemente.

Un análisis de la Universidad de Harvard de 2013 halló que el 50 % de los enlaces en las decisiones judiciales de Estados Unidos ya no eran accesibles después de unos años.

Este fenómeno, conocido como link rot (corrupción de enlaces), afecta no solo a publicaciones antiguas sino también a investigaciones científicas, sitios de medios y contenido educativo. La alta tasa de desaparición de contenido sin copia de seguridad es una preocupación central para iniciativas como el proyecto Not Your Parents’ Web, liderado por el Filecoin Foundation y el Internet Archive. De hecho, estudios sobre la persistencia digital han estimado que la vida media de una página web es de aproximadamente 2,3 años.

Helen Hockx-Yu, exdirectora del programa de archivo web de la British Library, advirtió:

“Estamos perdiendo parte de nuestro patrimonio cultural en línea a un ritmo alarmante. Si no lo archivamos ahora, se perderá para siempre.”

El problema se agrava por la lógica de los motores de búsqueda, que priorizan lo reciente, lo popular o lo “optimizadamente visible”, desplazando contenidos profundos o especializados hacia la invisibilidad digital.

La web, lejos de ser una biblioteca ordenada, se comporta más bien como un flujo inestable en el que lo más valioso puede naufragar sin dejar rastro. Buena parte de la responsabilidad por este naufragio —y por el abandono de lo único, lo especial y lo diferente— recae en Google y, en particular, en su sistema de indexación. Por otro lado, las inteligencias artificiales requieren constantemente nuevos corpus para nutrirse. Alimentarlas con contenido ya digerido no mejora su rendimiento; al contrario, puede empobrecer su capacidad generativa al reforzar fórmulas repetidas y simplificadas.


El sesgo inherente: cuando la IA solo ve una parte de la historia

Las inteligencias artificiales modernas —especialmente los grandes modelos de lenguaje como GPT, PaLM, Claude o Gemini— son entrenadas con datos digitalizados de Internet. Pero ¿qué ocurre si esos datos son una pequeña muestra de la experiencia humana, filtrada, distorsionada o sesgada?

Fei-Fei Li, referente en la ética de la IA y fundadora de AI4ALL, ha sido contundente:

“La IA es tan buena como los datos con los que se alimenta. Si nuestros datos están sesgados, nuestras IAs estarán sesgadas.”

Este sesgo se manifiesta de múltiples formas.

Uno de los más evidentes es el anglocentrismo: según estimaciones de W3Techs (2023), más del 55 % del contenido indexado por la web está en inglés, mientras que idiomas como el árabe, el hindi o el swahili tienen una representación ínfima, a pesar de contar con millones de hablantes. La consecuencia: los modelos aprenden una visión del mundo centrada en los valores, estructuras y perspectivas anglosajonas, dejando en segundo plano narrativas, saberes y culturas enteras.

A esto se suma la exclusión de fuentes “no convencionales”: publicaciones locales, historia oral, literatura impresa fuera de catálogos digitales, conocimiento indígena, saberes técnicos no documentados en línea. Como resultado, las IAs tienden a reproducir los mismos sesgos sociales que ya afectan a los medios y a la academia: anglocentrismo, vanalización del conocimiento o invisibilización de minorías y periferias.


La gran brecha: conocimiento humano frente a conocimiento digital accesible

Vint Cerf, pionero de Internet y actual vicepresidente de Google, advirtió hace años sobre el peligro de una “era oscura digital”:

“Tenemos que preocuparnos por la preservación digital o nos encontraremos en una era oscura donde el siglo XXI será un misterio para las generaciones futuras.”

BBC, 2015

Paradójicamente, proyectos como Internet Archive (archive.org), que cumplen un papel esencial en la preservación del conocimiento digital, están en riesgo constante de desaparición por falta de financiación estable.

Su gigantesca memoria alberga corpus digitales invaluables que ya no están disponibles en la web activa —textos, sitios, audios, vídeos—, muchos de los cuales serían considerados auténtico oro por cualquier entidad que valore la historia y la diversidad del saber digital.

Sin embargo, las grandes tecnológicas no invierten significativamente en la fundación que lo sostiene. Tal vez porque tener memoria implica más que almacenar: supone tener conciencia, capacidad de comparación y, por tanto, de juicio.

Y eso, en términos de mercado, puede ser tan incómodo como peligroso: comparar implica pensar, y pensar puede ralentizar el consumo, introducir matices, despertar dudas. La memoria, en este sentido, es subversiva frente a la lógica de lo inmediato y desechable.

El problema no es solo que buena parte del conocimiento humano nunca se ha digitalizado (diarios personales, grabaciones orales, archivos físicos, conocimiento tácito), sino que incluso lo ya digitalizado puede quedar obsoleto, dañado o inaccesible por falta de mantenimiento, licencias o migraciones tecnológicas. Las bibliotecas que utilizan software o formatos cerrados corren el riesgo de ver su contenido inutilizable en unas décadas, tal como ocurrió con archivos guardados en disquetes o CD-ROMs.

Además, el conocimiento no siempre está donde se espera. Buena parte del saber ancestral, de las prácticas médicas tradicionales, de las técnicas agrícolas sostenibles o del arte popular sobrevive en contextos orales, comunitarios o sensoriales. Esa información no puede ser simplemente “cosechada” por un crawler. Requiere presencia humana, interpretación cultural, traducción conceptual.


¿Parcheamos o solucionamos este problema? Predicciones y soluciones emergentes

Inversión masiva en digitalización y preservación activa

  • Proyectos de gran escala: iniciativas como Europeana (UE), la Biblioteca Digital Mundial (UNESCO) o la digitalización de manuscritos por parte de Google y universidades como Harvard y Stanford son apenas la punta del iceberg. Se requiere una estrategia global, sostenida por organismos públicos y alianzas privadas, para preservar lo que aún está en papel, cinta, vinilo, pergamino o memoria viva.
  • Curación proactiva y contextualización: la digitalización sin metadatos ni análisis crítico produce ruido, no conocimiento. Se necesitan expertos humanos —lingüistas, antropólogos, historiadores— que puedan aportar contexto, relaciones y confiabilidad a lo digitalizado. Y, además, hacerlo desde la neutralidad, evitando sesgos ideológicos, culturales o idiomáticos.
  • Tecnologías de conservación: el almacenamiento a largo plazo no puede depender de formatos propietarios ni plataformas comerciales. Proyectos como LOCKSS (Stanford), Internet Archive o propuestas de almacenamiento en ADN o cuarzo (Microsoft Project Silica) representan vías prometedoras para garantizar la persistencia.

Desarrollo de IAs verdaderamente multilingües y multimodales

  • Entrenamiento con corpus diversos: modelos como BLOOM (Hugging Face) y Masakhane (centrado en lenguas africanas) han demostrado que es posible entrenar modelos en idiomas de baja representación digital, siempre que haya una comunidad comprometida detrás.
  • Integración multimodal: la inteligencia no es solo textual. Nuevas arquitecturas como GPT-4o, Gemini 1.5 o Gato (DeepMind) permiten combinar texto, audio, imagen y video para construir una comprensión más rica del entorno. Esto es esencial para acceder a fuentes como grabaciones orales, artefactos visuales o gestos sociales.
  • Colaboración con comunidades locales: la recolección de datos no debe ser extractivista. Los sistemas éticos de IA requerirán involucrar a las comunidades de origen en el control, la interpretación y la validación del conocimiento que aportan.

Inteligencia híbrida: la sinergia entre IA y expertos humanos

  • Ciclo de retroalimentación humano: más allá del Reinforcement Learning with Human Feedback (RLHF), se necesitarán plataformas colaborativas donde la IA sea una herramienta que asiste, pero no sustituye, el criterio humano.
  • IA como asistente de investigación: las IAs pueden procesar volúmenes inmensos de material escaneado, identificar conexiones invisibles y proponer hipótesis que los investigadores humanos luego validan. Ya existen proyectos en esta línea, como Transkribus (para manuscritos históricos) o Scripta (para epigrafía antigua).
  • Metodologías de verificación distribuida: ante el colapso de la noción de “fuente única”, surgirán modelos de validación por consenso, reputación o trazabilidad tecnológica, combinando blockchain, IA y peritaje humano.

Hacia una sabiduría aumentada, no solo automatizada

El “espejismo digital” no es solo una metáfora: es un riesgo civilizatorio. Si permitimos que las inteligencias artificiales se formen solo a partir de lo que está disponible en la web —con sus sesgos, sus vacíos y su caducidad— estaremos construyendo máquinas poderosas pero ciegas, expertas en lo superficial e ignorantes de lo esencial.

El camino hacia una inteligencia realmente útil, justa y profunda no pasa solo por más datos, sino por mejores datos: preservados, contextualizados, diversos y validados. Como advirtió Andrew Ng:

“La IA no va a reemplazar a la gente, pero la gente que use IA reemplazará a la que no la use.”

La pregunta es: ¿qué clase de IA queremos usar?

¿Una que refleja un fragmento sesgado del mundo o una que, con nuestra ayuda, pueda acercarse a la complejidad y belleza del conocimiento humano?