Uno de los aspectos que más preocupan en todo lo relativo al uso de inteligencias artificiales (IA) es el sesgo que puedan tener. En este campo, se entiende que sesgo es una tendencia que hace que un modelo ofrezca respuestas que favorecen, excluyen o representan de forma desigual a ciertos grupos, ideas o situaciones. Nace a partir de la información que se le facilita para su entrenamiento. Evidentemente, esto se considera un error, intencionado o no, algo que debe corregirse y/o evitarse a toda costa.

Pero ¿y si este sesgo, entendido como el resultado de un entrenamiento con información limitada, pudiera convertirse en una herramienta de investigación histórica de primer orden? Esta idea es la que se ha planteado en el mundo científico tras el experimento del estudiante de Ciencias Computacionales Hayk Grigorian del Muhlenberg College de Pennsylvania (EEUU).

La catedral de San Pablo de Londres sobre los edificios de la capital britñanica ha mediados del siglo XIX, National Library of Ireland on The Commons

Una IA del siglo XIX

Grigorian, a partir de la premisa de que una inteligencia artificial no genera conocimiento nuevo, sino que elabora su respuesta a partir de los textos con los que han sido entrenados y que cada frase se construye mediante cálculos estadísticos que determinan la siguiente palabra más probable. Esto condiciona su visión del mundo y su respuesta.

Ante esto, lo que Grigorian se planteó es si un modelo de lenguaje solo tiene acceso a documentos de una época concreta, ¿acabará pensando como las personas de ese periodo histórico? Lo que hizo es entrenar su TimeCapsuleLLM, un sistema experimental creado por él con dos modelos de NanoGPT y uno de Phi1.5, con 7.000 textos londinenses de la época victoriana publicados entre 1800 y 1875, que ocupaban solo 90 GB de memoria. Es decir, simuló que los dos siglos siguientes no han existido. Con esto buscaba crear una IA realmente antigua, no que simulara serlo.

Una vez conseguido, el investigador le planteó el inicio de la frase “Era el año del Señor de 1834”. A continuación, Time Capsule le respondió, recreando fielmente el lenguaje de la época, con la narración de unas revueltas en la capital británica contra la Ley de Enmienda de la Ley de Pobres de 1834. Grigorian no tenía noticia sobre este suceso, por lo que lo investigó y verificó con diversas fuentes y descubrió que sí había sucedido y que los protagonistas eran reales.

Lo que en principio no parece sorprendente, ya que los grandes modelos de lenguaje (LLM) son capaces de ordenar información de diversas fuentes para ofrecer respuestas realistas, en este caso se trata de un modelo a pequeña escala que fue capaz de recrear un acontecimiento concreto a partir de referencias dispersas en una muy pequeña cantidad de documentos entre los que no hay ninguno específico sobre ese hecho. Fue capaz de recrear los patrones de conducta de una sociedad concreta en un momento histórico y social muy determinado.

Y esto se puede aplicar a cualquier periodo histórico de la humanidad.

Aplicaciones con pros y contras

Dentro de la investigación histórica, este tipo de herramientas con modelos de lenguaje que empiezan a conocerse como Historical Large Language Models (HLLM), o grandes modelos históricos de lenguaje, se presentan como muy prometedoras al poder adentrarse en épocas históricas concretas.

En un artículo publicado en Proceedings of the National Academy of Sciences se plantea que este tipo de sistemas podrían servir para estudiar la psicología humana fuera del contexto moderno. Según los autores, permitirían analizar patrones culturales y sociales de civilizaciones pasadas mediante simulaciones computacionales.

No obstante, los propios investigadores advierten de limitaciones relevantes. Los textos históricos conservados reflejan, en su mayoría, la visión de élites sociales, lo que introduce un sesgo estructural difícil de corregir.

Los Historical Large Language Models

La TimeCapsuleLLM de Hayk Grigorian no es el único LLM alimentado solo y exclusivamente con textos de una época determinada. Ya existe todo un campo de investigación sobre los llamados HLLM o Historical Large Language Models. Así, la IA MonadGPT, por ejemplo, ha sido entrenada con 11.000 textos datados entre los años 1400 y 1700 de nuestra era y que pueden abordar diversos temas utilizando marcos conceptuales del siglo XVII. Otro caso es XunziALLM, que genera poesía clásica china siguiendo las antiguas reglas formales de este arte.

Este tipo de herramientas pueden resultar útiles para estudios históricos de ciencias sociales y de humanidades, ya que permitirían interactuar con marcos lingüísticos e intelectuales de épocas pasadas. Los HLLM tendrían la capacidad de generar respuestas plausibles como si provinieran directamente de personas de esas épocas y de entornos culturales distintos al actual, por lo que podrían usarse en experimentos o estudios de normas sociales de otros periodos sin tener que pasar por el inconsciente filtro moderno que nos otorga saber cómo hemos llegado hasta hoy y siendo explicadas directamente por sus protagonistas.