Durante gran parte del siglo XX el enfoque simbólico fue hegemónico en el desarrollo de sistemas de inteligencia artificial (IA). La inteligencia del sistema era determinada por una serie de símbolos y reglas lógicas definidas manualmente por humanos. El enfoque era útil para resolver ciertas tareas, pero resultaba ineficaz a la hora de automatizar tareas complejas debido a la cantidad inabarcable de reglas que era necesario definir. Como alternativa, irrumpió con fuerza en la década de los 90 el aprendizaje automático. Este enfoque se basaba en aprender a realizar las tareas a partir de ejemplos resueltos de las mismas. Se dejaba de lado la idea de un diseño top-down (de arriba abajo) y se apostaba por aprender los entresijos de la tarea a automatizar mediante la observación de ejemplos resueltos y los patrones que gobernaban la tarea. De la observación de los ejemplos resueltos los algoritmos de aprendizaje generaban una fórmula matemática, una “receta” que modelaba la tarea y podía reutilizarse para resolver nuevos ejemplos.
Los resultados que ofrecía el aprendizaje automático superaban notablemente a los del paradigma simbólico en la mayoría de las tareas de IA. Con el tiempo, el enfoque fue evolucionando y la función que representaba la “receta” fue sofisticándose, hasta llegar a las hoy célebres redes neuronales profundas. Estas redes permitían trabajar con funciones matemáticas de muchos más parámetros que las anteriores, lo que posibilitó la extracción de patrones todavía más complejos. Gracias a ello se lograron automatizar tareas con un nivel de precisión sin precedentes. Los resultados obtenidos eran asombrosos y estas redes profundas constituyen la base de la mayoría de los sistemas de IA actuales.
En la era del aprendizaje automático, la clave para desarrollar un buen sistema de IA ya no consiste en un buen diseño de miles de reglas, sino en disponer de millones de ejemplos resueltos de los que aprender la tarea. Cuanto más y mejores ejemplos se utilicen durante el entrenamiento, más precisos serán los resultados del sistema, lo que a su vez lo hará más útil para el usuario. Así, la acumulación de grandes colecciones de ejemplos de calidad se convierte en una suerte de “anillo de poder”, otorgando a quien lo posea una posición hegemónica en esta nueva edad de oro de la IA. Esto, por supuesto, sin restar importancia a otros “anillos”, como el manejo del cómputo o la capacidad de computación, ejemplificado de manera destacada en el reciente caso Deepeek.
El poder del “anillo” de los ejemplos no ha pasado inadvertido para el sistema económico. En torno a los datos o ejemplos necesarios para entrenar sistemas de IA, se está configurando un emergente mercado que ya alcanza los 2,77 mil millones de dólares, con una previsión de crecimiento anual del 24,3% durante los próximos cinco años. Se trata de un mercado en plena ebullición, donde encontramos grandes empresas orientadas en exclusividad a la generación de ejemplos, como Invisible Tech y Scale AI. Este tipo de compañías cuentan con cientos de colaboradores y trabajadores de diferentes perfiles y ámbitos de especialidad.
Pero no todos los actores que forman parte del mercado de los ejemplos lo han hecho de forma voluntaria. En la web abundan miles de millones de contenidos de diversa tipología, generados por artistas, escritores, periodistas o usuarios anónimos. Estos datos suponen un apetecible botín de ejemplos para el entrenamiento de sistemas de IA. El problema radica en que muchos de estos contenidos tienen propietarios y están protegidos por derechos de propiedad intelectual, pero han sido utilizados sin permiso para entrenar sistemas de IA, especialmente de IA generativa. Como era de esperar, diversos colectivos de creadores y empresas de contenidos han denunciado esta situación. En algunos casos, incluso se han presentado demandas legales, como la del New York Times contra OpenAI en 2023, por el uso de sus noticias para entrenar ChatGPT.
En algunos países como Estados Unidos, Israel y Japón, la legislación se está inclinando hacia un uso casi sin restricciones de datos protegidos con fines de entrenamiento de sistemas de IA. En el otro extremo, los países de la Unión Europea están adoptando un enfoque más restrictivo, con leyes de propiedad intelectual más rigurosas. El debate legal, en cualquier caso, no es sencillo y trasciende en cierto modo lo contemplado en las normativas actuales de propiedad intelectual, ya que los modelos de IA basados en aprendizaje automático generalizan lo que ve el algoritmo en los ejemplos de entrenamiento, pero sin llegar a realizar copias literales. Aún así, parece razonable que, tras la cosecha de un sembrado, los propietarios de todas las semillas sean recompensados y que incluso tengan derecho a retirar su semilla antes de la siembra.
La gestión de la propiedad intelectual de los datos no es el único desafío que surge en el ámbito de los datos de entrenamiento. Permitir que la creación de estos datos se rija exclusivamente por criterios de mercado conlleva serios riesgos para las minorías y los grupos sociales más vulnerables. Esto podría llevar a descuidar la generación de ejemplos considerados poco rentables, dejando de lado datos de entrenamiento esenciales para atender las necesidades de estos colectivos. Este sesgo en los datos de entrenamiento podría derivar en sistemas de IA igualmente sesgados, agravando la brecha digital que afecta a estas comunidades. Idiomas completos, culturas, valores éticos o servicios de IA diseñados para colectivos específicos podrían quedar excluidos por la falta de datos de entrenamiento adecuados. Este problema podría agravarse si, además, se combina con la concentración de los datos en manos de unos pocos gigantes, lo que podría conducir a un peligroso monopolio uniformador difícil de controlar.
En definitiva, la acumulación masiva de ejemplos de entrenamiento es un tentador “anillo de poder”, especialmente considerando que la IA es una de las tecnologías con mayor potencial transformador del siglo XXI y que su presencia en nuestras vidas y en la sociedad en general seguirá creciendo. Sin embargo, esta tentación puede tener derivadas preocupantes, como la usurpación de datos, el sesgo en los conjuntos de datos y la consolidación de monopolios. El mercado, por sí solo, no va a corregir todos estos problemas, por lo que se hacen necesarias regulaciones por parte de los gobiernos, así como el compromiso de todos los actores que formamos parte de la “comunidad de la IA” para conseguir una verdadera democratización de los datos de entrenamiento.