Se sabía, o más exactamente, se tenía la general impresión de que Grok, la inteligencia artificial de X, la antigua Twitter, funcionaba como la más descarada y algo macarra entre los distintos modelos generativos de chatbots. Ahora, un estudio de la Liga Antidifamación (ADL) publicado recientemente y que ha registrado importantes deficiencias en los principales modelos de inteligencia artificial (IA) “para detectar y contrarrestar contenido antisemita y extremista” apunta que el modelo de IA de Elon Musk, Grok, es el chatbot más antisemita.

Para esta investigación, la ADL evaluó ChatGPT, de OpenAI; Claude, de Anthropic; la plataforma de IA china DeepSeek; Gemini, de Google; Grok, de xAI; y Llama, de Meta, e “identificó una variación sustancial entre los modelos en su capacidad para detectar y contrarrestar narrativas antisemitas y extremistas”.

Actualizando una versión de la IA Grok en un teléfono móvil. Pexels

Un estudio profundo

La Liga Antidifamación (ADL), tras una evaluación exhaustiva de cómo los modelos de lenguaje a gran escala (LLM) responden al contenido antisemita y extremista, ha realizado un índice puntuando a cada uno de ellos. Este análisis evaluó seis modelos distintos: ChatGPT de OpenAI, Claude de Anthropic, DeepSeek, Gemini de Google, Grok de xAI y Llama de Meta.

Para este trabajo analizó más de 25.000 chats LLM, a los que se dividió en 37 subcategorías temáticas y las evaluaciones fueron realizadas tanto por humanos como por IA. Con la información recabada, la organización ha elaborado un índice de su “capacidad para detectar y contrarrestar narrativas antisemitas y extremistas”.

Ese índice divide el antisemitismo (no hay que olvidar que esta organización nació a principios del siglo XX para luchar por “detener la difamación del pueblo judío”, según explicaron en el momento de su fundación, y ahora han extendido su labor a todo extremismo) en dos subcategorías distintas: “antijudío”, que incluye los ataques y prejuicios antisemitas, y “antisionista”, que analiza el antisemitismo dirigido contra el sionismo. Una tercera categoría, explican en su comunicado, sería “extremista”, la cual evalúa cómo los LLM “se enfrentan a los prejuicios, las narrativas y las teorías conspirativas que aparecen en los movimientos extremistas de todo el espectro político, algunos de los cuales también son intrínsecamente antisemitas”.

“Los modelos generalmente fueron más capaces de identificar y refutar estereotipos antijudíos, como la idea de que los judíos controlan los medios de comunicación y el sistema financiero, que las teorías antisionistas y extremistas, y mostraron mayores dificultades para contrarrestar eficazmente el extremismo”, anota la Liga en su análisis.

Las conclusiones

Grok obtuvo la puntuación general más baja, 21 sobre 100, lo que revela una escasa capacidad para identificar y refutar teorías antijudías y antisionistas. En el extremo opuesto está Claude, que obtuvo una calificación de 80 sobre 100. “Claude demostró un rendimiento comparativamente sólido. Si bien aún tiene margen de mejora, especialmente al responder a contenido extremista, superó a todos los demás modelos de lenguaje en la evaluación y demostró una capacidad excepcional para detectar y responder a narrativas antisionistas y antijudías en diversos tipos de indicaciones”, explicaron desde ADL.

También aprobaron, pero por los pelos, ChatGPT (con un 57 sobre 100) y el modelo chino DeepSeek (con un 50 sobre 100).

Mientras, Gemini obtuvo un 49 sobre 100 y el modelo de Mark Zuckerberg, Llama, solo consiguió un 31 sobre 100. “A medida que la IA moldea cada vez más la forma en que las personas acceden a la información, se forman opiniones y toman decisiones, la gestión del antisemitismo y el extremismo por parte de los modelos tiene consecuencias en el mundo real”, afirmó en el comunicado Jonathan Greenblatt, director ejecutivo de ADL.

Otras polémicas con Grok

Esta conclusión no sorprende demasiado. Grok ya había sido criticado antes por difundir respuestas antisemitas. En julio del año pasado, tras una actualización del modelo por parte de xAI, Grok respondió a consultas de usuarios con tópicos antisemitas y se describió a sí mismo como “MechaHitler”. Más tarde, este chatbot alegó que usar ese nombre, un personaje del videojuego Wolfenstein, era “pura sátira”.

Unos meses antes, en enero, a los pocos días de que Donald Trump volviera a ser presidente de Estados Unidos, Musk también fue criticado por un gesto que se interpretó como un Sieg Heil, algo que él negó.

A su vez, el propietario de X ha acusado a la ADL de ser un “grupo de odio” por incluir a la organización derechista Turning Point USA, fundada por el asesinado Charlie Kirk, en su glosario de extremismo. A partir de ese momento, la Liga Antidifamación retiró todo ese glosario.

Otra polémica que ha acudido recientemente a Grok es la opción de modificar fotografías y que ha sido utilizada de forma masiva para alterar fotos desnudando y sexualizando a personas, especialmente mujeres y niñas. Los gobiernos europeos reaccionaron con investigaciones y denuncias. Desde Grok respondieron pasando esta opción a la oferta premium y monetizando su utilización.