La evaluación del alumnado es el rompecabezas del profesorado. Y es que determinar el proceso de desarrollo de los estudiantes a lo largo el curso, es una de las tareas más complejas y que más tiempo requiere en los quehaceres del personal docente. Sin embargo, todo ello puede cambiar gracias a la fuerte entrada de las nuevas tecnologías en el ámbito educativo, y más en concreto, en las aulas. Todo se resume en el fenómeno ampliamente conocido como Inteligencia Artificial. Una herramienta que ahora se ha demostrado que puede servir de alternativa a esta costosa tarea de deocentes.

De esta forma lo evidencia un estudio elaborado por la Universidad del País Vasco que ha contado con la participación del doctor Héctor Galindo, profesor y miembro del grupo investigador ESCUTIC (Escuela, Currículum y TIC).

Un informe que además acaba de ser publicado en la prestigiosa revista científica de tecnología Educativa EDUTEC y que muestra que las diferentes herramientas basadas en IA son capaces de “replicar bastante bien” los patrones de los docentes en formación –es decir universitarios que será futuros maestros– a la hora de evaluar tareas escritas. Y de esas herramientas, es ChatGPT la que ha demostrado ser la mejor al obtener una mayor precisión; cerca del 70% equiparándola con el profesorado. Asimismo, el segundo lugar lo ocupa Copilot de Bing con un acierto del 50%.

En relación a ambos parámetros, el estudio remarca que los resultados obtenidos son “conscientes” con la limitada información que existe sobre este tema, por lo que sí se han encontrado pequeñas diferencias entre la labor de los docentes y la respectiva a la IA, relacionadas con el rendimiento académico estos jóvenes docentes en formación. Sin ir más lejos, aquellos con un desempeño más alto, proporcionaron evaluaciones más alineadas con las ofrecidas por la IA que aquellos con un nivel más bajo.

Metodología utilizada

Entrando a detalle, la prueba piloto se ha llevado a cabo con 507 estudiantes universitarios de 20 años de media, provenientes de los grados de Educación Infantil (130), Educación Primaria (327) y 50 de áreas relacionadas; Pedagogía o Educación Social.

A todos ellos, se les proporcionó una rúbrica para evaluar doce textos escritos de diferentes tipos –como descriptivos, narrativos– así como de distinta calidad; excelente o mejorable, entre otras.

Asimismo, los cuatro criterios fundamentales con los que se construyó la herramienta de IA fueron el contenido, la organización, el vocabulario y, por último, la coherencia y cohesión; de entre los que se puede destacar la gramática, la puntuación o la longitud del texto, por ejemplo. Aunque cada ensayo podía recibir una puntuación máxima de 16, se optó por ponderarlos sobre 10 para ser “más prácticos”.

Pequeños matices

Sin embargo, toda investigación tiene sus limitaciones. En el caso de este estudio, sus creadores destacan que todos esos resultados podrían variar si los mismos participantes se evaluaran en unos años, cuando estén ejerciendo la profesión de maestro. En este sentido, apostillan que sería “interesante” comparar las evaluaciones de docentes novatos, educadores de media carrera y docentes veteranos, ya que esto podría revelar importantes perspectivas sobre cómo la experiencia puede influir en los procedimientos de evaluación.

Asimismo, otra de las limitaciones es que la muestra solamente ha considerado la evaluación de trabajos escritos, por lo que no asegura esa precisión de la IA con el profesorado en formatos como audio, vídeo, imágenes o ecuaciones matemáticas.

Por otro lado, cabe indicar que los textos escritos analizados han sido realizados por la IA que simulaba ser un estudiante de diez años, por lo que remarcan que las conclusiones obtenidas podrían variar utilizando escolares reales.