El centro Hitz de la Universidad del País Vasco (EHU) ha descubierto un nuevo método para crear un chatbot en euskera capaz de mantener conversaciones.
Según ha informado este miércoles la EHU en una nota, el uso de chatbots como ChatGPT crece constantemente y sus capacidades no dejan de ampliarse: resumir textos, responder preguntas sobre cualquier asunto, generar ideas, programar, crear documentos o traducir textos.
Estos programas ofrecen un rendimiento similar en las lenguas más habladas, aunque en otras menos extendidas como el euskera, la calidad no suele ser tan buena ya que el volumen de textos volcados en la red es mucho menor.
De hecho, en internet hay mil veces más documentos en inglés que en euskera, y cien veces más en castellano que en lengua vasca, precisa la fuente.
Por este motivo, entre la comunidad científica sigue siendo una incógnita determinar si es posible lograr resultados equiparables al inglés con tan poca cantidad de documentos.
Gran avance
Según Eneko Agirre, director del centro de investigación HiTZ de la EHU, la nueva investigación representa "un gran avance hacia una respuesta afirmativa, aunque la incógnita aún persiste".
En un nuevo artículo científico, los miembros de HiTZ presentan un nuevo método para crear un chatbot en euskera capaz de mantener conversaciones. El punto de partida es el modelo lingüístico multilingüe y abierto desarrollado por Meta, llamado Llama.
El camino habitual sería tomar Llama, alimentarlo con textos y ejemplos en euskera, lo que exige un gran trabajo manual y costoso, que hasta ahora solo pueden asumir las grandes empresas.
Método innovador
Los miembros de Hitz han probado varias vías para evitar esta labor y, en contra de lo que se creía, han encontrado un método innovador y eficiente para adaptar un chatbot de calidad al euskera sin trabajo manual.
Los experimentos y desarrollos realizados muestran que es suficiente entrenar el chatbot Llama con texto en euskera, pero para ello es clave aplicar técnicas que eviten el problema conocido como "olvido catastrófico" (catastrophic forgetting en inglés).
El trabajo realizado abre nuevas vías ya que, por un lado, el propio método puede aplicarse a modelos abiertos más potentes que Llama y, por otro, puede aplicarse también a otras lenguas con un volumen similar de textos.