El nuevo corpus de referencia en euskera supera al de la RAE
Se han añadido 65 millones de palabras a la actualización lingüística de este siglo
donostia - El Gobierno Vasco presentó ayer en Bilbao la actualización del corpus lingüístico más grande en euskera, el de “referencia del siglo XXI”, al que se le han añadido 65 millones de palabras a los 205 millones ya existentes, lo que lo sitúa por delante del Corpes XXI de la Real Academia Española (RAE), con 215 millones de palabras en este momento.
Los corpus son masas enormes de texto para su consulta electrónica e instrumentos “muy necesarios” para todos los profesionales que utilicen las lenguas como herramienta de trabajo, ya sean traductores, docentes, escritores o investigadores.
En su presentación participaron el director del Instituto de Euskera de la Universidad del País Vasco (UPV/EHU), Pello Salaburu, y el viceconsejero de Política Lingüística del Gobierno Vasco, Patxi Baztarrika, cuyo departamento dota económicamente a este centro de 28.700 euros anules para el desarrollo de nuevos productos, que reciben “en torno a dos millones de consultas anuales”, apuntó Salaburu. Para Baztarrika, se trata de una cooperación “muy rentable, tanto para el euskera como para los vascohablantes, y una prueba clara de que estos apoyos no son un gasto sino una inversión”, sostuvo. “Es una satisfacción utilizar bien el dinero público”, apostilló el viceconsejero de Política Lingüística.
El Corpus de Referencia del Siglo XXI/Egungo Testuen Corpusa (ETC) contiene textos de diversas fuentes, que pueden ser originales o traducciones, si bien todos ellos datan “del presente siglo, una marca clara que no todas las lenguas tienen”, subrayó Salaburu. Asimismo, la interfaz, uno de los graves problemas a los que se enfrenta el usuario en los corpus, es en este caso “intuitiva, rápida y fácil”, valoró el director del instituto vasco.
La diferencia entre el corpus ETC y el la Real Academia Española (RAE) no solo radica en la cantidad de palabras, sino que, según mostró Salaburu, los instrumentos desarrollados permiten una consulta “mucho más amable” en el ETC que en la RAE. Así lo ejemplificó mediante una búsqueda en las dos herramientas para la que escogió la palabra víctima. Los resultados en el ETC no solo muestra cómo ha sido en los años 2011 y 2015 cuando este vocablo más se ha utilizado, sino que también se indica su procedencia o las combinaciones con otras palabras con las que se ha utilizado el término, como terrorismo y franquismo, en este caso en las dos primeras posiciones.
Además, también se presentaron ayer un nuevo corpus, el Multilingüe Paralelo/Hizkuntzen Arteko Corpusa (HAC) y dos aplicaciones, “especialmente útiles para los estudiantes” denominadas Generador Automático de Formas Verbales en Vasco/ Euskal Adiztegi Automatikoa, para teléfonos, tablets y ordenadores, y Euskal Kasutegi Automatikoa, únicamente disponible para éstos últimos. . - N.G.
Más en Sociedad
-
Así influye la personalidad del usuario a la hora de detectar o no las 'fake news'
-
Euskadi activa este lunes el aviso amarillo para la navegación por olas de 2,5 metros
-
7.000 vascos han logrado un título a través de la acreditación de su experiencia laboral abierta por Educación
-
De Hendaia a La Haya