GL-BLARK

Ficha

Estado: Proyecto finalizado.

Duración: Proyecto desarrollado en 2023, en el marco de los SRIA Contribution Projects.

Programa de financiación / marco de desarrollo: Participación en los SRIA Contribution Projects, junto con otros ocho proyectos seleccionados, en el contexto de las iniciativas europeas orientadas a la igualdad tecnológica de las lenguas.

Más información: 

Resumen

GL-BLARK fue un proyecto orientado a la creación de un BLARK (Basic Language Resource Kit) actualizado para lenguas minorizadas en la era del deep learning, tomando el gallego como caso de estudio. Su finalidad fue definir cuáles son los recursos mínimos que una lengua necesita para ser competitiva en las tecnologías de la lengua y, al mismo tiempo, disponer de una herramienta que permita evaluar de forma sistemática el grado de desarrollo real de cada idioma en este ámbito.

El proyecto partía de una constatación clara: los BLARK clásicos, formulados a finales de los años noventa y comienzos de los 2000, ya no respondían adecuadamente al contexto actual de la inteligencia artificial. La irrupción de las redes neuronales y los modelos profundos transformó por completo los requisitos técnicos necesarios para desarrollar tecnologías lingüísticas útiles, lo que hacía necesario redefinir los mínimos exigibles para lenguas minorizadas en este nuevo escenario.

En este marco, GL-BLARK permitió revisar, estructurar y evaluar el ecosistema de recursos lingüísticos del gallego desde una perspectiva contemporánea, prestando especial atención a la disponibilidad de corpus, herramientas de PLN, recursos léxicos, modelos de lengua y tareas específicas como traducción automática, reconocimiento de voz, síntesis de voz o sistemas de evaluación.

El reto

Uno de los principales retos de las lenguas minorizadas en el ámbito de la inteligencia artificial es que no basta con disponer de algunos recursos lingüísticos o herramientas aisladas. En la era del deep learning, el desarrollo real de una lengua depende de contar con corpus adecuados, modelos entrenados, datos reutilizables, licencias abiertas y sistemas de evaluación que permitan medir y mejorar el rendimiento de las distintas tareas.

El reto de GL-BLARK consistía, por tanto, en formular una herramienta útil para responder a una pregunta de gran relevancia estratégica: qué necesita hoy una lengua minorizada para estar realmente presente en las tecnologías de la lengua. No se trataba solo de elaborar un inventario de recursos existentes, sino de establecer unos mínimos comparables, cuantificables y adaptados a la realidad tecnológica actual.

Este reto era especialmente importante porque muchas lenguas cuentan con recursos históricos o herramientas heredadas de paradigmas anteriores, pero no siempre disponen de la base necesaria para competir en un ecosistema dominado por modelos neuronales, grandes corpus y arquitecturas avanzadas de IA. Actualizar el concepto de BLARK suponía, en ese sentido, ofrecer una herramienta de diagnóstico útil tanto para personal investigador como para instituciones y comunidades lingüísticas.

La aportación de imaxin

La aportación de imaxin en GL-BLARK se centró en la definición y construcción de un nuevo marco de evaluación para lenguas minorizadas en la era del deep learning, tomando el gallego como ejemplo de aplicación. El trabajo consistió en revisar el concepto de BLARK, adaptarlo a los nuevos requisitos de las tecnologías de la lengua y diseñar una estructura que permitiese valorar de manera cuantitativa el estado de desarrollo de una lengua.

Para ello, se realizó un análisis comparado de recursos existentes en distintas lenguas minorizadas, como el gallego, el catalán o el euskera, y también de otras lenguas de gran tamaño que, aun teniendo mayor comunidad de hablantes, no siempre cuentan con un nivel de desarrollo en tecnologías del lenguaje equivalente al de idiomas como el inglés o el chino.

A partir de ese estudio, imaxin contribuyó a definir una metodología capaz de evaluar tanto los recursos transversales necesarios para cualquier tarea lingüística como las tareas específicas que requieren modelos neuronales y datos propios, como traducción automática, corrección de textos, reconocimiento de voz, síntesis de voz, sistemas de diálogo o resumen automático.

Qué se desarrolló

El resultado del proyecto fue un BLARK actualizado para lenguas minorizadas, estructurado en dos grandes bloques. El primero agrupa los recursos transversales, es decir, aquellos recursos y herramientas que sirven de base para múltiples tareas de las tecnologías de la lengua. El segundo recoge las tareas específicas, centradas en aquellas aplicaciones concretas que requieren modelos neuronales entrenados y corpus adecuados para su desarrollo.

Dentro de los recursos transversales se incluyeron categorías como corpus, herramientas de PLN, recursos léxicos y modelos de lengua. En el bloque de tareas específicas, se analizaron ámbitos como la síntesis de voz, el reconocimiento de voz, la traducción automática, la corrección de errores, el resumen automático, el análisis de sentimiento, la verificación de hechos, los sistemas de diálogo y los sistemas de evaluación.

Además de la estructura conceptual, se desarrolló también un sistema de evaluación cuantitativo que permite medir el grado de cobertura de cada lengua en función de tres criterios aplicados a cada recurso: tamaño, calidad y licencia. Esta última variable resultaba especialmente relevante, ya que muchos recursos existen, pero no pueden utilizarse libremente en investigación aplicada, transferencia o contextos comerciales.

Sistema de evaluación

Uno de los elementos más relevantes del proyecto fue la incorporación de un sistema de evaluación cuantitativo, frente a la aproximación más descriptiva que habían seguido BLARK anteriores. En este nuevo modelo, cada gran bloque del BLARK tiene un peso específico dentro del resultado global: los recursos transversales representan el 40 % y las tareas específicas de las tecnologías de la lengua, el 60 %.

A su vez, cada sección se divide en subsecciones, y cada subsección contiene recursos concretos que también tienen una ponderación propia. De este modo, el BLARK no solo permite saber si una lengua dispone o no de un determinado recurso, sino también valorar en qué medida ese recurso resulta realmente útil en el contexto del deep learning actual.

Para cada recurso se definieron criterios de tamaño, calidad y licencia. Este enfoque permitía ir más allá de la simple existencia de corpus, léxicos o modelos, y distinguir entre recursos pequeños o grandes, de calidad baja o alta, y con licencias cerradas, limitadas a investigación o completamente abiertas. El resultado es una herramienta más precisa para identificar carencias, fortalezas y prioridades de desarrollo.

Recursos transversales

En el análisis del gallego, GL-BLARK permitió observar con mayor claridad el estado de los recursos transversales disponibles. En el ámbito de los corpus, se constató la existencia de conjuntos textuales relevantes, tanto anotados como de referencia o de gran tamaño, pero también se identificaron limitaciones importantes en cuanto a calidad, apertura o dimensión suficiente para el entrenamiento de modelos neuronales.

En el caso de las herramientas de PLN, el gallego mostraba una situación más favorable. Recursos como tokenizadores, etiquetadores morfosintácticos, reconocedores de entidades o identificadores de lengua ya contaban con un cierto grado de madurez, en muchos casos integrados en librerías más amplias. Esto reflejaba un desarrollo previo sólido en tareas clásicas del procesamiento lingüístico.

En lo referente a recursos léxicos, el proyecto evidenció avances relevantes, aunque también limitaciones derivadas del carácter cerrado de algunos recursos fundamentales o de la baja calidad de otros más abiertos. Por último, en el ámbito de los modelos de lengua, el gallego mostraba un desarrollo intermedio: disponía de embeddings y de varios modelos tipo BERT, tanto monolingües como multilingües, pero seguía teniendo una presencia reducida en modelos autorregresivos y grandes modelos generativos.

Tareas específicas de las tecnologías de la lengua

En el bloque de tareas específicas, el proyecto permitió analizar hasta qué punto el gallego estaba preparado para desarrollar aplicaciones neuronales en ámbitos concretos. En síntesis de voz y reconocimiento de voz, la situación era positiva gracias a la disponibilidad reciente de corpus y modelos de alta calidad y con licencias abiertas, lo que situaba al gallego en una posición favorable dentro del BLARK para estas tareas.

En traducción automática, el diagnóstico era más matizado. Aunque existían modelos neuronales y corpus paralelos para algunos pares de lenguas, especialmente gallego-español y gallego-inglés, la cobertura seguía siendo limitada en comparación con lo que cabría esperar de un ecosistema plenamente desarrollado. La existencia de modelos para pocos pares y la calidad desigual de los corpus disponibles hacían que la puntuación general en esta tarea fuese todavía baja.

En otras tareas, como corrección gramatical, resumen automático, análisis de sentimiento, verificación de hechos o sistemas de diálogo, el proyecto identificó un nivel de desarrollo muy reducido o prácticamente inexistente. Aunque no todas estas tareas forman parte del mínimo imprescindible para una lengua minorizada, sí representan líneas de trabajo necesarias para garantizar que las personas que la hablan puedan acceder en el futuro a herramientas avanzadas en igualdad de condiciones.

Sistemas de evaluación

Otro de los aspectos analizados por GL-BLARK fue la disponibilidad de recursos específicos para evaluar modelos lingüísticos. Este punto es especialmente importante, ya que no basta con entrenar modelos: también es necesario poder medir su rendimiento, compararlos con otras soluciones y detectar de forma objetiva sus limitaciones y mejoras.

En este ámbito, el proyecto constató que el gallego presentaba una situación débil. La escasez de datasets de evaluación y de métricas adaptadas al idioma limitaba la capacidad de analizar con rigor el estado del arte en tareas específicas. Esta carencia reforzaba una de las conclusiones centrales del proyecto: para que una lengua avance en tecnologías de la lengua, no solo necesita datos y modelos, sino también herramientas para evaluarlos de forma sistemática.

Resultados

GL-BLARK permitió construir una herramienta actualizada para evaluar el grado de desarrollo de una lengua minorizada en la era del deep learning y aplicarla al caso gallego. El resultado global situó al gallego en un estado intermedio dentro de un BLARK pensado específicamente para medir los mínimos exigibles a lenguas no dominantes en el ámbito de las tecnologías de la lengua.

El proyecto permitió identificar con más precisión las fortalezas ya existentes, como el desarrollo de determinadas herramientas de PLN, la mejora reciente en tareas de voz o la disponibilidad de algunos modelos de lengua, pero también puso de manifiesto carencias importantes en corpus, recursos léxicos abiertos, tareas avanzadas y sistemas de evaluación.

Más allá del caso del gallego, GL-BLARK dejó definido un marco de análisis reutilizable para otras lenguas minorizadas, ofreciendo una base útil para orientar prioridades de inversión, investigación y desarrollo en tecnologías lingüísticas.

Impacto

GL-BLARK permitió a imaxin participar en una reflexión estratégica sobre el futuro de las lenguas minorizadas en el contexto de la inteligencia artificial y el deep learning. El proyecto supuso una contribución relevante en un momento en el que la competitividad tecnológica de una lengua depende cada vez más de su capacidad para integrarse en modelos, datos y herramientas de nueva generación.

Su principal aportación fue convertir una preocupación difusa —la desigualdad tecnológica entre lenguas— en una herramienta concreta de diagnóstico y evaluación. Esto permite pasar de afirmaciones generales sobre la falta de recursos a una visión más estructurada, comparativa y útil para la toma de decisiones.

Además, el proyecto refuerza la experiencia de imaxin en ámbitos como las tecnologías de la lengua, los recursos lingüísticos, la evaluación de ecosistemas de PLN, el deep learning aplicado a lenguas minorizadas y la construcción de herramientas orientadas a medir y mejorar la presencia de una lengua en entornos de IA.

Financiación

Proyecto desarrollado en 2023, en el marco de los SRIA Contribution Projects, como contribución a las iniciativas europeas de igualdad lingüística y tecnológica. Para más información sobre el contexto y resultados del proyecto, puede consultarse el informe publicado por European Language Equality:
https://european-language-equality.eu/wp-content/uploads/2023/04/ELE2_Project_Report_BLARK.pdf

 

 

¿Tienes un proyecto?

Pídenos presupuesto sin compromiso.