GL-BLARK

Ficha

Estado: Proxecto finalizado.

Duración: Proxecto desenvolvido en 2023, no marco dos SRIA Contribution Projects.

Programa de financiamento / marco de desenvolvemento: Participación nos SRIA Contribution Projects, xunto con outros oito proxectos seleccionados, no contexto das iniciativas europeas orientadas á igualdade tecnolóxica das linguas.

Máis información: 

Resumo

GL-BLARK foi un proxecto orientado á creación dun BLARK (Basic Language Resource Kit) actualizado para linguas minorizadas na era do deep learning, tomando o galego como caso de estudo. A súa finalidade foi definir cales son os recursos mínimos que unha lingua necesita para ser competitiva nas tecnoloxías da lingua e, ao mesmo tempo, dispoñer dunha ferramenta que permita avaliar de forma sistemática o grao de desenvolvemento real de cada idioma neste ámbito.

O proxecto partía dunha constatación clara: os BLARK clásicos, formulados a finais dos anos noventa e comezos dos 2000, xa non respondían adecuadamente ao contexto actual da intelixencia artificial. A irrupción das redes neuronais e dos modelos profundos transformou por completo os requisitos técnicos necesarios para desenvolver tecnoloxías lingüísticas útiles, o que facía necesario redefinir os mínimos esixibles para linguas minorizadas neste novo escenario.

Neste marco, GL-BLARK permitiu revisar, estruturar e avaliar o ecosistema de recursos lingüísticos do galego desde unha perspectiva contemporánea, prestando especial atención á dispoñibilidade de corpus, ferramentas de PLN, recursos léxicos, modelos de lingua e tarefas específicas como tradución automática, recoñecemento de voz, síntese de voz ou sistemas de avaliación.

O reto

Un dos principais retos das linguas minorizadas no ámbito da intelixencia artificial é que non abonda con dispoñer dalgúns recursos lingüísticos ou ferramentas illadas. Na era do deep learning, o desenvolvemento real dunha lingua depende de contar con corpus adecuados, modelos adestrados, datos reutilizables, licenzas abertas e sistemas de avaliación que permitan medir e mellorar o rendemento das distintas tarefas.

O reto de GL-BLARK consistía, por tanto, en formular unha ferramenta útil para responder a unha pregunta de gran relevancia estratéxica: que necesita hoxe unha lingua minorizada para estar realmente presente nas tecnoloxías da lingua. Non se trataba só de elaborar un inventario de recursos existentes, senón de establecer uns mínimos comparables, cuantificables e adaptados á realidade tecnolóxica actual.

Este reto era especialmente importante porque moitas linguas contan con recursos históricos ou ferramentas herdadas de paradigmas anteriores, pero non sempre dispoñen da base necesaria para competir nun ecosistema dominado por modelos neuronais, grandes corpus e arquitecturas avanzadas de IA. Actualizar o concepto de BLARK supoñía, nese sentido, ofrecer unha ferramenta de diagnóstico útil tanto para persoal investigador como para institucións e comunidades lingüísticas.

A achega de imaxin

A achega de imaxin en GL-BLARK centrouse na definición e na construción dun novo marco de avaliación para linguas minorizadas na era do deep learning, tomando o galego como exemplo de aplicación. O traballo consistiu en revisar o concepto de BLARK, adaptalo aos novos requisitos das tecnoloxías da lingua e deseñar unha estrutura que permitise valorar de maneira cuantitativa o estado de desenvolvemento dunha lingua.

Para iso, realizouse unha análise comparada dos recursos existentes en distintas linguas minorizadas, como o galego, o catalán ou o éuscaro, e tamén doutras linguas de gran tamaño que, aínda tendo maior comunidade de falantes, non sempre contan cun nivel de desenvolvemento en tecnoloxías da linguaxe equivalente ao de idiomas como o inglés ou o chinés.

A partir dese estudo, imaxin contribuíu a definir unha metodoloxía capaz de avaliar tanto os recursos transversais necesarios para calquera tarefa lingüística como as tarefas específicas que requiren modelos neuronais e datos propios, como tradución automática, corrección de textos, recoñecemento de voz, síntese de voz, sistemas de diálogo ou resumo automático.

Que se desenvolveu

O resultado do proxecto foi un BLARK actualizado para linguas minorizadas, estruturado en dous grandes bloques. O primeiro agrupa os recursos transversais, é dicir, aqueles recursos e ferramentas que serven de base para múltiples tarefas das tecnoloxías da lingua. O segundo recolle as tarefas específicas, centradas naquelas aplicacións concretas que requiren modelos neuronais adestrados e corpus adecuados para o seu desenvolvemento.

Dentro dos recursos transversais incluíronse categorías como corpus, ferramentas de PLN, recursos léxicos e modelos de lingua. No bloque de tarefas específicas, analizáronse ámbitos como a síntese de voz, o recoñecemento de voz, a tradución automática, a corrección de erros, o resumo automático, a análise de sentimento, a verificación de feitos, os sistemas de diálogo e os sistemas de avaliación.

Ademais da estrutura conceptual, desenvolveuse tamén un sistema de avaliación cuantitativo que permite medir o grao de cobertura de cada lingua en función de tres criterios aplicados a cada recurso: tamaño, calidade e licenza. Esta última variable resultaba especialmente relevante, xa que moitos recursos existen, pero non poden utilizarse libremente en investigación aplicada, transferencia ou contextos comerciais.

Sistema de avaliación

Un dos elementos máis relevantes do proxecto foi a incorporación dun sistema de avaliación cuantitativo, fronte á aproximación máis descritiva que seguiran os BLARK anteriores. Neste novo modelo, cada gran bloque do BLARK ten un peso específico dentro do resultado global: os recursos transversais representan o 40 % e as tarefas específicas das tecnoloxías da lingua, o 60 %.

Á súa vez, cada sección divídese en subseccións, e cada subsección contén recursos concretos que tamén teñen unha ponderación propia. Deste modo, o BLARK non só permite saber se unha lingua dispón ou non dun determinado recurso, senón tamén valorar en que medida ese recurso resulta realmente útil no contexto do deep learning actual.

Para cada recurso definíronse criterios de tamaño, calidade e licenza. Este enfoque permitía ir máis aló da simple existencia de corpus, léxicos ou modelos, e distinguir entre recursos pequenos ou grandes, de calidade baixa ou alta, e con licenzas pechadas, limitadas á investigación ou completamente abertas. O resultado é unha ferramenta máis precisa para identificar carencias, fortalezas e prioridades de desenvolvemento.

Recursos transversais

Na análise do galego, GL-BLARK permitiu observar con maior claridade o estado dos recursos transversais dispoñibles. No ámbito dos corpus, constatouse a existencia de conxuntos textuais relevantes, tanto anotados como de referencia ou de gran tamaño, pero tamén se identificaron limitacións importantes en canto á calidade, á apertura ou á dimensión suficiente para o adestramento de modelos neuronais.

No caso das ferramentas de PLN, o galego mostraba unha situación máis favorable. Recursos como tokenizadores, etiquetadores morfosintácticos, recoñecedores de entidades ou identificadores de lingua xa contaban cun certo grao de madurez, en moitos casos integrados en librarías máis amplas. Isto reflectía un desenvolvemento previo sólido en tarefas clásicas do procesamento lingüístico.

No referente a recursos léxicos, o proxecto evidenciou avances relevantes, aínda que tamén limitacións derivadas do carácter pechado dalgúns recursos fundamentais ou da baixa calidade doutros máis abertos. Por último, no ámbito dos modelos de lingua, o galego mostraba un desenvolvemento intermedio: dispoñía de embeddings e de varios modelos tipo BERT, tanto monolingües como multilingües, pero seguía tendo unha presenza reducida en modelos autorregresivos e grandes modelos xerativos.

Tarefas específicas das tecnoloxías da lingua

No bloque de tarefas específicas, o proxecto permitiu analizar ata que punto o galego estaba preparado para desenvolver aplicacións neuronais en ámbitos concretos. En síntese de voz e recoñecemento de voz, a situación era positiva grazas á dispoñibilidade recente de corpus e modelos de alta calidade e con licenzas abertas, o que situaba o galego nunha posición favorable dentro do BLARK para estas tarefas.

En tradución automática, o diagnóstico era máis matizado. Aínda que existían modelos neuronais e corpus paralelos para algúns pares de linguas, especialmente galego-español e galego-inglés, a cobertura seguía sendo limitada en comparación co que cabería esperar dun ecosistema plenamente desenvolvido. A existencia de modelos para poucos pares e a calidade desigual dos corpus dispoñibles facían que a puntuación xeral nesta tarefa fose aínda baixa.

Noutras tarefas, como corrección gramatical, resumo automático, análise de sentimento, verificación de feitos ou sistemas de diálogo, o proxecto identificou un nivel de desenvolvemento moi reducido ou practicamente inexistente. Aínda que non todas estas tarefas forman parte do mínimo imprescindible para unha lingua minorizada, si representan liñas de traballo necesarias para garantir que as persoas que a falan poidan acceder no futuro a ferramentas avanzadas en igualdade de condicións.

Sistemas de avaliación

Outro dos aspectos analizados por GL-BLARK foi a dispoñibilidade de recursos específicos para avaliar modelos lingüísticos. Este punto é especialmente importante, xa que non abonda con adestrar modelos: tamén é necesario poder medir o seu rendemento, comparalos con outras solucións e detectar de forma obxectiva as súas limitacións e as súas melloras.

Neste ámbito, o proxecto constatou que o galego presentaba unha situación feble. A escaseza de datasets de avaliación e de métricas adaptadas ao idioma limitaba a capacidade de analizar con rigor o estado da arte en tarefas específicas. Esta carencia reforzaba unha das conclusións centrais do proxecto: para que unha lingua avance en tecnoloxías da lingua, non só necesita datos e modelos, senón tamén ferramentas para avalialos de forma sistemática.

Resultados

GL-BLARK permitiu construír unha ferramenta actualizada para avaliar o grao de desenvolvemento dunha lingua minorizada na era do deep learning e aplicala ao caso galego. O resultado global situou o galego nun estado intermedio dentro dun BLARK pensado especificamente para medir os mínimos esixibles a linguas non dominantes no ámbito das tecnoloxías da lingua.

O proxecto permitiu identificar con máis precisión as fortalezas xa existentes, como o desenvolvemento de determinadas ferramentas de PLN, a mellora recente en tarefas de voz ou a dispoñibilidade dalgúns modelos de lingua, pero tamén puxo de manifesto carencias importantes en corpus, recursos léxicos abertos, tarefas avanzadas e sistemas de avaliación.

Máis aló do caso do galego, GL-BLARK deixou definido un marco de análise reutilizable para outras linguas minorizadas, ofrecendo unha base útil para orientar prioridades de investimento, investigación e desenvolvemento en tecnoloxías lingüísticas.

Impacto

GL-BLARK permitiu a imaxin participar nunha reflexión estratéxica sobre o futuro das linguas minorizadas no contexto da intelixencia artificial e o deep learning. O proxecto supuxo unha contribución relevante nun momento no que a competitividade tecnolóxica dunha lingua depende cada vez máis da súa capacidade para integrarse en modelos, datos e ferramentas de nova xeración.

A súa principal achega foi converter unha preocupación difusa —a desigualdade tecnolóxica entre linguas— nunha ferramenta concreta de diagnóstico e avaliación. Isto permite pasar de afirmacións xerais sobre a falta de recursos a unha visión máis estruturada, comparativa e útil para a toma de decisións.

Ademais, o proxecto reforza a experiencia de imaxin en ámbitos como as tecnoloxías da lingua, os recursos lingüísticos, a avaliación de ecosistemas de PLN, o deep learning aplicado a linguas minorizadas e a construción de ferramentas orientadas a medir e mellorar a presenza dunha lingua en contornos de IA.

Financiamento

Proxecto desenvolvido en 2023, no marco dos SRIA Contribution Projects, como contribución ás iniciativas europeas de igualdade lingüística e tecnolóxica. Para máis información sobre o contexto e os resultados do proxecto, pode consultarse o informe publicado por European Language Equality:
https://european-language-equality.eu/wp-content/uploads/2023/04/ELE2_Project_Report_BLARK.pdf

 

 

Tes un proxecto?

Pídenos orzamento sen compromiso.