QUÉ É O BLARK?

Este ano 2023 fomos escollidos, xunto a outros 8 proxectos, para participar nos SRIA Contribution Projects. O noso labor consistiu en crear un BLARK (Basic Language Resource Kit) para as linguas minorizadas na era do deep learning, tomando o galego como exemplo.

O BLARK é unha ferramenta que permite medir cales son os mínimos que calquera lingua minorizada debe cumprir para ser competitiva nas Tecnoloxías da Lingua (TL) e avaliar cal é a situación de cada lingua con respecto a eses mínimos. É por isto que esta ferramenta non tería sentido para linguas como o inglés, ou un pouco máis pequenas como o español, alemán ou portugués, xa que cubrirían perfectamente estes mínimos.

Os primeiros BLARKs xurdiron a finais dos anos noventa e principios dos 2000 para linguas como o holandés ou o árabe. Pero dúas décadas despois, as TL sufriron un cambio de paradigma coa chegada das redes de neuronas, o que fixo necesario actualizar esta ferramenta.

PROCESO DE ELABORACIÓN

Para levar a cabo este traballo, primeiro fíxose unha análise dos recursos existentes en distintas linguas minorizadas como o catalán, o galego ou o éuscaro, así como de outras linguas grandes pero que aínda non teñen o desenvolvemento nas TL que si poden ter linguas como o inglés ou chinés, como por exemplo o español ou o alemán. Ademais, tamén se fixo unha análise de cal é a situación das TL actualmente na era do deep learning.

Desta maneira, o novo BLARK dividiuse entre Recursos Transversais, é dicir, todas aquelas ferramentas e recursos que poden ser empregados para calquera tarefa das TL; e Tarefas Específicas, como poden ser a tradución automática, corrección de textos, procesamento e síntese da voz etc. Así, poden avaliarse os recursos que cada lingua posúe, tanto a nivel xenérico como a nivel específico de cada tarefa (modelos e datos). É importante ter en conta que, especialmente no caso das tarefas específicas, xa que este é un BLARK para a era do deep learning, só se teñen en conta os modelos neuronais para realizar esas tarefas. Os sistemas anteriores, como os de regras, non se teñen en conta para cubrir este BLARK, xa que o que se quere saber é o nivel de desenvolvemento no deep learning.

SISTEMA DE AVALIACIÓN

Antes de detallar a táboa do noso BLARK, faremos unha breve explicación de como funciona o sistema de avaliación. Como xa se explicou anteriormente, o BLARK é unha ferramenta para avaliar o estado das linguas minorizadas nas TL e os recursos cos que contan. Neste caso, e a diferenza dos BLARKs anteriores, implantouse un sistema de avaliación cuantitativo. Poñemos a continuación un exemplo da táboa xenérica do BLARK.

Como se pode observar, cada sección ten un valor (recursos transversais): 40%; LT tasks (Tarefas das TL): 60%). Neste caso, déuselle maior peso ás tarefas específicas, xa que no deep learning precísanse modelos adestrados para desenvolver cada tarefa e corpus con características determinadas para poder adestrar ou mellorar ditos modelos. Aínda que os recursos transversais poidan ser de utilidade, cada tarefa precisa modelos e corpus específicos.

Por outro lado, cada sección está dividida nunha serie de subseccións que tamén teñen o seu peso dentro da sección correspondente. E cada subsección estará conformada por unha serie de recursos que tamén terán o seu propio valor, como se verá nas publicacións posteriores.

Por último, para avaliar cada recurso, decidiuse ter en conta o seu tamaño (pequeno, mediano ou grande), a súa calidade (baixa, media ou alta) e a súa licenza (pechada, aberta só para investigación ou completamente aberta). Avaliar segundo a licenza é importante, xa que hai moitos recursos que non poden empregarse para determinados fins, especialmente os comerciais. Isto fai que, aínda que haxa recursos creados, estes non sexan realmente utilizables.

Para que se visualice mellor o funcionamento e resultados que o BLARK pode aportar, nos seguintes posts mostraranse os resultados do galego neste BLARK, detallando a táboa por subseccións.

RECURSOS TRANSVERSAIS-CÓRPORA

O corpora é a primeira subsección dos recursos transversais. Por norma xeral, un corpus é un conxunto de textos que ben poden ser anotados (corpus que conteñen información morfolóxica, sintáctica, semántica etc. como o Corpus Técnico do Galego, CTG); poden ser corpus de referencia (corpus que recollen as distintas variantes dunha lingua como as temporais, xeográficas, sociais… como por exemplo o CORGA en lingua galega), ou poden ser macro corpus (corpus moi grandes habitualmente extraídos de distintas fontes de Internet). En galego destaca o SLIGalWeb. Tal e como se pode observar na táboa, actualmente hai unha cantidade grande de corpus anotado e liberado para o galego, pero de calidade baixa. Ademais, o CORGA non está liberado e o SLIGalWeb, a pesar de ser un corpus grande, ten un tamaño medio para o que debería ser un macro corpus. Queda aínda traballo por facer no desenvolvemento de corpus para a lingua galega, especialmente para o adestramento de modelos neuronais.

RECURSOS TRANSVERSAIS-FERRAMENTAS DE NLP

Outros recursos transversais fundamentais son as ferramentas de Procesamento da Linguaxe Natural (PLN) que serven para procesar o texto antes do adestramento e así poder ser interpretado polo modelo. Habitualmente estas ferramentas non se atopan por separado, senón que están incluídas en librerías como o Linguakit ou Freeling, que inclúen a lingua galega. E, hoxe en día, xa están incorporadas nos distintos modelos existentes para o desenvolvemento de tarefas. 

Algunhas das ferramentas máis destacables son: os tokenizadores (que dividen os textos en fragmentos (tokens)), os POS-taggers (que fan unha análise morfolóxica do texto), os recoñecedores de lingua ou os recoñecedores e clasificadores de entidades (NERC). Debido a que estas ferramentas xa eran amplamente utilizadas na era previa ao deep learning, o galego está moi desenvolvido nesta subsección.

RECURSOS TRANSVERSAIS-RECURSOS LÉXICOS

A diferencia dos corpus, que son conxuntos de textos, enténdese por recursos léxicos todos aqueles documentos que recollen listas de palabras. Os recursos léxicos máis básicos e imprescindibles hoxe en día son os dicionarios (como o dicionario da Real Academia Galega, RAG) ou os léxicos anotados (como os GalNet). A pesar de que o dicionario da RAG é un recurso grande, está pechado para o seu uso e os léxicos anotados cos que se conta en galego teñen unha calidade baixa. De novo, tamén queda traballo por facer na elaboración de recursos léxicos.

RECURSOS TRANSVERSAIS-MODELOS DE LINGUA

Os modelos de lingua, como por exemplo o xa coñecido GPT, son modelos que “aprenden” un idioma a partir do adestramento con inxentes cantidades de texto sen procesar dunha lingua en concreto no caso dos monolingües e de varias linguas no caso dos multilingües. Unha vez estes modelos aprenden o idioma, poden readestrarse para desenvolver con gran eficacia distintas tarefas como etiquetar morfoloxicamente, recoñecer entidades, resumir automaticamente, analizar sentimentos etc.

Tal e como se mostra na táboa, os modelos de lingua poden dividirse en embeddings (representacións vectoriais de palabras ou frases), autoencoders (como os modelos BERT, que aprenden a predicir a palabra seguinte tendo en conta o contexto ao redor da palabra) e os autorregresivos (como os modelos de GPT. Estes modelos poden predicir a palabra seguinte tendo en conta unicamente o contexto anterior a dita palabra). Actualmente, o galego conta con embeddings propios e modelos autoencoders tanto monolingües: o Bertinho, o BERT-small, BERT-base e BERT-large, como multilingües, como o mBERT.

No referente aos modelos autoregresivos, o galego está presente no modelo de GPT multilingüe pero, polo de agora, non ten un modelo de lingua propio. O galego está medianamente desenvolvido neste ámbito, especialmente polo desenvolvemento de modelos BERT monolingües, pero a súa presenza nos modelos multilingües, tanto no mBERT como no mGPT, é escasa.

TAREFAS DE LT-SÍNTESE DE VOZ 

A síntese de voz ou Text-to-Speech (TTS) é a tarefa que consiste en sintetizar un texto para convertelo en audio. Grazas ao traballo levado a cabo polo Proxecto Nós neste último ano, o galego conta actualmente cun corpus e un modelo de calidade alta e completamente abertos para levar a cabo esta tarefa. Aínda que queda investigación por facer, o galego obtería a máxima puntuación nesta tarefa do BLARK.

TAREFAS DE LT-RECOÑECEMENTO DE VOZ

O recoñecemento de voz ou Automatic Speech Recognition (ASR), é a tarefa que consiste no recoñecemento e transformación dun audio a texto. Ao igual que o mencionado no post anterior, dende o Proxecto Nós creáronse unha serie de corpus e un modelo de alta calidade que lle permite ao galego ter unha puntuación alta nesta tarefa. Así e todo, como foi tamén anteriormente mencionado, aínda queda moita investigación por facer neste ámbito.

TAREFAS DE LT-TRADUCIÓN AUTOMÁTICA

A tradución automática é a tarefa que consiste en traducir un texto dende unha lingua orixe a unha lingua destino por medio de sistemas de computación. No deep learning existen modelos bilingües, que son capaces de traducir entre un par de idiomas, ou multilingües, que poden traducir entre moitos idiomas distintos cun só modelo. Para valorar o estado dunha lingua na tradución automática, valóranse ata un máximo de catro pares de tradución (xa que un número maior de pares de tradución non sería propio dunha lingua minorizada, nin un mínimo. Estaríase ante unha lingua amplamente desenvolvida). No caso dos modelos multilingües, neste BLARK só se teñen en conta aqueles que foron axustados para a lingua en concreto. É por isto que no caso do galego só se tiveron en conta os pares de español-galego e inglés- galego a pesar de estar presente en diferentes modelos multilingües como o M2M ou NLLB.

De novo, o Proxecto Nós creou corpus paralelos e modelos de tradución para os pares español-galego e inglés-galego. Ademais xa existía un modelo de tradución español-galego creado polo PlanTL.

E, por último, no referente ao corpus, existen múltiples corpus multilingües que inclúen o galego pero habitualmente de mala calidade. É por isto que a puntuación xeral de tradución automática do galego no BLARK é baixa. Unicamente hai modelos neuronais para traducir entre dous pares de tradución, e a nivel de corpus, aínda que estes son grandes, a calidade polo xeral é media-baixa.

TAREFAS DE LT-OUTRAS TAREFAS

Tanto a síntese e recoñecemento de voz como a tradución automática son tarefas básicas das TL que todas as linguas deberían ter cubertas como básico no deep learning. Pero hai unha serie de tarefas que, aínda que son importantes, dificilmente se cobren en linguas desenvolvidas como o español ou o portugués, estando unicamente ben traballadas no inglés.

É por isto que todas estas tarefas se incluíron no BLARK pero nunha categoría propia (Outras Tarefas de LT). Estas son as seguintes: 

  • Corrección de Erros Gramaticais (GEC). Esta tarefa consiste en detectar automaticamente os erros dun texto, tanto de tipo ortográfico, como gramatical, semántico ou de estilo e corrixilos. 
  • Resumo automático. Esta tarefa consiste en converter un texto orixinal noutro máis compacto que non perda a información principal do texto orixinal. 
  • Análise de Sentimento. Esta tarefa consiste en determinar a polaridade dun texto clasificándoo como positivo, negativo ou neutro. Adoita empregarse, por exemplo, para saber a opinión de diferentes consumidores sobre distintos produtos. 
  • Verificación de Feitos. Esta tarefa consiste en determinar se a afirmación feita nun determinado texto é real ou falsa. Emprégase habitualmente para a detección de fraude. 
  • Sistemas de Diálogo. Estes últimos integran unha variedade de subtarefas e recursos que permiten a interacción entre o humano e a máquina, como asistentes de móbil, chatbots, altofalantes intelixentes etc.

Como se pode observar na táboa, estas tarefas en galego son practicamente inexistentes. Na tarefa de corrección de erros gramaticais existe algún corpus pequeno e de calidade baixa, e nos sistemas de diálogo existen algúns sistemas desenvolvidos para a administración, pero non hai ningún modelo adestrado en ningunha das outras tarefas nin corpus suficiente como para adestrar modelos novos. Como xa se mencionou, non son tarefas básicas pero si sería necesario desenvolvelas nun futuro para poderlle garantir aos falantes de galego estas ferramentas na súa lingua.

TAREFAS DE LT-SISTEMAS DE AVALIACIÓN

Nesta última subcategoría analizouse, de maneira moi xeral, a existencia de distintos recursos para poder avaliar os modelos das tarefas específicas anteriormente mencionadas. Estes sistemas poden ser tanto datasets (corpus revisados por lingüistas para poder ter un modelo de comparación sobre o que faga o modelo) ou métodos de avaliación automática dependentes do idioma, como pode ser COMET para tradución automática.

En xeral, o galego non ten métodos de avaliación que lle permitan avaliar os modelos ou facer análises comparativas con outras linguas nas diferentes tarefas. É por isto que o resultado nesta subsección é moi baixo. Ter sistemas de avaliación é básico, xa que permite saber que tan ben funciona un modelo ou comparalo co estado da arte.

GL-BLARK

Por último, mostramos o BLARK completo para o galego. Como pode observarse, o resultado final deixa ao galego nun estado medio nun BLARK pensado para avaliar a situación de linguas minorizadas e os mínimos por cubrir nas TL. Tanto a situación nos recursos transversais como nas tarefas específicas permite ver que hai moito traballo por facer na creación de corpus para o galego, tanto oral como escrito, para poder mellorar a situación nas distintas tarefas.

 

 

MÁIS INFORMACIÓN

Se queres saber máis sobre o proxecto GL-BLARK, entra no seguinte enlace:

https://european-language-equality.eu/wp-content/uploads/2023/04/ELE2_Project_Report_BLARK.pdf