¿QUÉ ES EL BLARK?

Este año 2023 fuimos escogidos, junto a otros 8 proyectos, para participar en los SRIA Contribution Projects. Nuestra labor consistió en crear un BLARK (Basic Language Resource Kit) para las lenguas minorizadas en la era del deep learning, tomando el gallego como ejemplo.

El BLARK es una herramienta que permite medir cuáles son los mínimos que cualquier lengua minorizada debe cumplir para ser competitiva en las Tecnologías de la Lengua (TL) y evaluar cuál es la situación de cada lengua con respecto a esos mínimos. Es por esto que esta herramienta no tendría sentido para lenguas como el inglés, o un poco más pequeñas como el español, alemán o portugués, ya que cubrirían perfectamente estos mínimos.

Los primeros BLARKs surgieron a finales de los años noventa y principios de los 2000 para lenguas como el holandés o el árabe. Pero dos décadas después, las TL sufrieron un cambio de paradigma con la llegada de las redes de neuronas, lo que hizo necesario actualizar esta herramienta.

PROCESO DE ELABORACIÓN

Para llevar a cabo este trabajo, primero se hizo un análisis de los recursos existentes en distintas lenguas minorizadas como el catalán, el gallego o el euskera, así como de otras lenguas grandes pero que aún no tienen el desarrollo en las TL que sí pueden tener lenguas como el inglés o chino, como por ejemplo el español o el alemán. Además, también se hizo un análisis de cuál es la situación de las TL actualmente en la era del deep learning.

De esta manera, el nuevo BLARK se dividió entre Recursos Transversales, es decir, todas aquellas herramientas y recursos que pueden ser empleados para cualquier tarea de las TL; y Tareas Específicas, como pueden ser la traducción automática, corrección de textos, procesamiento y síntesis de la voz, etc. Así, pueden evaluarse los recursos que cada lengua posee, tanto a nivel genérico como a nivel específico de cada tarea (modelos y datos). Es importante tener en cuenta que, especialmente en el caso de las tareas específicas, ya que este es un BLARK para la era del deep learning, solo se tienen en cuenta los modelos neuronales para realizar esas tareas. Los sistemas anteriores, como los de reglas, no se tienen en cuenta para cubrir este BLARK, ya que lo que se quiere saber es el nivel de desarrollo en el deep learning.

SISTEMA DE EVALUACIÓN

Antes de detallar la tabla de nuestro BLARK, haremos una breve explicación de cómo funciona el sistema de evaluación. Como ya se explicó anteriormente, el BLARK es una herramienta para evaluar el estado de las lenguas minorizadas en las TL y los recursos con los que cuentan. En este caso, y a diferencia de los BLARKs anteriores, se implantó un sistema de evaluación cuantitativo. Ponemos a continuación un ejemplo de la tabla genérica del BLARK.

Como se puede observar, cada sección tiene un valor (recursos transversales): 40 %; LT tasks (Tareas de las TL): 60 %. En este caso, se les dio mayor peso a las tareas específicas, ya que en el deep learning se necesitan modelos entrenados para desarrollar cada tarea y corpus con características determinadas para poder entrenar o mejorar dichos modelos. Aunque los recursos transversales puedan ser de utilidad, cada tarea necesita modelos y corpus específicos.

Por otro lado, cada sección está dividida en una serie de subsecciones que también tienen su peso dentro de la sección correspondiente. Y cada subsección estará conformada por una serie de recursos que también tendrán su propio valor, como se verá en las publicaciones posteriores.

Por último, para evaluar cada recurso, se decidió tener en cuenta su tamaño (pequeño, mediano o grande), su calidad (baja, media o alta) y su licencia (cerrada, abierta solo para investigación o completamente abierta). Evaluar según la licencia es importante, ya que hay muchos recursos que no pueden emplearse para determinados fines, especialmente los comerciales. Esto hace que, aunque haya recursos creados, estos no sean realmente utilizables.

Para que se visualice mejor el funcionamiento y resultados que el BLARK puede aportar, en los siguientes posts se mostrarán los resultados del gallego en este BLARK, detallando la tabla por subsecciones.

RECURSOS TRANSVERSALES-CORPUS

Los corpus son la primera subsección de los recursos transversales. Por norma general, un corpus es un conjunto de textos que bien pueden ser anotados (corpus que contienen información morfológica, sintáctica, semántica, etc. como el Corpus Técnico do Galego, CTG); pueden ser corpus de referencia (corpus que recogen las distintas variantes de una lengua como las temporales, geográficas, sociales… como por ejemplo el CORGA en lengua gallega), o pueden ser macro corpus (corpus muy grandes habitualmente extraídos de distintas fuentes de Internet). En gallego destaca el SLIGalWeb. Tal y como se puede observar en la tabla, actualmente hay una cantidad grande de corpus anotado y liberado para el gallego, pero de calidad baja. Además, el CORGA no está liberado y el SLIGalWeb, a pesar de ser un corpus grande, tiene un tamaño medio para lo que debería ser un macro corpus. Queda aún trabajo por hacer en el desarrollo de corpus para la lengua gallega, especialmente para el entrenamiento de modelos neuronales.

RECURSOS TRANSVERSALES-HERRAMIENTAS DE NLP

Otros recursos transversales fundamentales son las herramientas de Procesamiento del Lenguaje Natural (PLN) que sirven para procesar el texto antes del entrenamiento y así poder ser interpretado por el modelo. Habitualmente estas herramientas no se encuentran por separado, sino que están incluidas en librerías como el Linguakit o Freeling, que incluyen la lengua gallega. Y, hoy en día, ya están incorporadas en los distintos modelos existentes para el desarrollo de tareas.

Algunas de las herramientas más destacables son: los tokenizadores (que dividen los textos en fragmentos (tokens)), los POS-taggers (que hacen un análisis morfológico del texto), los reconocedores de lengua o los reconocedores y clasificadores de entidades (NERC). Debido a que estas herramientas ya eran ampliamente utilizadas en la era previa al deep learning, el gallego está muy desarrollado en esta subsección.

RECURSOS TRANSVERSALES-RECURSOS LÉXICOS

A diferencia de los corpus, que son conjuntos de textos, se entiende por recursos léxicos todos aquellos documentos que recogen listas de palabras. Los recursos léxicos más básicos e imprescindibles hoy en día son los diccionarios (como el diccionario de la Real Academia Galega, RAG) o los léxicos anotados (como los GalNet). A pesar de que el diccionario de la RAG es un recurso grande, está cerrado para su uso y los léxicos anotados con que se cuenta en gallego tienen una calidad baja. De nuevo, también queda trabajo por hacer en la elaboración de recursos léxicos.

RECURSOS TRANSVERSALES-MODELOS DE LENGUA

Los modelos de lengua, como, por ejemplo, el ya conocido GPT, son modelos que “aprenden” un idioma a partir del entrenamiento con ingentes cantidades de texto sin procesar de una lengua en concreto en el caso de los monolingües y de varias lenguas en el caso de los multilingües. Una vez estos modelos aprenden el idioma, pueden reentrenarse para desarrollar con gran eficacia distintas tareas como etiquetar morfológicamente, reconocer entidades, resumir automáticamente, analizar sentimientos, etc.

Tal y como se muestra en la tabla, los modelos de lengua pueden dividirse en embeddings (representaciones vectoriales de palabras o frases), autoencoders (como los modelos BERT, que aprenden a predecir la palabra siguiente teniendo en cuenta el contexto alrededor de la palabra) y los autoregressive (como los modelos de GPT. Estos modelos pueden predecir la palabra siguiente teniendo en cuenta únicamente el contexto anterior a dicha palabra). Actualmente, el gallego cuenta con embeddings propios y modelos autoencoders tanto monolingües: el Bertinho, el BERT-small, BERT-base y BERT-large, como multilingües, como el mBERT.

En lo referente a los modelos autorregresivos, el gallego está presente en el modelo de GPT multilingüe pero, por ahora, no tiene un modelo de lengua propio. El gallego está medianamente desarrollado en este ámbito, especialmente por el desarrollo de modelos BERT monolingües, pero su presencia en los modelos multilingües, tanto en el mBERT como en el mGPT, es escasa.

TAREAS DE LT-SÍNTESIS DE VOZ 

La síntesis de voz o Text-to-Speech (TTS) es la tarea que consiste en sintetizar un texto para convertirlo en audio. Gracias al trabajo llevado a cabo por el Proxecto Nós en este último año, el gallego cuenta actualmente con un corpus y un modelo de calidad alta y completamente abiertos para llevar a cabo esta tarea. Aunque queda investigación por hacer, el gallego obtendría la máxima puntuación en esta tarea del BLARK.

TAREAS DE LT-RECONOCIMIENTO DE VOZ

El reconocimiento de voz o Automatic Speech Recognition (ASR) es la tarea que consiste en el reconocimiento y transformación de un audio a texto. Como se mencionó anteriomente, desde el Proxecto Nós se crearon una serie de corpus y un modelo de alta calidad que le permite al gallego tener una puntuación alta en esta tarea. Así y todo, como también se mencionó, aún queda mucha investigación por hacer en este ámbito.

TAREAS DE LT-TRADUCCIÓN AUTOMÁTICA

La traducción automática es la tarea que consiste en traducir un texto desde una lengua origen a una lengua destino por medio de sistemas de computación. En el deep learning existen modelos bilingües, que son capaces de traducir entre un par de idiomas, o multilingües, que pueden traducir entre muchos idiomas distintos con un solo modelo. Para valorar el estado de una lengua en la traducción automática, se valoran hasta un máximo de cuatro pares de traducción (ya que un número mayor de pares de traducción no sería propio de una lengua minorizada, ni un mínimo. Estaríamos delante de una lengua ampliamente desarrollada). En el caso de los modelos multilingües, en este BLARK solo se tienen en cuenta aquellos que fueron ajustados para la lengua en concreto. Es por esto que en el caso del gallego solo se tuvieron en cuenta los pares de español-gallego e inglés-gallego, a pesar de estar presente en diferentes modelos multilingües como el M2M o NLLB.

De nuevo, el Proxecto Nós creó corpus paralelos y modelos de traducción para los pares español-gallego e inglés-gallego. Además, ya existía un modelo de traducción español-gallego creado por el PlanTL.

Y, por último, en lo referente al corpus, existen múltiples corpus multilingües que incluyen el gallego, pero habitualmente de mala calidad. Es por esto que la puntuación general de traducción automática del gallego en el BLARK es baja. Únicamente hay modelos neuronales para traducir entre dos pares de traducción, y a nivel de corpus, aunque estos son grandes, la calidad por lo general es media-baja.

TAREAS DE LT-OTRAS TAREAS

Tanto la síntesis y reconocimiento de voz como la traducción automática son tareas básicas de las TL que todas las lenguas deberían tener cubiertas como básico en el deep learning. Pero hay una serie de tareas que, aunque son importantes, difícilmente se cubren en lenguas desarrolladas como el español o el portugués, estando únicamente bien trabajadas en el inglés.

Es por esto que todas estas tareas se incluyeron en el BLARK pero en una categoría propia (Otras Tareas de LT). Estas son las siguientes:

  • Corrección de Errores Gramaticales (GEC). Esta tarea consiste en detectar automáticamente los errores de un texto, tanto de tipo ortográfico como gramatical, semántico o de estilo y corregirlos.
  • Resumen automático. Esta tarea consiste en convertir un texto original en otro más compacto que no pierda la información principal del texto original.
  • Análisis de Sentimiento. Esta tarea consiste en determinar la polaridad de un texto clasificándolo como positivo, negativo o neutro. Suele emplearse, por ejemplo, para saber la opinión de diferentes consumidores sobre distintos productos.
  • Verificación de Hechos. Esta tarea consiste en determinar si la afirmación hecha en un determinado texto es real o falsa. Se emplea habitualmente para la detección de fraude.
  • Sistemas de Diálogo. Estos últimos integran una variedad de subtareas y recursos que permiten la interacción entre el humano y la máquina, como asistentes de móvil, chatbots, altavoces inteligentes, etc.

    Como puede observarse en la tabla, estas tareas en gallego son prácticamente inexistentes. En la tarea de corrección de errores gramaticales existe algún corpus pequeño y de calidad baja, y en los sistemas de diálogo existen algunos sistemas desarrollados para la administración, pero no hay ningún modelo entrenado en ninguna de las otras tareas ni corpus suficiente como para entrenar modelos nuevos. Como ya se mencionó, no son tareas básicas, pero sí sería necesario desenvolverlas en un futuro para poder garantirle a los hablantes de gallego estas herramientas en su lengua.

    TAREAS DE LT-SISTEMAS DE EVALUACIÓN

    En esta última subcategoría se analizó, de manera muy general, la existencia de distintos recursos para poder evaluar los modelos de las tareas específicas anteriormente mencionadas. Estos sistemas pueden ser tanto datasets (corpus revisados por lingüistas para poder tener un modelo de comparación sobre el que haga el modelo) o métodos de evaluación automática dependientes del idioma, como puede ser COMET para traducción automática.

    En general, el gallego no tiene métodos de evaluación que le permitan evaluar los modelos o hacer análisis comparativos con otras lenguas en las diferentes tareas. Es por esto que el resultado en esta subsección es muy bajo. Tener sistemas de evaluación es básico, ya que permite saber qué tan bien funciona un modelo o compararlo con el estado del arte.

    GL-BLARK

    Por último, mostramos el BLARK completo para el gallego. Como puede observarse, el resultado final deja el gallego en un estado medio en un BLARK pensado para evaluar la situación de lenguas minorizadas y los mínimos por cubrir en las TL. Tanto la situación en los recursos transversales como en las tareas específicas permite ver que hay mucho trabajo por hacer en la creación de corpus para el gallego, tanto oral como escrito, para poder mejorar la situación en las distintas tareas.

    MÁS INFORMACIÓN

    Si quieres saber más sobre el proyecto GL-BLARK, entra en el siguiente enlace:

    https://european-language-equality.eu/wp-content/uploads/2023/04/ELE2_Project_Report_BLARK.pdf