Avaliación de sistemas de tradución ao galego, rendemento e variabilidade

A tradución automática (TA) é unha ferramenta esencial para mellorar a comunicación entre linguas, especialmente para aquelas con menor presenza dixital, como o galego. En imaxin, con máis de 20 anos de experiencia no desenvolvemento de solucións lingüísticas, mantemos un compromiso constante coa innovación en tradución automática. A rápida evolución da intelixencia artificial fai imprescindible coñecer e avaliar os recursos máis avanzados dispoñibles, tanto para a tradución automática como para outras áreas do procesamento da linguaxe natural (PLN).

Recentemente, en colaboración coa Universidade do País Vasco (EHU), a nosa compañeira Sofía García realizou unha investigación no marco da súa tese industrial, centrada en identificar os sistemas de tradución automática máis efectivos para o galego. Este estudo, adaptado ás necesidades dunha pequena e mediana empresa (peme), representa a avaliación máis exhaustiva realizada ata o momento na tradución automática para o galego, ademais do primeiro estudo en TA que inclúe o portugués-galego dentro dunha avaliación xenérica. Os resultados desta análise foron presentados o pasado 25 de setembro no congreso anual da Sociedade Española do Procesamento da Linguaxe Natural (SEPLN) 2025, celebrado en Zaragoza.

Neste congreso, recoñecido como un evento de referencia en tecnoloxías da linguaxe no ámbito hispano, tivemos a oportunidade de conectar con empresas e institucións do PLN tanto a nivel estatal como internacional. Este encontro facilitou o intercambio de coñecementos e a creación de lazos tanto académicos como empresariais. Ademais, escoitamos intervencións de figuras destacadas no sector, como Marta R. Costa-jussà, investigadora científica en META, así como doutros expertos de diversas disciplinas, o que nos permitiu ampliar a nosa perspectiva e identificar novas oportunidades para innovar dentro da nosa empresa.

 

Obxectivo do estudo

O estudo tiña como obxectivo identificar os modelos de tradución automática de licenza libre máis efectivos para os pares de linguas inglés‑galego, español‑galego e portugués‑galego no dominio xeral. Entre os tres pares, avaliáronse un total de 45 sistemas en 23 tests de avaliación tendo en conta tres factores principais:

  • Calidade do modelo: precisión das traducións producidas
  • Varianza no rendemento: consistencia dos modelos en distintos datasets de avaliación
  • Tamaño do modelo: eficiencia computacional no contexto dunha peme

 

Metodoloxía

A investigación avaliou catro tipos principais de sistemas de tradución automática:

  • Sistemas baseados en regras: Apertium. Para esta avaliación non se empregou a versión liberada, senón o sistema de pago da nosa plataforma Opentrad, tamén implantado en Gaio,  o sistema de tradución automática oficial da Xunta de Galicia.
  • Modelos neuronais bilingües: sistemas sequence-to-sequence especializados nun par de linguas.
  • Modelos neuronais multilingües: sistemas sequence-to-sequence que inclúen múltiples linguas simultaneamente.
  • Grandes modelos de linguaxe (LLM): tanto non instruídos, como Llama-3.1.-Carballo; instruídos, como os modelos de EuroLLM; ou axustados para tradución automática, como os modelos de LlaMAX.

 

Principais resultados

  • Español-galego: onde os máis pequenos aínda compiten
    Para o par español-galego, o sistema Opentrad e o modelo neuronal bilingüe do Proxecto Nós seguen a ser competitivos cos modelos multilingües e os LLM. Isto demostra que entre linguas próximas e de poucos recursos, os sistemas máis pequenos aínda poden funcionar. De maneira que, ademais de dar bos resultados, aforran custos económicos e computacionais e son unha alternativa menos contaminante que modelos máis grandes
  • Inglés-galego: a forza dos modelos multilingües
    Para o par inglés galego, os modelos multilingües como madlad demostraron unha calidade superior, aproveitando o coñecemento que teñen de distintas linguas de moitos recursos (high resource languages, HRL) para facer transferencia de coñecementos ás linguas con menos recursos (low resource languages, LRL).
  • Portugués-galego: un campo por explorar
    O par portugués-galego deu uns resultados sorprendentemente baixos en canto a métricas. A pesar de seren dúas linguas moi próximas, os resultados caeron por debaixo do inglés-galego de media. Isto chama a atención, xa que normalmente os pares de linguas próximas obteñen mellores resultados que os pares de linguas máis distantes.
    Un dos posibles motivos foi a escaseza de tests de avaliación. Para portugués galego só existen tests de referencia multilingües e de dominio xenérico, coñecidos como benchmarks, a maioría coas variantes europea e brasileira mesturadas. É por isto que consideramos os resultados inconclusos. Urxe a creación de bos tests de avaliación neste par de linguas, tanto de dominio xenérico como específico e que permitan avaliar propiamente a variante europea do portugués, por ser esta de grande interese dada a proximidade tanto lingüística como xeográfica entre o galego e o portugués europeo.
    Cinguíndonos propiamente á avaliación feita no artigo, o modelo nllb-muele-54b, foi o que obtivo mellores resultados en canto ás métricas de avaliación da calidade. Aínda así, reiteramos a necesidade de investigar este par con máis profundidade para conseguir modelos máis óptimos, tanto a nivel de calidade como de custo computacional.

 

Contribucións e futuro

Os achados deste estudo ofrecen orientacións prácticas para os tres pares de linguas e pretenden ser unha guía tanto para o ámbito da investigación como para o empresarial. Para ver os modelos avaliados, os mellor valorados ou consultar máis información sobre os outros factores de avaliación, descargue a guía cubrindo o formulario que atopará ao final da páxina.

 

Compromiso coas linguas minorizadas

En imaxin buscamos darlle sempre a mellor calidade aos nosos clientes e, hoxe en día, no ámbito da intelixencia artificial, isto non sería posible se non fósemos da man da investigación. Este último traballo únese a outros focalizados no galego e noutras linguas minorizadas como:

Esta investigación destaca a importancia de desenvolver solucións específicas para linguas como o galego, sen depender exclusivamente de plataformas xerais. Ademais, reforza o papel da colaboración entre empresa e universidade para abordar retos tecnolóxicos complexos. Grazas a estes resultados, temos un coñecemento máis profundo dos recursos dispoñibles e do camiño a seguir para mellorar os sistemas de tradución automática que temos implantados.

 

 

Formulario de descarga

 

Do you have a project?

Request a no-obligation quote.