PlatAina: unha plataforma para avaliar e mellorar os modelos de tradución automática do BSC

imaxin foi adxudicataria de dous proxectos do Barcelona Supercomputing Center (BSC) dentro do AINA Challenge, unha iniciativa destinada a fomentar o uso do catalán no ámbito da intelixencia artificial e o procesamento da linguaxe natural.

Un deles é PlatAina, un proxecto orientado a crear unha plataforma que facilitará a experimentación e a avaliación dos modelos lingüísticos do Aina Kit. Cómpre destacar que PlatAina foi o proxecto con maior puntuación de todos os presentados ao concurso.

 

Un contorno de avaliación colaborativo

O obxectivo de PlatAina é dotar o BSC dunha plataforma en liña desde a cal poida probar e comparar distintos modelos de tradución e, ao mesmo tempo, recoller datos de avaliación cualitativa e cuantitativa baseados na interacción coas persoas usuarias.
Deste xeito, o sistema non só permite traducir textos e documentos, senón tamén obter retroalimentación directa que contribúa á mellora dos modelos neuronais e LLM utilizados.

A través da plataforma, poderanse realizar dous tipos de operacións principais:

  • Tradución de textos: as persoas usuarias poderán seleccionar o par de idiomas e o modelo de tradución, e avaliar o resultado respondendo a tres preguntas: decidir se a tradución é correcta ou incorrecta, identificar o tipo de erro se o houbese, propoñer unha versión alternativa e engadir comentarios opcionais. Estas achegas son unha fonte de información clave para o BSC, xa que axudan a identificar padróns de erro e a orientar a optimización dos modelos.
  • Tradución de documentos: permite traducir ficheiros en distintos formatos (como DOCX ou HTML) conservando a súa estrutura orixinal. Neste caso, a persoa usuaria pode editar a tradución nunha ferramenta CAT (Computer-Assisted Translation) integrada, que mostra os segmentos orixinais e os traducidos para detectar erros comúns en modelos neuronais, como alucinacións ou omisións, e para validar manualmente o resultado final.

Máis aló da súa utilidade directa, PlatAina ten un papel estratéxico: avaliar o rendemento dos modelos neuronais e de linguaxe (LLM) que, aínda que ofrecen traducións máis naturais e precisas, presentan desafíos na detección de erros difíciles de percibir, como omisións ou alucinacións. Por iso, esta plataforma resulta esencial para afondar na súa análise, mellorar o seu comportamento e fortalecer a calidade lingüística do ecosistema AINA.

 

Arquitectura de PlatAina: optimización, autoaloxamento e orquestración avanzada

No competitivo ámbito da tradución automática, a arquitectura de sistemas é un factor decisivo para garantir a escalabilidade, a eficiencia e a robustez. PlatAina destaca polo seu deseño técnico, centrado na optimización de recursos, o autoaloxamento dos modelos e a xestión intelixente de procesos mediante tecnoloxías de orquestración destacadas como Temporal.io.

Arquitectura modular e microservizos

PlatAina baséase nunha arquitectura de microservizos, onde cada compoñente cumpre unha función específica e se comunica a través de API. O sistema componse dos seguintes elementos principais:

  • API Gateway: punto de entrada único para todas as solicitudes externas, que facilita a xestión e a seguridade.
  • Sistema de colas: xestiona as peticións de tradución de forma asíncrona, desacoplando a recepción de solicitudes do procesamento.
  • TranslatorEngine: microservizo encargado de executar as traducións, integrando os modelos lingüísticos autoaloxados.
  • Deformater e Alignment: servizos dedicados a extraer e reconstruír o formato orixinal dos documentos, garantindo que o contido traducido conserve a súa estrutura.
  • Sistema de persistencia: almacenamento de obxectos compatible con Amazon S3, empregado para gardar documentos e datos de uso.

Esta arquitectura modular permite escalar cada compoñente de forma independente, optimizando o rendemento e facilitando o mantemento e a evolución do sistema.

Modelos autoaloxados: control e eficiencia

Unha das principais vantaxes de PlatAina é que todos os modelos de tradución se executan na infraestrutura propia, sen depender de servizos externos. Isto ofrece beneficios significativos:

  • Privacidade e control de datos, xa que os documentos e textos nunca saen do contorno do BSC, cumprindo cos máis altos requisitos de seguridade e confidencialidade no tratamento da información.
  • Optimización de recursos, grazas á capacidade do sistema para axustar dinamicamente a despregadura dos modelos segundo a demanda real, evitando o sobredimensionamento, reducindo os custos operativos e mellorando a eficiencia xeral do contorno.
  • Flexibilidade e independencia tecnolóxica, que permite integrar novos modelos ou actualizar os existentes sen depender de provedores externos nin introducir cambios estruturais na plataforma, garantindo así a súa evolución continua e a súa autonomía tecnolóxica.

Orquestración con Temporal.io: automatización e resiliencia

Plataina utiliza Temporal.io como orquestrador de fluxos de traballo. Temporal.io é unha plataforma open source que permite definir, executar e monitorizar procesos complexos de maneira fiable e escalable. Isto achega beneficios clave:

  • Xestión de procesos distribuídos, xa que Temporal.io coordina a execución de tarefas entre distintos microservizos, asegurando que cada paso do proceso de tradución —extracción, tradución, aliñamento e almacenamento— se realice na orde correcta, con control de dependencias e tolerancia a fallos.
  • Automatización avanzada, que permite definir fluxos de traballo dinámicos e adaptativos segundo as necesidades do sistema, incorporando funcións de priorización de tarefas, reintentos automáticos en caso de erro e unha monitorización centralizada que facilita a supervisión e a trazabilidade de cada proceso.
  • Escalabilidade e resiliencia, posto que Temporal.io habilita a escalabilidade horizontal do sistema, permitindo procesar grandes volumes de documentos sen comprometer a estabilidade. A súa arquitectura tolerante a fallos garante a continuidade do servizo mesmo ante incidencias nos microservizos subxacentes, asegurando un funcionamento robusto e sostido.

 

Contribuíndo ao ecosistema lingüístico e tecnolóxico

PlatAina alíñase plenamente cos obxectivos estratéxicos do proxecto Aina, que busca situar Cataluña como referente no ámbito da intelixencia artificial e da tecnoloxía lingüística, fomentando a adopción de recursos abertos nos sectores público e privado.

Desde imaxin, compartimos esa visión: impulsar tecnoloxías responsables, abertas e orientadas ao ben común, que fortalezan o ecosistema dixital das linguas cooficiais e faciliten a súa presenza nos contornos tecnolóxicos máis avanzados.

Con proxectos como PlatAina e Curritext, reafirmamos o noso compromiso cunha intelixencia artificial máis inclusiva, transparente e adaptada á diversidade lingüística do territorio.

 

Se atopaches PlatAina interesante, hai máis.

En imaxin seguimos impulsando tecnoloxías lingüísticas que axudan a que o mundo se entenda mellor.

Tes un proxecto?

Pídenos orzamento sen compromiso.