Unha nova forma de dialogar. Evolucionamos para comunicar mellor. Moi pronto, nova web.

imaxin foi adxudicataria de dous proxectos do Barcelona Supercomputing Center (BSC) no marco do AINA Challenge, unha iniciativa destinada a fomentar o uso do catalán no ámbito da intelixencia artificial e do procesamento da linguaxe natural.

Nunha publicación anterior presentamos PlatAina, unha plataforma para a tradución automática e para a avaliación de modelos lingüísticos. Podes consultar o artigo aquí.

Nesta ocasión, queremos compartir os detalles de Curritext, unha iniciativa que aplica tecnoloxías lingüísticas para fomentar a equidade e a transparencia nos procesos de selección de persoal.

Un sistema intelixente para garantir a equidade e a privacidade

Curritext nace cun obxectivo claro: impulsar procesos de selección máis xustos, eficaces e respectuosos coa privacidade mediante un sistema intelixente capaz de anonimizar automaticamente currículos en catalán. A solución está especialmente pensada para contornos cun volume medio ou alto de candidaturas, onde a xestión manual dos CV supón un elevado custo de tempo e recursos. Nestes contextos, os equipos de recursos humanos adoitan requirir versións anonimizadas para as fases de revisión interna. Curritext automatiza este proceso, garantindo a protección dos datos persoais e favorecendo avaliacións máis equitativas, libres de nesgos por xénero, idade ou aparencia.

Ademais da súa aplicación directa nos procesos de selección, outro dos obxectivos estratéxicos de Curritext é dotar o BSC dunha plataforma desde a cal poida probar, comparar e validar distintos modelos de recoñecemento de entidades (NER). Deste xeito, o sistema non só permite anonimizar currículos, senón tamén revisar de forma sistemática o comportamento dos modelos e contribuír á súa mellora continua a través da análise de resultados.

Ademais da anonimización, o sistema incorpora funcións de normalización e homoxeneización, permitindo xerar currículos cunha estrutura coherente e comparable, o que facilita a súa revisión, análise e tratamento posterior por parte dos equipos de selección.

Arquitectura e autoaloxamento

Curritext baséase nunha arquitectura de microservizos, onde cada compoñente cumpre unha función específica e comunícase a través de API. O sistema componse dos seguintes elementos principais:

  • API Gateway: punto de entrada único para todas as solicitudes externas, que centraliza a xestión e a seguridade.
  • AnonymizerEngine: microservizo encargado de executar os procesos de anonimización.
  • NEREngine: microservizo dedicado a etiquetar e clasificar as entidades do documento orixinal.
  • Sistema de persistencia: almacenamento de obxectos compatible con Amazon S3, empregado para a xestión e a custodia dos documentos.

Esta arquitectura modular permite escalar cada compoñente de forma independente, optimizando o rendemento e facilitando o mantemento e a evolución do sistema.

Modelos autoaloxados: control e eficiencia

Unha das principais vantaxes de Curritext é que todos os modelos de NER se executan en infraestrutura propia, sen depender de servizos externos. Isto achega beneficios clave:

  • Privacidade e control de datos, xa que os documentos nunca saen do contorno, cumprindo cos máis altos requisitos de seguridade e confidencialidade no tratamento da información.
  • Optimización de recursos, grazas á capacidade do sistema para axustar dinamicamente o lanzamento dos modelos segundo a demanda real, evitando sobredimensionamentos e reducindo custos operativos.
  • Flexibilidade e independencia tecnolóxica, que permite integrar novos modelos ou actualizar os existentes sen depender de provedores externos nin introducir cambios estruturais na plataforma, garantindo así a súa evolución continua e a súa autonomía tecnolóxica.

Orientación API First: facilitando a integración

Curritext foi deseñado seguindo o enfoque API First, o que ofrece vantaxes claras en termos de integración e evolución do sistema:

  • Facilita unha integración máis rápida e sinxela con outros sistemas.
  • A existencia dunha documentación clara e a consistencia dos endpoints melloran a experiencia durante os procesos de integración.
  • O versionado e os contratos da API protexen fronte a cambios inesperados que poidan afectar a integracións existentes.
  • O acceso a novas funcionalidades realízase sempre a través da API, garantindo a súa dispoñibilidade desde o primeiro momento.
  • Favorece a interoperabilidade, conectando sistemas propios, automatizacións ou aplicacións externas e ampliando o valor do servizo.

Avaliación e validación do modelo

Durante o proxecto, elaborarase un informe de beta testing con documentación técnica, exemplos de integración e unha avaliación comparativa do rendemento dos distintos modelos neuronais NER, que permitirá seleccionar o modelo con mellores resultados. Estas avaliacións realizaranse sobre tests creados en imaxin a partir de currículos sintéticos, deseñados especificamente para medir o comportamento dos modelos nun contorno controlado. Todo iso contribuirá a fortalecer a base tecnolóxica do ecosistema Aina e a promover a adopción real do catalán en contornos de intelixencia artificial aplicada.

Compromiso coas linguas cooficiais e coa innovación responsable

O desenvolvemento de Curritext enmárcase na nosa aposta continua por incorporar as linguas cooficiais en solucións tecnolóxicas avanzadas. En imaxin entendemos que a inclusión lingüística non só é un valor cultural, senón tamén un factor clave para a innovación e a competitividade no ámbito dixital.

Traballar en catalán —e noutras linguas minorizadas— implica abordar retos técnicos específicos, pero tamén xerar oportunidades para construír tecnoloxías máis representativas e accesibles. Este proxecto reforza a nosa posición como empresa especializada no tratamento da linguaxe e demostra que é posible desenvolver ferramentas de intelixencia artificial útiles, éticas e aliñadas coa diversidade lingüística do territorio.