Curritext: intelixencia artificial para procesos de selección máis xustos e transparentes

imaxin foi adxudicataria de dous proxectos do Barcelona Supercomputing Center (BSC) no marco do AINA Challenge, unha iniciativa destinada a fomentar o uso do catalán no ámbito da intelixencia artificial e do procesamento da linguaxe natural.

Nunha publicación anterior presentamos PlatAina, unha plataforma para a tradución automática e para a avaliación de modelos lingüísticos. Podes consultar o artigo aquí.

Nesta ocasión, queremos compartir os detalles de Curritext, unha iniciativa que aplica tecnoloxías lingüísticas para fomentar a equidade e a transparencia nos procesos de selección de persoal.

 

Un sistema intelixente para garantir a equidade e a privacidade

Curritext nace cun obxectivo claro: impulsar procesos de selección máis xustos, eficaces e respectuosos coa privacidade mediante un sistema intelixente capaz de anonimizar automaticamente currículos en catalán. A solución está especialmente pensada para contornos cun volume medio ou alto de candidaturas, onde a xestión manual dos CV supón un elevado custo de tempo e recursos. Nestes contextos, os equipos de recursos humanos adoitan requirir versións anonimizadas para as fases de revisión interna. Curritext automatiza este proceso, garantindo a protección dos datos persoais e favorecendo avaliacións máis equitativas, libres de nesgos por xénero, idade ou aparencia.

Ademais da súa aplicación directa nos procesos de selección, outro dos obxectivos estratéxicos de Curritext é dotar o BSC dunha plataforma desde a cal poida probar, comparar e validar distintos modelos de recoñecemento de entidades (NER). Deste xeito, o sistema non só permite anonimizar currículos, senón tamén revisar de forma sistemática o comportamento dos modelos e contribuír á súa mellora continua a través da análise de resultados.

Ademais da anonimización, o sistema incorpora funcións de normalización e homoxeneización, permitindo xerar currículos cunha estrutura coherente e comparable, o que facilita a súa revisión, análise e tratamento posterior por parte dos equipos de selección.

 

Arquitectura e autoaloxamento

Curritext baséase nunha arquitectura de microservizos, onde cada compoñente cumpre unha función específica e comunícase a través de API. O sistema componse dos seguintes elementos principais:

  • API Gateway: punto de entrada único para todas as solicitudes externas, que centraliza a xestión e a seguridade.
  • AnonymizerEngine: microservizo encargado de executar os procesos de anonimización.
  • NEREngine: microservizo dedicado a etiquetar e clasificar as entidades do documento orixinal.
  • Sistema de persistencia: almacenamento de obxectos compatible con Amazon S3, empregado para a xestión e a custodia dos documentos.

Esta arquitectura modular permite escalar cada compoñente de forma independente, optimizando o rendemento e facilitando o mantemento e a evolución do sistema.

 

Modelos autoaloxados: control e eficiencia

Unha das principais vantaxes de Curritext é que todos os modelos de NER se executan en infraestrutura propia, sen depender de servizos externos. Isto achega beneficios clave:

  • Privacidade e control de datos, xa que os documentos nunca saen do contorno, cumprindo cos máis altos requisitos de seguridade e confidencialidade no tratamento da información.
  • Optimización de recursos, grazas á capacidade do sistema para axustar dinamicamente o lanzamento dos modelos segundo a demanda real, evitando sobredimensionamentos e reducindo custos operativos.
  • Flexibilidade e independencia tecnolóxica, que permite integrar novos modelos ou actualizar os existentes sen depender de provedores externos nin introducir cambios estruturais na plataforma, garantindo así a súa evolución continua e a súa autonomía tecnolóxica.

     

Orientación API First: facilitando a integración

Curritext foi deseñado seguindo o enfoque API First, o que ofrece vantaxes claras en termos de integración e evolución do sistema:

  • Facilita unha integración máis rápida e sinxela con outros sistemas.
  • A existencia dunha documentación clara e a consistencia dos endpoints melloran a experiencia durante os procesos de integración.
  • O versionado e os contratos da API protexen fronte a cambios inesperados que poidan afectar a integracións existentes.
  • O acceso a novas funcionalidades realízase sempre a través da API, garantindo a súa dispoñibilidade desde o primeiro momento.
  • Favorece a interoperabilidade, conectando sistemas propios, automatizacións ou aplicacións externas e ampliando o valor do servizo.

 

Avaliación e validación do modelo

Durante o proxecto, elaborarase un informe de beta testing con documentación técnica, exemplos de integración e unha avaliación comparativa do rendemento dos distintos modelos neuronais NER, que permitirá seleccionar o modelo con mellores resultados. Estas avaliacións realizaranse sobre tests creados en imaxin a partir de currículos sintéticos, deseñados especificamente para medir o comportamento dos modelos nun contorno controlado. Todo iso contribuirá a fortalecer a base tecnolóxica do ecosistema Aina e a promover a adopción real do catalán en contornos de intelixencia artificial aplicada.

 

Compromiso coas linguas cooficiais e coa innovación responsable

O desenvolvemento de Curritext enmárcase na nosa aposta continua por incorporar as linguas cooficiais en solucións tecnolóxicas avanzadas. En imaxin entendemos que a inclusión lingüística non só é un valor cultural, senón tamén un factor clave para a innovación e a competitividade no ámbito dixital.

Traballar en catalán —e noutras linguas minorizadas— implica abordar retos técnicos específicos, pero tamén xerar oportunidades para construír tecnoloxías máis representativas e accesibles. Este proxecto reforza a nosa posición como empresa especializada no tratamento da linguaxe e demostra que é posible desenvolver ferramentas de intelixencia artificial útiles, éticas e aliñadas coa diversidade lingüística do territorio.

 

Tes un proxecto?

Pídenos orzamento sen compromiso.