imaxin foi adxudicataria de dous proxectos do Barcelona Supercomputing Center (BSC) no marco do AINA Challenge, unha iniciativa destinada a fomentar o uso do catalán no ámbito da intelixencia artificial e do procesamento da linguaxe natural.
Nunha publicación anterior presentamos PlatAina, unha plataforma para a tradución automática e para a avaliación de modelos lingüísticos. Podes consultar o artigo aquí.
Nesta ocasión, queremos compartir os detalles de Curritext, unha iniciativa que aplica tecnoloxías lingüísticas para fomentar a equidade e a transparencia nos procesos de selección de persoal.
Un sistema intelixente para garantir a equidade e a privacidade
Curritext nace cun obxectivo claro: impulsar procesos de selección máis xustos, eficaces e respectuosos coa privacidade mediante un sistema intelixente capaz de anonimizar automaticamente currículos en catalán. A solución está especialmente pensada para contornos cun volume medio ou alto de candidaturas, onde a xestión manual dos CV supón un elevado custo de tempo e recursos. Nestes contextos, os equipos de recursos humanos adoitan requirir versións anonimizadas para as fases de revisión interna. Curritext automatiza este proceso, garantindo a protección dos datos persoais e favorecendo avaliacións máis equitativas, libres de nesgos por xénero, idade ou aparencia.
Ademais da súa aplicación directa nos procesos de selección, outro dos obxectivos estratéxicos de Curritext é dotar o BSC dunha plataforma desde a cal poida probar, comparar e validar distintos modelos de recoñecemento de entidades (NER). Deste xeito, o sistema non só permite anonimizar currículos, senón tamén revisar de forma sistemática o comportamento dos modelos e contribuír á súa mellora continua a través da análise de resultados.
Ademais da anonimización, o sistema incorpora funcións de normalización e homoxeneización, permitindo xerar currículos cunha estrutura coherente e comparable, o que facilita a súa revisión, análise e tratamento posterior por parte dos equipos de selección.
Arquitectura e autoaloxamento
Curritext baséase nunha arquitectura de microservizos, onde cada compoñente cumpre unha función específica e comunícase a través de API. O sistema componse dos seguintes elementos principais:
- API Gateway: punto de entrada único para todas as solicitudes externas, que centraliza a xestión e a seguridade.
- AnonymizerEngine: microservizo encargado de executar os procesos de anonimización.
- NEREngine: microservizo dedicado a etiquetar e clasificar as entidades do documento orixinal.
- Sistema de persistencia: almacenamento de obxectos compatible con Amazon S3, empregado para a xestión e a custodia dos documentos.
Esta arquitectura modular permite escalar cada compoñente de forma independente, optimizando o rendemento e facilitando o mantemento e a evolución do sistema.
Modelos autoaloxados: control e eficiencia
Unha das principais vantaxes de Curritext é que todos os modelos de NER se executan en infraestrutura propia, sen depender de servizos externos. Isto achega beneficios clave:
- Privacidade e control de datos, xa que os documentos nunca saen do contorno, cumprindo cos máis altos requisitos de seguridade e confidencialidade no tratamento da información.
- Optimización de recursos, grazas á capacidade do sistema para axustar dinamicamente o lanzamento dos modelos segundo a demanda real, evitando sobredimensionamentos e reducindo custos operativos.
- Flexibilidade e independencia tecnolóxica, que permite integrar novos modelos ou actualizar os existentes sen depender de provedores externos nin introducir cambios estruturais na plataforma, garantindo así a súa evolución continua e a súa autonomía tecnolóxica.
Orientación API First: facilitando a integración
Curritext foi deseñado seguindo o enfoque API First, o que ofrece vantaxes claras en termos de integración e evolución do sistema:
- Facilita unha integración máis rápida e sinxela con outros sistemas.
- A existencia dunha documentación clara e a consistencia dos endpoints melloran a experiencia durante os procesos de integración.
- O versionado e os contratos da API protexen fronte a cambios inesperados que poidan afectar a integracións existentes.
- O acceso a novas funcionalidades realízase sempre a través da API, garantindo a súa dispoñibilidade desde o primeiro momento.
- Favorece a interoperabilidade, conectando sistemas propios, automatizacións ou aplicacións externas e ampliando o valor do servizo.
Avaliación e validación do modelo
Durante o proxecto, elaborarase un informe de beta testing con documentación técnica, exemplos de integración e unha avaliación comparativa do rendemento dos distintos modelos neuronais NER, que permitirá seleccionar o modelo con mellores resultados. Estas avaliacións realizaranse sobre tests creados en imaxin a partir de currículos sintéticos, deseñados especificamente para medir o comportamento dos modelos nun contorno controlado. Todo iso contribuirá a fortalecer a base tecnolóxica do ecosistema Aina e a promover a adopción real do catalán en contornos de intelixencia artificial aplicada.
Compromiso coas linguas cooficiais e coa innovación responsable
O desenvolvemento de Curritext enmárcase na nosa aposta continua por incorporar as linguas cooficiais en solucións tecnolóxicas avanzadas. En imaxin entendemos que a inclusión lingüística non só é un valor cultural, senón tamén un factor clave para a innovación e a competitividade no ámbito dixital.
Traballar en catalán —e noutras linguas minorizadas— implica abordar retos técnicos específicos, pero tamén xerar oportunidades para construír tecnoloxías máis representativas e accesibles. Este proxecto reforza a nosa posición como empresa especializada no tratamento da linguaxe e demostra que é posible desenvolver ferramentas de intelixencia artificial útiles, éticas e aliñadas coa diversidade lingüística do territorio.
