imaxin ha sido adjudicataria de dos proyectos del Barcelona Supercomputing Center (BSC) en el marco del AINA Challenge, una iniciativa destinada a fomentar el uso del catalán en el ámbito de la inteligencia artificial y el procesamiento del lenguaje natural.
En una publicación anterior presentamos PlatAina, una plataforma para la traducción automática y evaluación de modelos lingüísticos. Puedes consultar el artículo aquí.
En esta ocasión, queremos compartir los detalles de Curritext, una iniciativa que aplica tecnologías lingüísticas para fomentar la equidad y la transparencia en los procesos de selección de personal.
Un sistema inteligente para garantizar la equidad y la privacidad
Curritext nace con un objetivo claro: impulsar procesos de selección más justos, eficaces y respetuosos con la privacidad mediante un sistema inteligente capaz de anonimizar automáticamente currículums en catalán. La solución está especialmente pensada para entornos con un volumen medio o alto de candidaturas, donde la gestión manual de los CV supone un elevado coste de tiempo y recursos. En estos contextos, los equipos de recursos humanos suelen requerir versiones anonimizadas para las fases de revisión interna. Curritext automatiza este proceso, garantizando la protección de los datos personales y favoreciendo evaluaciones más equitativas, libres de sesgos por género, edad o apariencia.
Además de su aplicación directa en los procesos de selección, otro de los objetivos estratégicos de Curritext es dotar al BSC de una plataforma desde la cual pueda probar, comparar y validar distintos modelos de reconocimiento de entidades (NER). De este modo, el sistema no solo permite anonimizar currículums, sino también revisar de forma sistemática el comportamiento de los modelos y contribuir a su mejora continua a través del análisis de resultados.
Junto con la anonimización, el sistema incorpora funciones de normalización y homogeneización, permitiendo generar currículums con una estructura coherente y comparable, lo que facilita su revisión, análisis y tratamiento posterior por parte de los equipos de selección.
Arquitectura y autoalojamiento
Curritext se basa en una arquitectura de microservicios, donde cada componente cumple una función específica y se comunica a través de API. El sistema se compone de los siguientes elementos principales:
- API Gateway: punto de entrada único para todas las solicitudes externas, que centraliza la gestión y la seguridad.
- AnonymizerEngine: microservicio encargado de ejecutar los procesos de anonimización.
- NEREngine: microservicio dedicado a etiquetar y clasificar las entidades del documento original.
- Sistema de persistencia: almacenamiento de objetos compatible con Amazon S3, empleado para la gestión y custodia de los documentos.
Esta arquitectura modular permite escalar cada componente de forma independiente, optimizando el rendimiento y facilitando el mantenimiento y la evolución del sistema.
Modelos autoalojados: control y eficiencia
Una de las principales ventajas de Curritext es que todos los modelos de NER se ejecutan en infraestructura propia, sin depender de servicios externos. Esto aporta beneficios clave:
- Privacidad y control de datos, ya que los documentos nunca salen del entorno, cumpliendo con los más altos requisitos de seguridad y confidencialidad en el tratamiento de la información.
- Optimización de recursos, gracias a la capacidad del sistema para ajustar dinámicamente el despliegue de los modelos según la demanda real, evitando sobredimensionamientos y reduciendo costes operativos.
- Flexibilidad e independencia tecnológica, que permite integrar nuevos modelos o actualizar los existentes sin depender de proveedores externos ni introducir cambios estructurales en la plataforma, garantizando así su evolución continua y su autonomía tecnológica.
Orientación API First: facilitando la integración
Curritext ha sido diseñado siguiendo el enfoque API First, lo que ofrece ventajas claras en términos de integración y evolución del sistema:
- Facilita una integración más rápida y sencilla con otros sistemas.
- La existencia de una documentación clara y la consistencia de los endpoints mejoran la experiencia durante los procesos de integración.
- El versionado y los contratos de la API protegen frente a cambios inesperados que puedan afectar a integraciones existentes.
- El acceso a nuevas funcionalidades se realiza siempre a través de la API, garantizando su disponibilidad desde el primer momento.
- Favorece la interoperabilidad, conectando sistemas propios, automatizaciones o aplicaciones externas y ampliando el valor del servicio.
Evaluación y validación del modelo
Durante el proyecto, se elaborará un informe de beta testing con documentación técnica, ejemplos de integración y una evaluación comparativa del rendimiento de los distintos modelos neuronales NER, que permitirá seleccionar el modelo con mejores resultados. Estas evaluaciones se realizarán sobre tests creados en imaxin a partir de currículums sintéticos, diseñados específicamente para medir el comportamiento de los modelos en un entorno controlado. Todo ello contribuirá a fortalecer la base tecnológica del ecosistema Aina y a promover la adopción real del catalán en entornos de inteligencia artificial aplicada.
Compromiso con las lenguas cooficiales y la innovación responsable
El desarrollo de Curritext se enmarca en nuestra apuesta continua por incorporar las lenguas cooficiales en soluciones tecnológicas avanzadas. En imaxin entendemos que la inclusión lingüística no solo es un valor cultural, sino también un factor clave para la innovación y la competitividad en el ámbito digital.
Trabajar en catalán —y en otras lenguas minorizadas— implica abordar retos técnicos específicos, pero también generar oportunidades para construir tecnologías más representativas y accesibles. Este proyecto refuerza nuestra posición como empresa especializada en el tratamiento del lenguaje y demuestra que es posible desarrollar herramientas de inteligencia artificial útiles, éticas y alineadas con la diversidad lingüística del territorio.
