¿Qué es Lynx?

Lynx es un sistema de consulta legal basado en Generación Aumentada por Recuperación (RAG), una tecnología que combina la recuperación de información en fuentes oficiales con la generación de respuestas contextualizadas, garantizando rigor, trazabilidad y fiabilidad.

Se trata de un RAG diseñado específicamente para el Diario Oficial de Galicia (DOG) y otros boletines oficiales, pensado para cubrir la necesidad de acceder a la información pública en lenguaje natural. Su objetivo es que cualquier persona pueda formular preguntas en lenguaje corriente y obtener respuestas basadas exclusivamente en documentos oficiales, mostrando siempre las fuentes utilizadas para garantizar su verificación.

¿Qué problema resuelve?

El acceso a la información legal y administrativa sigue siendo, a día de hoy, un proceso complejo para muchas personas. La documentación publicada en el DOG es extensa, técnica y requiere conocer con precisión dónde buscar y cómo interpretar los contenidos.

En la práctica, esto se traduce en varios problemas recurrentes:

Las búsquedas se realizan de forma manual y poco eficiente.
Es necesario tener conocimiento previo sobre la estructura de los boletines y el lenguaje jurídico.
El proceso puede generar errores, retrasos y frustración, tanto en la ciudadanía como en los profesionales que consultan esta información a diario.

Lynx nace para dar respuesta a esta situación, transformando la consulta de la documentación legal en un proceso sencillo, rápido y accesible, independientemente del nivel de experiencia de la persona usuaria.

La herramienta permite:

Formular preguntas en lenguaje natural, sin necesidad de conocer términos legales exactos.
Obtener respuestas precisas, fundamentadas y transparentes en cuestión de segundos.
Reducir significativamente el tiempo y el esfuerzo necesarios para consultar documentos oficiales.

De este modo, Lynx facilita la interacción con la información del DOG a la ciudadanía, al personal del sector público, a los profesionales de los medios y a cualquier persona que necesite acceder a información jurídica fiable.

Casos prácticos

¿Qué lo diferencia de otras tecnologías?

Fiabilidad. A diferencia de otros sistemas genéricos como ChatGPT, Lynx no inventa respuestas: toda la información procede de documentos oficiales del DOG.
Verificabilidad. Cada respuesta incluye trazabilidad completa, permitiendo acceder al documento original del que se extrajo el fragmento de interés.
Interacción en lenguaje natural. Lynx permite interactuar en lenguaje natural y comprende consultas expresadas de forma coloquial o técnica, superando las limitaciones de los buscadores tradicionales.
Especialización en el dominio legal. El sistema está diseñado específicamente para boletines oficiales y documentación legal, lo que permite ajustar mejor los modelos de recuperación y generación al ámbito jurídico-administrativo.

Principales características

Especialización y adaptabilidad local. Diseñado para el DOG, con una arquitectura que facilita su adaptación a otros boletines oficiales, contextos administrativos o dominios en los que sea necesaria la consulta de información fiable.
Rigor y transparencia. Cada respuesta es trazable en el DOG, lo que reduce la posibilidad de errores y aumenta la confianza en el sistema.
Ahorro de tiempo y eficiencia operativa. Lynx ayuda a reducir el tiempo dedicado a la búsqueda documental, permitiendo centrar los esfuerzos en tareas de mayor valor.
Arquitectura modular y escalable. Su arquitectura permite integrar nuevas fuentes, modelos, idiomas o funcionalidades sin modificar su estructura básica.
Tecnología de vanguardia. Combina recuperación híbrida (semántica y por palabras clave), reranking y modelos de generación ajustados al dominio.
Impacto social. Favorece la democratización del acceso a la información pública, mejora la transparencia y contribuye a reducir la brecha digital.

Arquitectura y diseño

La arquitectura de Lynx va más allá de un RAG tradicional, ya que debe dar respuesta a una serie de requisitos específicos del dominio legal y del contexto lingüístico gallego, que no están presentes en otros ámbitos de aplicación. A continuación, se exponen los puntos clave que debe resolver Lynx y cómo los gestiona con su arquitectura:

Contexto multilingüe. El sistema admite consultas en gallego, español, inglés y otras lenguas del Estado, como el catalán o el euskera, respondiendo siempre en gallego para garantizar coherencia lingüística.
Privacidad y protección de datos en el dominio legal. La información publicada en los boletines oficiales puede contener datos personales sensibles como nombres propios o DNI. Por este motivo, Lynx incorpora mecanismos de detección y bloqueo de consultas que podrían permitir la trazabilidad de datos personales, protegiendo la privacidad de las personas.
Prevención de comportamientos maliciosos. Al tratarse de una herramienta de acceso público, Lynx está protegido frente a prácticas maliciosas como el prompt injection, es decir, la posibilidad de que una persona usuaria pueda modificar el comportamiento del modelo original. Lynx garantiza que las respuestas generadas cumplan siempre los requisitos definidos en el prompt original.
Funcionalidad conversacional. A diferencia de otros sistemas RAG, Lynx permite mantener una pequeña conversación alrededor de una misma consulta, facilitando preguntas de seguimiento dentro de la misma sesión, en función del modelo de lenguaje empleado y de su ventana de contexto.
Recogida de feedback y mejora continua. La interfaz ofrece a las personas usuarias la posibilidad de evaluar las respuestas obtenidas, permitiendo al equipo de imaxin incorporar este feedback como parte de un proceso de mejora continua de la herramienta.

Para dar respuesta a todos estos requisitos, la arquitectura de Lynx se estructura en cuatro bloques principales: la creación de las bases de datos, el tratamiento de la consulta, la recuperación de la información y la generación de la respuesta.

Pipeline do sistema

1. Creación de las bases de datos

Una parte muy importante en una arquitectura RAG son los datos de texto de los que se extrae la información, los fragmentos. Para ello, se siguió el siguiente proceso:

Scraping diario del DOG, con el que se extraen los documentos publicados cada día.
Fragmentación de los documentos en bloques de unos 1200 caracteres, respetando en la medida de lo posible las unidades lógicas del texto (párrafos, frases, etc.).
Indexación en las bases de datos: los fragmentos se indexan en Qdrant para la creación de la base de datos de embeddings (vectores densos) [1], mientras que los documentos completos y sus metadatos se almacenan en Elasticsearch, permitiendo la recuperación por palabras clave.

2. Tratamiento y preparación de la consulta

Antes de iniciar la recuperación de la información, la consulta de la persona usuaria pasa por un proceso de tratamiento y preprocesamiento con el objetivo de mejorar la calidad de la búsqueda:

Limpieza y normalización: se eliminan caracteres extraños o irrelevantes, se corrigen errores de formato y se prepara el texto para la interpretación del sistema.
Traducción automática al gallego: mediante un LLM, se traduce la consulta original al gallego.
Detección de datos sensibles: mediante técnicas de NER y expresiones regulares, se identifican datos personales (como nombres o DNI) y se bloquea la consulta si es necesario.
Clasificación de la consulta: para mantener la funcionalidad conversacional, el sistema determina si la consulta es nueva o de seguimiento. En el caso de seguimiento, la recuperación se centra en el mismo documento que la respuesta inicial; si es nueva, la búsqueda se realiza desde cero.
Reformulación de la consulta: el LLM adapta la consulta traducida, ampliando información, eligiendo términos más precisos y optimizando la recuperación para obtener fragmentos más relevantes y fiables

3. Recuperación de la información

En Lynx empleamos una estrategia de recuperación híbrida que combina la búsqueda semántica por vectores densos con la recuperación léxica por palabras clave, aprovechando lo mejor de ambos enfoques para obtener fragmentos relevantes y verificables.

Recuperación por vectores densos
Cada fragmento del corpus está indexado como un vector denso en la base de datos de Qdrant. Las consultas se convierten en embeddings con el modelo bge-m3 y la recuperación semántica se realiza por similitud de coseno. Este método permite capturar similitudes conceptuales incluso cuando no hay coincidencia exacta de palabras, mejorando la cobertura de consultas complejas.

Recuperación por palabras clave
Paralelamente, aplicamos recuperación léxica mediante BM25 en Elasticsearch, capturando coincidencias por términos o frases exactas. Esta estrategia es especialmente útil para consultas legales que incluyen números, nombres o expresiones textuales precisas.

Fusión y reranking
Las listas de resultados de ambas estrategias se combinan mediante Reciprocal Rank Fusion (RRF), normalizando e integrando las puntuaciones. De los fragmentos fusionados seleccionamos un conjunto candidato que pasa por un reranking más fino [2], evaluando pertinencia, fidelidad factual y relevancia contextual. Finalmente, se seleccionan los 10 fragmentos más relevantes para la generación de la respuesta.

Aumento del contexto
Para evitar interpretaciones erróneas o mezclas de distintas leyes, la respuesta se genera principalmente a partir del fragmento mejor puntuado. Además, se amplía el contexto añadiendo el fragmento anterior y el posterior inmediato, manteniendo así la coherencia y la completitud de la información.

4. Generación de la respuesta

En las respuestas generadas por el LLM, siempre se incluye el documento original del que se extrajo el fragmento empleado para generar la respuesta. Además, la persona usuaria puede:

Revisar los demás fragmentos recuperados y los anexos a los documentos correspondientes, en caso de que el fragmento seleccionado no se ajustase a su consulta [3].
Evaluar la respuesta y dejar comentarios sobre su precisión y utilidad, contribuyendo así a la mejora continua de la plataforma.

Seguimiento y evaluación continua

Para identificar fácilmente puntos de mejora o fases de la arquitectura que requieren ajustes, empleamos una plataforma de seguimiento que permite rastrear todo el pipeline del RAG: transformación de las consultas, recuperación de los fragmentos, reranking y generación de la respuesta. Se registran no solo las consultas y las respuestas finales, sino también los atributos intermedios, como puntuaciones, documentos extraídos, base de datos de origen y metadatos. Esto permite visualizar el flujo completo de cada consulta y detectar rápidamente dónde se puede optimizar el sistema.

La evaluación es una de las piezas clave para cualquier sistema en producción, especialmente en un sistema no determinista como Lynx, en el que no existen datasets públicos de calidad para validar las respuestas.

Partiendo de esta premisa, colaboramos con el personal investigador del CiTIUS para:

Crear un procedimiento de validaciones adaptado al sistema.
Generar un dataset de validación específico para Lynx.

Este dataset se integra en el sistema de evaluación continua, permitiendo medir la calidad de las respuestas y utilizar esta información para afinar y mejorar progresivamente el sistema. Gracias a este enfoque, pudimos detectar deficiencias en las primeras fases e implementar mejoras que enriquecieron la arquitectura y reforzaron la fiabilidad del sistema.

Futuro del proyecto Lynx

Aunque demos por finalizado el proyecto oficial, Lynx continuará evolucionando a lo largo de 2026 con nuevas mejoras:

Optimización de los modelos de recuperación, para aumentar la precisión y la relevancia de las respuestas.
Respuestas en lenguaje claro y accesible, adaptadas a distintos públicos y formatos de consulta.
Integración de consultas complejas mediante grafos, permitiendo responder a cuestiones que requieran navegación por relaciones entre documentos y datos.
Renovación de la interfaz de usuario, facilitando la consulta, la navegación y la verificación de las fuentes.
Ampliación de la evaluación continua, incorporando los datasets de validación y utilizando modelos LLM como jueces automatizados para mejorar la calidad de las respuestas.

Estas acciones permitirán que Lynx siga creciendo como una herramienta fiable, transparente y útil para acceder a la información pública de forma rápida y contextualizada.

Conclusión

Lynx representa un paso adelante en la aplicación de la inteligencia artificial al ámbito de la información pública, combinando rigor técnico, fiabilidad jurídica y usabilidad.

Este proyecto demuestra que es posible construir sistemas de IA útiles, transparentes y alineados con el contexto lingüístico e institucional, aportando valor real a la sociedad y sentando las bases para futuras aplicaciones en el ámbito de la administración electrónica y de la información legal.

Prueba Lynx sin compromiso. Contacta con nosotros para una prueba gratuita o para solicitar un presupuesto para implementar el sistema en tu boletín oficial.

Lynx es un proyecto desarrollado por imaxin en el marco de la convocatoria IA360 del Instituto Galego de Promoción Económica (Igape), dentro del Plan de Recuperación, Transformación y Resiliencia, y financiado por la Unión Europea – NextGenerationEU.

[1] Los embeddings de Qdrant se generan con el modelo bge-m3, modelo multilingüe que incluye gallego y que fue especialmente diseñado para tareas de recuperación en RAG.

[2] Este paso se llevó a cabo con el modelo bge-reranker-v2-m3, modelo multilingüe especialmente entrenado para llevar a cabo esta tarea de manera eficiente.

[3] Actualmente, el modelo empleado para la traducción y el preprocesamiento de la consulta, así como de la elaboración de las respuestas, es el modelo deepseek.v3-v1. Este modelo garantiza una ventana de contexto lo suficientemente amplia como para permitirle a la persona usuaria seguir una conversación. Aun así, la arquitectura de Lynx permitiría emplear modelos LLM pequeños para cada una de las fases y mudar al modelo más adecuado para cada caso.

Proyecto Lynx: IA para una información pública más accesible