Que é Lynx?

Lynx é un sistema de consulta legal baseado en Xeración Aumentada por Recuperación (RAG), unha tecnoloxía que combina a recuperación de información en fontes oficiais coa xeración de respostas contextualizadas, garantindo rigor, rastrexabilidade e fiabilidade.

Trátase dun RAG deseñado especificamente para o Diario Oficial de Galicia (DOG) e outros boletíns oficiais, pensado para cubrir a necesidade de acceder á información pública en linguaxe natural. O seu obxectivo é que calquera persoa poida formular preguntas en linguaxe corrente e obter respostas baseadas exclusivamente en documentos oficiais, amosando sempre as fontes utilizadas para garantir a súa verificación.

Que problema resolve?

O acceso á información legal e administrativa segue sendo, a día de hoxe, un proceso complexo para moitas persoas. A documentación publicada no DOG é extensa, técnica e require coñecer con precisión onde buscar e como interpretar os contidos.

Na práctica, isto tradúcese en varios problemas recorrentes:

As buscas realízanse de forma manual e pouco eficiente.
É necesario ter coñecemento previo sobre a estrutura dos boletíns e a linguaxe xurídica.
O proceso pode xerar erros, atrasos e frustración, tanto na cidadanía como nos profesionais que consultan esta información a diario.

Lynx nace para dar resposta a esta situación, transformando a consulta da documentación legal nun proceso sinxelo, rápido e accesible, independentemente do nivel de experiencia da persoa usuaria.

A ferramenta permite:

Formular preguntas en linguaxe natural, sen necesidade de coñecer termos legais exactos.
Obter respostas precisas, fundamentadas e transparentes en cuestión de segundos.
Reducir significativamente o tempo e o esforzo necesarios para consultar documentos oficiais.

Deste xeito, Lynx facilita a interacción coa información do DOG á cidadanía, ao persoal do sector público, aos profesionais dos medios e a calquera persoa que precise acceder a información xurídica fiable.

Casos prácticos

Que o diferencia doutras tecnoloxías?

Fiabilidade. A diferenza doutros sistemas xenéricos como ChatGPT, Lynx non inventa respostas: toda a información procede de documentos oficiais do DOG.
Verificabilidade. Cada resposta inclúe rastrexabilidade completa, permitindo acceder ao documento orixinal de onde se extraeu o fragmento de interese.
Interacción en linguaxe natural. Lynx permite interactuar en linguaxe natural e comprende consultas expresadas de xeito coloquial ou técnico, superando as limitacións dos buscadores tradicionais.
Especialización no dominio legal. O sistema está deseñado especificamente para boletíns oficiais e documentación legal, o que permite axustar mellor os modelos de recuperación e xeración ao ámbito xurídico-administrativo.

Principais características

Especialización e adaptabilidade local. Deseñado para o DOG, cunha arquitectura que facilita a súa adaptación a outros boletíns oficiais, contextos administrativos ou dominios nos que sexa necesaria a consulta de información fiable.
Rigor e transparencia. Cada resposta é rastrexable no DOG, o que reduce a posibilidade de erros e aumenta a confianza no sistema.
Aforro de tempo e eficiencia operativa. Lynx axuda a reducir o tempo dedicado á busca documental, permitindo centrar os esforzos en tarefas de maior valor.
Experiencia de usuario sinxela. A persoa usuaria só formula a pregunta; o sistema encárgase de buscar, filtrar, comprender e responder, amosando sempre as fontes empregadas.
Arquitectura modular e escalable. A súa arquitectura permite integrar novas fontes, modelos, idiomas ou funcionalidades sen modificar a súa estrutura básica.
Tecnoloxía de vangarda. Combina recuperación híbrida (semántica e por palabras clave), reranking e modelos de xeración axustados ao dominio.
Impacto social. Favorece a democratización do acceso á información pública, mellora a transparencia e contribúe a reducir a fenda dixital.

Arquitectura e deseño

A arquitectura de Lynx vai máis alá dun RAG tradicional, xa que debe dar resposta a unha serie de requisitos específicos do dominio legal e do contexto lingüístico galego, que non están presentes noutros ámbitos de aplicación. A continuación, expóñense os puntos clave que debe resolver Lynx e como o xestiona coa súa arquitectura:

Contexto multilingüe. O sistema admite consultas en galego, español, inglés e outras linguas do Estado, como o catalán ou o éuscaro, respondendo sempre en galego para garantir coherencia lingüística.
Privacidade e protección de datos no dominio legal. A información publicada nos boletíns oficiais pode conter datos persoais sensibles como nomes propios ou DNI. Por este motivo, Lynx incorpora mecanismos de detección e bloqueo de consultas que poderían permitir a rastrexabilidade de datos persoais, protexendo a privacidade das persoas.
Prevención de comportamentos maliciosos. Ao tratarse dunha ferramenta de acceso público, Lynx está protexido fronte a prácticas maliciosas como o prompt injection, é dicir, a posibilidade de que unha persoa usuaria poida modificar o comportamento do modelo orixinal. Lynx garante que as respostas xeradas cumpran sempre os requirimentos definidos no prompt orixinal.
Funcionalidade conversacional. A diferenza doutros sistemas RAG, Lynx permite manter unha pequena conversa arredor dunha mesma consulta, facilitando preguntas de seguimento dentro da mesma sesión, en función do modelo de linguaxe empregado e da súa ventá de contexto.
Recollida de feedback e mellora continua. A interface ofrécelle ás persoas usuarias a posibilidade de avaliar as respostas obtidas, permitindo ao equipo de imaxin incorporar este feedback como parte dun proceso de mellora continua da ferramenta.

Para dar resposta a todos estes requisitos, a arquitectura de Lynx estrutúrase en catro bloques principais: a creación das bases de datos, o tratamento da consulta, a recuperación da información e a xeración da resposta.

Pipeline do sistema

1. Creación das bases de datos

Unha parte moi importante nunha arquitectura RAG son os datos de texto dos que se extrae a información, os fragmentos. Para isto, seguiuse o seguinte proceso:

Scraping diario do DOG, co que se extraen os documentos publicados cada día.
Fragmentación dos documentos en bloques duns 1200 caracteres, respectando na medida do posible as unidades lóxicas do texto (parágrafos, frases etc.).
Indexación nas bases de datos: os fragmentos indéxanse en Qdrant para a creación da base de datos de embeddings (vectores densos) [1], mentres que os documentos completos e os seus metadatos se almacenan en Elasticsearch, permitindo a recuperación por palabras clave.

2. Tratamento e preparación da consulta

Antes de iniciar a recuperación da información, a consulta da persoa usuaria pasa por un proceso de tratamento e preprocesamento co obxectivo de mellorar a calidade da busca:

Limpeza e normalización: elimínanse caracteres estraños ou irrelevantes, corríxense erros de formato e prepárase o texto para a interpretación do sistema.
Tradución automática ao galego: mediante un LLM, tradúcese a consulta orixinal a galego.
Detección de datos sensibles: mediante técnicas de NER e expresións regulares, identifícanse datos persoais (como nomes ou DNI) e bloquéase a consulta se é necesario.
Clasificación da consulta: para manter a funcionalidade conversacional, o sistema determina se a consulta é nova ou de seguimento. No caso de seguimento, a recuperación céntrase no mesmo documento que a resposta inicial; se é nova, a busca realízase dende cero.
Reformulación da consulta: o LLM adapta a consulta traducida, ampliando información, elixindo termos máis precisos e optimizando a recuperación para obter fragmentos máis relevantes e fiables.

3. Recuperación da información

En Lynx empregamos unha estratexia de recuperación híbrida que combina a busca semántica por vectores densos coa recuperación léxica por palabras clave, aproveitando o mellor de ambos enfoques para obter fragmentos relevantes e verificables.

Recuperación por vectores densos
Cada fragmento do corpus está indexado como un vector denso na base de datos de Qdrant. As consultas convértense en embeddings co modelo bge-m3 e a recuperación semántica faise por similitude de coseno. Este método permite capturar similitudes conceptuais mesmo cando non hai coincidencia exacta de palabras, mellorando a cobertura de consultas complexas.

Recuperación por palabras clave
Paralelamente, aplicamos recuperación léxica mediante BM25 en Elasticsearch, capturando coincidencias por termos ou frases exactas. Esta estratexia é especialmente útil para consultas legais que inclúen números, nomes ou expresións textuais precisas.

Fusión e reranking
As listas de resultados de ambas estratexias combínanse mediante Reciprocal Rank Fusion (RRF), normalizando e integrando as puntuacións. Dos fragmentos fusionados seleccionamos un conxunto candidato que pasa por un reranking máis fino [2], avaliando pertinencia, fidelidade factual e relevancia contextual. Finalmente, selecciónanse os 10 fragmentos máis relevantes para a xeración da resposta.

Aumento de contexto
Para evitar interpretacións erróneas ou mesturas de distintas leis, a resposta xérase principalmente a partir do fragmento mellor puntuado. Ademais, amplíase o contexto engadindo o fragmento anterior e o posterior inmediato, mantendo así a coherencia e completude da información.

4. Xeración da resposta

Nas respostas xeradas polo LLM, sempre se inclúe o documento orixinal do que se extraeu o fragmento empregado para xerar a resposta. Ademais, a persoa usuaria pode:

Revisar os demais fragmentos recuperados e os anexos aos documentos correspondentes, no caso de que o fragmento seleccionado non se axustase á súa consulta [3].
Avaliar a resposta e deixar comentarios sobre a súa precisión e utilidade, contribuíndo así á mellora continua da plataforma.

Seguimento e avaliación continua

Para identificar facilmente puntos de mellora ou fases da arquitectura que requiren axustes, empregamos unha plataforma de seguimento que permite rastrexar todo o pipeline do RAG: transformación das consultas, recuperación dos fragmentos, reranking e xeración da resposta. Rexístranse non só as consultas e as respostas finais, senón tamén os atributos intermedios, como puntuacións, documentos extraídos, base de datos de orixe e metadatos. Isto permite visualizar o fluxo completo de cada consulta e detectar rapidamente onde se pode optimizar o sistema.

A avaliación é unha das pezas clave para calquera sistema en produción, especialmente nun sistema non determinístico como Lynx, no que non existen datasets públicos de calidade para validar as respostas.

Partindo desta premisa, colaboramos co persoal investigador do CiTIUS para:

Crear un procedemento de validacións adaptado ao sistema.
Xerar un dataset de validación específico para Lynx.

Este dataset intégrase no sistema de avaliación continua, permitindo medir a calidade das respostas e utilizar esta información para afinar e mellorar progresivamente o sistema. Grazas a este enfoque, puidemos detectar deficiencias nas primeiras fases e implementar melloras que enriqueceron a arquitectura e reforzaron a fiabilidade do sistema.

Futuro do proxecto Lynx

Aínda que poñamos fin ao proxecto oficial, Lynx continuará evolucionando ao longo de 2026 con novas melloras:

Optimización dos modelos de recuperación, para aumentar a precisión e a relevancia das respostas.
Respostas en linguaxe clara e accesible, adaptadas a distintos públicos e formatos de consulta.
Integración de consultas complexas mediante grafos, permitindo responder a cuestións que requiran navegación por relacións entre documentos e datos.
Renovación da interface de usuario, facilitando a consulta, a navegación e a verificación das fontes.
Ampliación da avaliación continua, incorporando os datasets de validación e utilizando modelos LLM como xuíces automatizados para mellorar a calidade das respostas.

Estas accións permitirán que Lynx siga crecendo como unha ferramenta fiable, transparente e útil para acceder á información pública de forma rápida e contextualizada.

Conclusión

Lynx representa un paso adiante na aplicación da intelixencia artificial ao ámbito da información pública, combinando rigor técnico, fiabilidade xurídica e usabilidade.

Este proxecto demostra que é posible construír sistemas de IA útiles, transparentes e aliñados co contexto lingüístico e institucional, achegando valor real á sociedade e asentando as bases para futuras aplicacións no ámbito da administración electrónica e da información legal.

Proba Lynx sen compromiso. Contacta connosco para unha proba gratuíta ou para solicitar un orzamento para implementar o sistema no teu boletín oficial.

Lynx é un proxecto desenvolvido por imaxin no marco da convocatoria IA360 do Instituto Galego de Promoción Económica (Igape), dentro do Plan de Recuperación, Transformación e Resiliencia, e financiado pola Unión Europea – NextGenerationEU.

[1] Os embeddings de Qdrant xéranse co modelo bge-m3, modelo multilingüe que inclúe galego e que foi especialmente deseñado para tarefas de recuperación en RAG.

[2] Este paso levouse a cabo co modelo bge-reranker-v2-m3, modelo multilingüe especialmente entrenado para levar a cabo esta tarefa de maneira eficiente.

[3] Actualmente, o modelo empregado para a tradución e preprocesamento da consulta, así como da elaboración das respostas, é o modelo deepseek.v3-v1. Este modelo garante unha ventá de contexto o suficientemente ampla como para permitirlle á persoa usuaria seguir unha conversa. Aínda así, a arquitectura de Lynx permitiría empregar modelos LLM pequenos para cada unha das fases e mudar ao modelo máis axeitado para cada caso.

Proxecto Lynx: IA para unha información pública máis accesible