Blog·03/05/2026

RAG: respuestas verificables sobre tus propios documentos

Cómo funciona la generación aumentada por recuperación: indexado, recuperación semántica, chunking y evaluación. Por qué cada respuesta debe poder citar de dónde viene …

RAG (retrieval-augmented generation) es una arquitectura que combina búsqueda semántica con generación de texto: en lugar de pedirle al LLM que 'recuerde' los datos de tu empresa, se los buscas y se los das en el contexto de cada consulta. El resultado es un sistema donde cada respuesta puede citar de dónde viene la información.

El problema que resuelve RAG. Un LLM entrenado no sabe nada de tus documentos internos, y la alternativa de fine-tuning es cara, lenta y no mantiene la cita de fuentes. RAG resuelve esto sin reentrenar: indexas tus documentos, recuperas los fragmentos relevantes para cada pregunta y los incluyes en el prompt. El modelo genera sobre esos fragmentos, no desde su memoria.

Los tres componentes que hay que acertar. El índice (cómo troceas y vectorizas los documentos), la recuperación (qué tan bien encuentras los fragmentos correctos para cada pregunta) y la generación (cómo el modelo usa esos fragmentos). El error más común es centrarse en el modelo y descuidar la recuperación: si el sistema trae el fragmento equivocado, el LLM más potente del mundo genera una respuesta incorrecta, sin importar cuán plausible suene.

Chunking: no todos los trozos son iguales. Partir un PDF en fragmentos de 512 tokens con ventana deslizante es el punto de partida, pero hay que pensar en el contexto semántico: no cortar párrafos en medio, respetar la estructura del documento (secciones, artículos, tablas), añadir metadatos (título del documento, número de página) que luego aparecen en la cita. Para documentos largos con estructura compleja, el chunking jerárquico (resumen + detalle) mejora la recuperación.

Cómo evaluar la recuperación. Antes de evaluar las respuestas finales, hay que evaluar si el sistema recupera los fragmentos correctos. Con un conjunto de preguntas y sus fragmentos esperados, se puede medir precision@k (¿qué porcentaje de los k fragmentos recuperados son relevantes?) y recall@k (¿qué porcentaje de los fragmentos relevantes aparecen en los k recuperados?). Una baja recuperación no se puede compensar con un LLM mejor.

La cita como garantía. El valor diferencial de RAG es que cada respuesta puede citar el fragmento del que viene. Ese diseño cambia la relación del usuario con el sistema: en lugar de confiar en la respuesta, puede verificarla. Para aplicaciones donde la precisión importa (documentación técnica, legal, médica, financiera), la cita no es un detalle cosmético, es la funcionalidad central.

Trabaja con JMWEB

Construyamos algo que llegue a producción.

Todo arranca con una conversación. Trae un dataset, un objetivo o un modelo que se atasca; del resto me ocupo yo.

Empezar un proyecto

Sigue leyendo:

15/05/2026

¿Cuándo vale la pena usar un LLM y cuándo no?

Leer artículo

08/05/2026

Cómo evaluar si un modelo de ML funciona de verdad

Leer artículo