LLMs · RAG · Agentes · Madrid
Aplicaciones con LLMs en Madrid
Construyo aplicaciones con modelos de lenguaje que funcionan: RAG sobre documentos propios, agentes que consultan datos estructurados y asistentes con memoria y herramientas. Con la evaluación necesaria para saber si de verdad dan respuestas correctas, no solo respuestas que suenan bien.

RAG: respuestas que citan la fuente
Indexado del corpus, recuperación semántica con embeddings y generación de respuestas que citan el fragmento del que salen. El objetivo es que cada respuesta sea verificable, no que suene bien. Con chunking para documentos largos y re-ranking si el corpus es grande.
Agentes con guardrails
Agentes que traducen lenguaje natural a consultas SQL y las ejecutan en modo solo lectura, o que llaman a APIs externas con herramientas bien definidas. Útiles sin ser peligrosos: scope acotado, sin acceso de escritura por defecto, con registro de lo que hace el agente.
Evaluación, no solo demo
El problema de los LLMs es que generan texto que siempre parece correcto. Evalúo las respuestas con métricas automáticas (ROUGE, BERTScore, faithfulness) y pruebas de caja negra antes de que el sistema llegue a producción. Un benchmark honesto dice más que una demo.
Fine-tuning cuando la API no es suficiente
Para tareas muy específicas donde un modelo base no da el rendimiento necesario, hago fine-tuning supervisado con LoRA o QLoRA sobre modelos de HuggingFace. Con evaluación antes y después para saber si merece la pena el coste.
¿Quieres construir algo con LLMs que funcione de verdad?
Escríbeme con el caso de uso: qué documentos, qué preguntas, qué usuarios. Primera llamada gratis para ver qué tiene sentido construir.
Empezar un proyectoFAQ
¿Cuándo tiene sentido usar RAG en lugar de solo un LLM?
Cuando las respuestas tienen que venir de tus documentos específicos, no del conocimiento general del modelo. RAG es la diferencia entre 'el modelo sabe sobre esto en general' y 'el modelo busca en tu documentación y cita de dónde saca la respuesta'. Siempre que las respuestas deban ser verificables y actualizables sin reentrenar.
¿Cómo se evalúa si un sistema RAG funciona bien?
Con un conjunto de preguntas con respuesta esperada y métricas de faithfulness (la respuesta viene del contexto recuperado) y relevancia (el contexto recuperado es el correcto). También hay que evaluar la recuperación por separado: que el sistema encuentre los fragmentos correctos antes de generar.
¿Qué modelos de LLM usáis?
Depende del caso. GPT-4o y GPT-4o-mini de OpenAI para la mayoría de los casos de producción. Claude de Anthropic para tareas con documentos largos. Modelos de HuggingFace para fine-tuning o cuando la privacidad de los datos no permite usar APIs externas. Llama y Mistral para despliegue on-premise.
¿Puedo usar LLMs con mis datos internos sin que salgan de mi infraestructura?
Sí. Si los datos son confidenciales, trabajo con modelos desplegados on-premise o en tu cloud privado: Llama, Mistral u otros modelos open-weights. El sistema RAG corre en tu infraestructura y los documentos no salen nunca a APIs externas.
¿Cuánto cuesta desarrollar una aplicación con LLMs?
Un asistente RAG básico (indexado + recuperación + API + interfaz mínima) está entre 2.500€ y 5.000€. Un agente con herramientas múltiples o un sistema con evaluación y fine-tuning, entre 5.000€ y 12.000€. Los costes de uso de la API del modelo van aparte y dependen del volumen.