Retos

RAG explicado para founders: cómo darle a un LLM el contexto de tu negocio

Por Marc Molas·16 de noviembre de 2024·10 min de lectura

Has probado ChatGPT para tu negocio. Es impresionante — hasta que le preguntas sobre TUS clientes, TUS productos, TUS procesos internos. Entonces empieza a inventar. Nombres falsos, datos que no existen, políticas que nunca tuviste. Alucina porque no tiene tus datos.

No es un bug. Es una limitación fundamental. GPT-4o, Claude 3.5, Llama 3.1 — todos los LLMs tienen conocimiento general enorme pero cero conocimiento de tu empresa. No saben quiénes son tus clientes, qué dice tu documentación interna ni cuáles son tus políticas de devolución.

La buena noticia: hay una solución que no requiere reentrenar ningún modelo. Se llama RAG. He visto a equipos construirlo bien y construirlo mal, y creo que es la técnica de IA más relevante para tu startup ahora mismo.

El problema: un LLM generalista no conoce tu negocio

Piensa en un LLM como un empleado extremadamente inteligente que sabe de todo un poco pero que acaba de llegar a tu empresa. Sabe programar, escribir, analizar datos — pero no tiene acceso a tu wiki interna, tu CRM, tus contratos ni tu base de conocimiento.

Si le preguntas "¿cuál es nuestra política de reembolso para clientes enterprise?", va a inventar una respuesta que suene plausible. No porque sea deshonesto, sino porque no tiene otra opción. Llena los vacíos con probabilidades, no con hechos.

Fine-tuning (reentrenar el modelo con tus datos) suena como la solución obvia, pero tiene problemas serios: es caro, requiere experiencia especializada, los datos se quedan obsoletos rápido y necesitas repetir el proceso cada vez que tu información cambia.

Aquí es donde entra RAG.

Qué es RAG y por qué importa

RAG (Retrieval-Augmented Generation) es una técnica que le da al LLM acceso a tus documentos en el momento de responder una pregunta. No reentrenas el modelo. En su lugar, le pasas la información relevante como contexto junto con la pregunta del usuario.

Es como darle a ese empleado nuevo acceso al archivo de la empresa antes de que responda cada pregunta. El modelo sigue siendo el mismo, pero ahora tiene datos reales con los que trabajar.

El concepto es simple. La implementación tiene matices, pero no es física cuántica. Cualquier equipo de ingeniería senior puede construir un sistema RAG funcional en semanas.

Cómo funciona RAG: los 3 pasos

Paso 1: Indexa tus datos

Toma los documentos que quieres que el LLM pueda consultar: PDFs, wikis, bases de datos, emails, documentación técnica, tickets de soporte. Lo que sea relevante.

Cada documento se divide en chunks (fragmentos). Un chunk puede ser un párrafo, una sección, una página — depende de tu caso de uso. Luego, cada chunk se convierte en un embedding: una representación numérica (un vector) que captura el significado semántico del texto.

No necesitas entender las matemáticas detrás de los embeddings. Lo importante es que dos textos con significado similar tendrán embeddings cercanos. "Política de devolución para clientes premium" y "reembolso para cuentas enterprise" tendrán vectores parecidos, aunque usen palabras distintas.

Paso 2: Almacena los embeddings

Esos vectores se guardan en una base de datos vectorial. Las opciones más comunes:

Pinecone: servicio gestionado, fácil para arrancar, escala bien.
Weaviate: open source, muy flexible.
Qdrant: open source, excelente rendimiento.
pgvector: extensión de PostgreSQL. Si ya usas Postgres, puedes empezar sin añadir infraestructura nueva.

Para la mayoría de startups, pgvector es la opción más pragmática. Ya tienes PostgreSQL. Añadir una extensión es mucho más simple que gestionar una base de datos nueva.

Paso 3: Consulta en tiempo real

Cuando un usuario hace una pregunta:

La pregunta se convierte en un embedding (mismo proceso que con los documentos).
Se buscan los chunks más similares en la base de datos vectorial — los fragmentos de tus documentos cuyo significado es más cercano a la pregunta.
Esos chunks se inyectan en el prompt del LLM como contexto: "Basándote en la siguiente información, responde la pregunta del usuario: [chunks relevantes]".
El LLM genera una respuesta usando TUS datos, no su conocimiento general.

El resultado: respuestas fundamentadas en información real de tu empresa, en lugar de conjeturas que suenan plausibles. Las alucinaciones caen en picado — no a cero, como veremos, pero sí lo suficiente para cambiar lo que es posible.

Cuándo tiene sentido implementar RAG

RAG no es la solución para todo, pero es la solución correcta para muchos casos de uso comunes en startups:

Bases de conocimiento internas: empleados que consultan documentación, procesos y políticas.
Chatbots de soporte al cliente: respuestas basadas en tu documentación real, no en el conocimiento general del modelo.
Búsqueda documental: encontrar información relevante entre miles de documentos legales, técnicos o financieros.
Consultas de compliance: responder preguntas regulatorias usando tu documentación de cumplimiento normativo.
Sales enablement: dar a tu equipo comercial respuestas precisas sobre productos, precios y comparativas con competidores.

El patrón común: tienes un corpus de documentos que tus usuarios (internos o externos) necesitan consultar, y quieres una interfaz conversacional que dé respuestas precisas.

Cuándo RAG NO es suficiente

Hay límites, y prefiero que te los encuentres sobre el papel antes que en producción:

Cuando necesitas que el modelo aprenda patrones nuevos. RAG da contexto, no aprendizaje. Si necesitas que el modelo clasifique tickets de soporte según categorías específicas de tu empresa, puede que necesites fine-tuning.
Cuando los datos cambian en tiempo real. RAG funciona bien con documentos que se actualizan periódicamente (diaria o semanalmente). Si necesitas datos al segundo — cotizaciones de bolsa, inventario en tiempo real — necesitas un pipeline de streaming, no solo RAG.
Cuando la precisión tiene que ser del 100%. RAG mejora enormemente la precisión, pero no la garantiza al 100%. Para decisiones médicas, resoluciones legales vinculantes o decisiones financieras de alto riesgo, necesitas supervisión humana en el proceso.

Los errores que comete casi toda primera implementación de RAG

He visto estos errores repetirse en casi todos los equipos que implementan RAG por primera vez:

Chunks demasiado grandes. Si cada chunk es un documento entero de 20 páginas, estás inyectando mucho ruido en el prompt. El LLM recibe demasiada información irrelevante y la respuesta pierde calidad. Chunks de 200-500 tokens suelen ser un buen punto de partida.

Chunks demasiado pequeños. El extremo opuesto: fragmentos de una sola frase pierden contexto. Si un chunk dice "el límite es 30 días" pero no dice "para reembolsos de clientes enterprise", la respuesta será incompleta. Necesitas un equilibrio entre especificidad y contexto.

No tener un pipeline de evaluación. Implementas RAG, "funciona", y lo pones en producción. Pero ¿cómo sabes si realmente está encontrando los documentos correctos? ¿Cómo mides si las respuestas son precisas? Necesitas métricas: relevance score, faithfulness, answer correctness. Sin evaluación, vuelas a ciegas.

No filtrar por relevancia. A veces la base de datos vectorial devuelve los chunks "más similares", pero ninguno es realmente relevante. Si el score de similitud es bajo, es mejor que el sistema diga "no tengo información sobre eso" en lugar de forzar una respuesta con datos tangencialmente relacionados.

Confiar en que el LLM dirá "no lo sé". Los LLMs son notoriamente malos diciendo "no lo sé". Incluso con contexto RAG, si la respuesta no está en los documentos, muchos modelos intentarán responder de todas formas. Necesitas guardrails explícitos en tu sistema para manejar estos casos.

Build vs buy: la decisión práctica

Tienes dos caminos:

Frameworks existentes: LangChain y LlamaIndex son los más populares. Te dan componentes pre-construidos para chunking, embedding, retrieval y generación. Aceleran el desarrollo inicial, pero añaden dependencias y a veces abstracción innecesaria.

Pipeline custom: construyes cada componente por separado. Más trabajo inicial, pero control total. Para casos de uso simples (un chatbot sobre tu documentación), un pipeline custom con pgvector y la API de OpenAI o Anthropic puede ser más simple que un framework.

Mi recomendación: empieza con un pipeline simple y custom. Si la complejidad crece (múltiples fuentes de datos, re-ranking avanzado, hybrid search), entonces evalúa un framework. No empieces con la solución más compleja.

Quién debería construir tu sistema RAG

RAG es conceptualmente simple, pero los detalles de implementación importan mucho. La estrategia de chunking, la elección del modelo de embeddings, el ajuste del retrieval, el prompt engineering, la evaluación — cada decisión afecta a la calidad del resultado final.

No necesitas un equipo de investigadores de IA. Necesitas ingenieros senior que hayan construido sistemas RAG en producción y sepan dónde están las trampas. Que hayan iterado sobre estrategias de chunking, probado distintos modelos de embedding y montado pipelines de evaluación de verdad.

En Conectia, los ingenieros que validamos para proyectos de IA han trabajado en implementaciones reales de RAG — no en demos o tutoriales. Saben la diferencia entre un prototipo que funciona en un notebook y un sistema que funciona en producción con datos reales, a escala y con usuarios que hacen preguntas que no estaban en el plan original.

Si estás evaluando RAG para tu producto, la diferencia entre un gran resultado y una mala experiencia de usuario está en la experiencia del equipo que lo construye. Un ingeniero senior con experiencia en RAG puede ahorrarte meses de iteración y errores que otro ya ha cometido antes.

¿Quieres implementar RAG en tu producto pero no tienes un equipo con experiencia en producción? Habla con un CTO — te conectamos con ingenieros senior que ya han construido sistemas RAG reales, y te respondemos en menos de 72 horas.