Anatomía de un pipeline RAG
Lo que vas a ver en TODOS los RAGs
Sección titulada «Lo que vas a ver en TODOS los RAGs»Da igual si usás Vercel AI SDK, LangChain, LlamaIndex o Mastra. Da igual si tu vector store es Qdrant, Pinecone, Weaviate o un array en memoria. Da igual si corre en la nube o en tu navegador.
Todos los sistemas RAG hacen lo mismo, paso a paso.
Y entender esos pasos es la diferencia entre saber usar un framework y saber diseñar un sistema RAG. Spoiler: lo que te paga el sueldo es lo segundo.
Las dos fases
Sección titulada «Las dos fases»Antes de los 4 stages, fijate que hay dos momentos distintos en la vida de un RAG:
INDEXACIÓN (una vez, o cada vez que cambian los docs) docs → chunks → embeddings → vector store
QUERY (cada pregunta del usuario) pregunta → buscar contexto → armar prompt → LLM → respuestaLa indexación es trabajo pesado pero infrecuente. La query es rápida y constante. Confundir las dos fases es un error clásico al diseñar el sistema.
Los 4 stages
Sección titulada «Los 4 stages»1. Embed (indexación)
Sección titulada «1. Embed (indexación)»Tomás tus documentos, los partís en chunks (pedazos manejables — generalmente 200 a 800 tokens), y cada chunk lo convertís en un vector numérico usando un modelo de embeddings.
Ese vector es la “huella digital semántica” del chunk. Textos parecidos tienen vectores parecidos.
Los guardás en un vector store que sabe buscar por similitud rápido.
2. Retrieve (recuperación)
Sección titulada «2. Retrieve (recuperación)»Llega la pregunta del usuario. La convertís en un vector usando el mismo modelo de embeddings que usaste para los chunks (esto es CRÍTICO — embeddings de modelos distintos no son comparables).
Le pedís al vector store: “dame los K chunks más parecidos a este vector”. Típicamente K = 3 a 10.
3. Augment (armar el contexto)
Sección titulada «3. Augment (armar el contexto)»Construís un prompt que combina:
- Los chunks recuperados como contexto.
- La pregunta original del usuario.
- Una instrucción al LLM del estilo: “respondé basándote SOLO en el contexto. Si no está, decí que no sabés”.
Esto último es la diferencia entre un RAG decente y uno que alucina.
4. Generate
Sección titulada «4. Generate»Le mandás el prompt completo al LLM. Te devuelve una respuesta basada en TU información, idealmente con citas a las fuentes.
Lo que viene
Sección titulada «Lo que viene»Ya tenés el mapa mental completo. En la próxima vamos a fijar el vocabulario mínimo que vas a usar todo el curso: chunk, embedding, vector store, top-k, similarity. Si esos términos te suenan vagos, esa página es para vos.