RAG vs fine-tuning vs context caching en 2026: cuándo usar cada uno

El dilema clásico

"Quiero que mi chatbot conozca mi negocio". Esta frase la escuchamos en cada llamada de discovery. La pregunta de fondo siempre es la misma: ¿cómo metemos nuestra información a la IA? Hay tres caminos.

Opción 1: RAG (Retrieval-Augmented Generation)

Buscas información relevante en el momento (en una base vectorial o búsqueda híbrida) y la inyectas como contexto en cada pregunta.

Cuándo usarlo: información que cambia (precios, stock, políticas, FAQs grandes), volumen de datos medio o grande, necesitas trazabilidad de fuentes.
Costos: medio. Requiere una infra de embeddings + vector DB (pgvector en Supabase, Pinecone, Weaviate).
Latencia: agrega 100-300ms por la búsqueda.

Opción 2: Fine-tuning

Entrenas el modelo con ejemplos de tu negocio para ajustar su comportamiento o conocimiento.

Cuándo usarlo: necesitas un tono o formato muy específico, o tienes tareas repetitivas con miles de ejemplos. Tareas de clasificación complejas.
Costos: alto upfront (datos + entrenamiento), bajo en inferencia (modelos pequeños fine-tuneados).
Latencia: muy baja si corres tu propio modelo.
Riesgo: la información queda fosilizada en el modelo. Cada vez que cambia tu negocio, refine.

Opción 3: Context caching

Una capacidad relativamente nueva (popularizada en 2024-2025) donde envías un contexto enorme una vez y los proveedores lo cachean para siguientes consultas a un costo mucho menor.

Cuándo usarlo: tienes un corpus grande pero estable (manuales, documentación legal, base de conocimiento que cambia mensualmente).
Costos: muy bajos comparados con RAG si el contexto se reusa mucho.
Latencia: muy baja (no hay búsqueda externa).

La realidad: casi siempre es una combinación

En proyectos reales, la solución óptima suele ser:

Context caching para el "manual maestro" del negocio (políticas, branding, productos top).
RAG para datos dinámicos (inventario, precios, pedidos del cliente).
Fine-tuning solo si la calidad sigue siendo insuficiente y tienes datos para hacerlo bien.

Empieza siempre por la opción más simple (context caching o RAG), mide, y solo escala en complejidad cuando los números lo justifiquen.