RAG (Retrieval-Augmented Generation)
Суть
RAG — это архитектура, которая дает модели «открытую книгу». Перед ответом система ищет релевантную информацию в твоей базе данных (базе знаний) и передает её модели вместе с вопросом.
🏗 Как это работает (3 кита)
- Retrieval (Поиск): Находим в базе 3–5 заметок, наиболее похожих на запрос пользователя.
- Augmentation (Дополнение): Вставляем эти заметки в промпт как «Контекст».
- Generation (Генерация): Модель отвечает на основе предоставленных данных, а не своих «галлюцинаций».
📋 RAG vs Long Context
| Параметр | RAG | Long Context (1M+ токенов) |
|---|---|---|
| Цена | Дешево (мало токенов) | Дорого |
| Скорость | Высокая | Низкая |
| Точность | Зависит от качества поиска | Высокая (но есть риск Lost in Middle) |
| Объем данных | Бесконечный | Ограничен окном модели |
🛠 Применение на практике
Это именно то, как работают плагины Smart Connections или Khoj. Они индексируют твою папку и позволяют «общаться» со всей базой знаний сразу, даже если в ней тысячи файлов.
🧩 10 ключевых методик внутри RAG
1) Retrieval-Augmented Generation (базовый цикл)
- Flow: fetch docs -> inject into prompt -> grounded output.
- Аналогия: шеф сверяется с проверенными книгами рецептов перед готовкой.
- Плюсы: свежие знания и привязка ответа к источнику.
- Минусы: качество ответа критически зависит от retrieval-слоя.
- Лучше всего для: knowledge-intensive приложений.
2) Chunking Strategies
- Подходы: fixed, semantic, hierarchical chunking.
- Аналогия: нарезать ингредиенты ровно под формат блюда.
- Плюсы: более точный контекст.
- Минусы: неверный размер чанка = потеря сигнала.
- Лучше всего для: обработки больших документов и вики.
3) Vector Embeddings & Similarity Search
- Подход: dense embeddings + sparse/hybrid retrieval.
- Аналогия: “секретный код” для мгновенного поиска похожих рецептов.
- Плюсы: семантическая релевантность.
- Минусы: стоимость индексации и поддержки эмбеддингов.
- Лучше всего для: релевантного поиска по смыслу.
4) Vector Databases
- Инструменты: Pinecone, Weaviate, PGVector, Chroma.
- Аналогия: умная кладовая с моментальным доступом к нужным ингредиентам.
- Плюсы: масштаб и скорость.
- Минусы: нужно управлять свежестью индекса.
- Лучше всего для: production RAG.
5) Advanced RAG Patterns
- Паттерны: parent-document retrieval, hypothetical questions (HyDE), reranking.
- Аналогия: кросс-проверка по нескольким поваренным книгам.
- Плюсы: выше точность на сложных корпусах.
- Минусы: растет системная сложность.
- Лучше всего для: длинных и неоднородных документов.
6) Evaluation Metrics (RAGAS)
- Метрики: faithfulness, answer relevance, context recall.
- Аналогия: дегустация блюда с проверкой против оригинального рецепта.
- Плюсы: объективная оценка качества.
- Минусы: не все проверяется полностью автоматически.
- Лучше всего для: итеративного улучшения пайплайна.
7) Hallucination Mitigation in RAG
- Техники: citations, grounding checks, answer constraints.
- Аналогия: двойная проверка каждого утверждения перед публикацией.
- Плюсы: выше доверие к ответам.
- Минусы: дополнительные шаги и latency.
- Лучше всего для: enterprise-сценариев с высокими требованиями к надежности.
8) Multi-Document & Multi-Turn RAG
- Задача: учитывать историю диалога + длинные документы одновременно.
- Аналогия: помнить прошлые заказы, пока готовишь новый сет.
- Плюсы: более контекстный диалог.
- Минусы: ограничения token budget.
- Лучше всего для: чат-ассистентов с памятью.
9) Hybrid Search & Reranking
- Схема: keyword + vector search + reranker model.
- Плюсы: сочетает точность ключевых слов и семантику.
- Минусы: дополнительная задержка.
- Лучше всего для: precision-critical приложений.
10) Production RAG Pipelines
- Компоненты: caching, monitoring, drift detection, quality gates.
- Аналогия: полноценная кухня с контролем качества на каждом этапе.
- Плюсы: стабильность в проде.
- Минусы: тяжелее по инфраструктуре.
- Лучше всего для: customer-facing систем.
🚀 Что вынести в отдельные статьи
- RAGAS на практике: как собрать evaluation loop и не “рисовать метрики ради метрик”.
- Hybrid Search + Reranking: где реально окупается второй этап ранжирования.
- Production RAG Playbook: мониторинг, деградации, freshness и инциденты.
- Chunking Cookbook: как выбирать размер/стратегию чанков под разные типы данных.
🔗 Связи
- Long Context Management — про чанкинг и работу с длинным контекстом.
- GraphRAG — продвинутая версия retrieval-архитектуры.
- Vector Databases — техническая база масштабируемого поиска.
- Embeddings — смысловое представление документов для similarity search.
- Hallucination — ключевой риск, который RAG снижает через grounding.
- LlamaIndex — практические паттерны RAG в фреймворке.