RAG (Retrieval-Augmented Generation)

Определение

RAG — это технология, которая объединяет возможности поиска информации (Retrieval) и генерации текста (Generation). Вместо того чтобы полагаться только на свои веса, модель сначала ищет релевантные факты во внешнем источнике (твоей базе знаний) и использует их как контекст для ответа.


🛠 Как это работает (Процесс)

  1. Запрос: Ты задаешь вопрос (например: “Что я писал про стоицизм в прошлом году?”).
  2. Поиск (Retrieval): Система сканирует твоя база знаний и находит 3–5 наиболее похожих фрагментов текста.
  3. Обогащение (Augmentation): Эти фрагменты добавляются в скрытый промпт для ИИ вместе с твоим вопросом.
  4. Ответ (Generation): Модель читает эти “шпаргалки” и выдает точный ответ.

✅ Преимущества для Вики

ПлюсОписание
ДостоверностьСводит галлюцинации к минимуму, так как модель обязана опираться на источник.
АктуальностьМодель знает всё, что ты написал 5 минут назад, хотя её обучение закончилось годы назад.
ПриватностьТвоя база остается у тебя, модель получает только нужные кусочки текста в момент запроса.
ЭкономияПозволяет работать с огромными базами данных, не перегружая окно контекста лишней информацией.

🔗 Связь с Context Window

RAG — это «фильтр» для твоего окна контекста. Вместо того чтобы пытаться запихнуть в модель 10 000 заметок сразу (что невозможно), RAG выбирает только самые важные 5–10, оставляя место для глубоких рассуждений модели.


🛠 Применение на практике

По этому принципу работают самые популярные ИИ-плагины для базы знаний: Smart Connections, Khoj и Copilot. Они создают «векторный индекс» твоих файлов, чтобы мгновенно находить нужные смыслы.


Связанные концепции

  • Hallucination — то, с чем RAG борется эффективнее всего.
  • Context Window — физическое ограничение, которое RAG помогает обойти.
  • Vector Databases — технический движок, на котором строится RAG-поиск.