Context Window (Окно контекста)

Определение

Окно контекста — это максимальный объем данных (измеряемый в токенах), который LLM может удержать в «активной памяти» и обработать за один проход. Оно включает в себя инструкцию, историю диалога и предоставленные документы.


🧠 Аналогия с RAM

Окно контекста — это оперативная память модели.

  • Все, что внутри окна, модель «видит» и может анализировать одновременно.
  • Все, что выходит за пределы окна, бесследно «забывается» или вытесняется более новыми данными.

📉 Проблемы и ограничения

  1. Lost in the Middle: Даже при огромном окне (напр. 1M токенов) модели склонны лучше запоминать информацию в самом начале и в самом конце текста. Центр внимания часто «провисает».
  2. Стоимость и скорость: Чем больше токенов отправляется в контекст, тем дороже обходится запрос и тем дольше модель генерирует ответ.
  3. Затухание внимания: При заполнении окна на 80-90% качество следования сложным инструкциям может снижаться.

📊 Тренды 2026 года

МодельРазмер окна (примерный)Вместимость (в книгах)
Базовая128k токенов~300 страниц текста
Продвинутая1M - 2M токеновЦелая библиотека или сотни часов кода
Локальная8k - 32k токеновНебольшие статьи / главы

🛠 Контекст на практике

При работе с базой знаний размер окна определяет, сколько заметок ты можешь «скормить» модели за раз:

  • Малое окно: Приходится использовать RAG (Retrieval-Augmented Generation), чтобы выбирать только самые важные куски.
  • Большое окно: Позволяет загрузить всю папку целиком для поиска глубинных связей и противоречий.

Связанные концепции