Context Window (Окно контекста)
Определение
Окно контекста — это максимальный объем данных (измеряемый в токенах), который LLM может удержать в «активной памяти» и обработать за один проход. Оно включает в себя инструкцию, историю диалога и предоставленные документы.
🧠 Аналогия с RAM
Окно контекста — это оперативная память модели.
- Все, что внутри окна, модель «видит» и может анализировать одновременно.
- Все, что выходит за пределы окна, бесследно «забывается» или вытесняется более новыми данными.
📉 Проблемы и ограничения
- Lost in the Middle: Даже при огромном окне (напр. 1M токенов) модели склонны лучше запоминать информацию в самом начале и в самом конце текста. Центр внимания часто «провисает».
- Стоимость и скорость: Чем больше токенов отправляется в контекст, тем дороже обходится запрос и тем дольше модель генерирует ответ.
- Затухание внимания: При заполнении окна на 80-90% качество следования сложным инструкциям может снижаться.
📊 Тренды 2026 года
| Модель | Размер окна (примерный) | Вместимость (в книгах) |
|---|---|---|
| Базовая | 128k токенов | ~300 страниц текста |
| Продвинутая | 1M - 2M токенов | Целая библиотека или сотни часов кода |
| Локальная | 8k - 32k токенов | Небольшие статьи / главы |
🛠 Контекст на практике
При работе с базой знаний размер окна определяет, сколько заметок ты можешь «скормить» модели за раз:
- Малое окно: Приходится использовать RAG (Retrieval-Augmented Generation), чтобы выбирать только самые важные куски.
- Большое окно: Позволяет загрузить всю папку целиком для поиска глубинных связей и противоречий.
Связанные концепции
- Token — единица измерения контекста.
- Менеджмент длинного контекста — стратегии выживания при больших объемах.
- RAG (Retrieval-Augmented Generation) — способ расширить «память» модели за пределы её окна.