Context Window (Окно контекста)

Определение

Окно контекста — это максимальный объем данных (измеряемый в токенах), который LLM может удержать в «активной памяти» и обработать за один проход. Оно включает в себя инструкцию, историю диалога и предоставленные документы.

🧠 Аналогия с RAM

Окно контекста — это оперативная память модели.

Все, что внутри окна, модель «видит» и может анализировать одновременно.
Все, что выходит за пределы окна, бесследно «забывается» или вытесняется более новыми данными.

📉 Проблемы и ограничения

Lost in the Middle: Даже при огромном окне (напр. 1M токенов) модели склонны лучше запоминать информацию в самом начале и в самом конце текста. Центр внимания часто «провисает».
Стоимость и скорость: Чем больше токенов отправляется в контекст, тем дороже обходится запрос и тем дольше модель генерирует ответ.
Затухание внимания: При заполнении окна на 80-90% качество следования сложным инструкциям может снижаться.

📊 Тренды 2026 года

Модель	Размер окна (примерный)	Вместимость (в книгах)
Базовая	128k токенов	~300 страниц текста
Продвинутая	1M - 2M токенов	Целая библиотека или сотни часов кода
Локальная	8k - 32k токенов	Небольшие статьи / главы

🛠 Контекст на практике

При работе с базой знаний размер окна определяет, сколько заметок ты можешь «скормить» модели за раз:

Малое окно: Приходится использовать RAG (Retrieval-Augmented Generation), чтобы выбирать только самые важные куски.
Большое окно: Позволяет загрузить всю папку целиком для поиска глубинных связей и противоречий.

Связанные концепции

Token — единица измерения контекста.
Менеджмент длинного контекста — стратегии выживания при больших объемах.
RAG (Retrieval-Augmented Generation) — способ расширить «память» модели за пределы её окна.

AI Knowledge Base

Проводник

Context Window

Context Window (Окно контекста)

🧠 Аналогия с RAM

📉 Проблемы и ограничения

📊 Тренды 2026 года

🛠 Контекст на практике

Связанные концепции

Вид графа

Оглавление