Менеджмент длинного контекста
Проблема: Lost in the Middle
Исследования показывают, что LLM (особенно модели с контекстом 128k+) лучше всего извлекают информацию из начала и конца поданного текста. Информация, находящаяся в середине, часто игнорируется или «замыливается».
🏗 Решения и стратегии
1. Context Chunking (Сегментация)
Вместо того чтобы скармливать ИИ файл на 500 страниц, текст разбивается на логические фрагменты (чанки).
- Fixed-size chunking: Разбивка по количеству знаков (напр., по 2000 знаков с перекрытием в 200).
- Semantic chunking: Разбивка на основе смысла (абзацы, главы, законченные мысли).
- Зачем в базе знаний: Это основа работы плагина Smart Connections. Он индексирует ваши заметки по кусочкам.
2. Hierarchical Summarization (Иерархическая суммаризация)
Метод «снежного кома» для обработки целых книг или папок.
- Шаг 1: Суммаризируем каждую маленькую заметку/главу.
- Шаг 2: Суммаризируем полученные суммаризации в один обзорный документ.
- Результат: Модель получает концентрат смыслов без лиш