RLM (Recursive Language Model)
Определение
RLM — стратегия инференса, при которой языковая модель рекурсивно декомпозирует входной контекст (не задачу), запуская изолированные под-вызовы самой себя через Python REPL-среду. Корневая модель не видит полный контекст — только запрос и результаты работы под-моделей.
🧠 Ключевое отличие от агентов
Агенты (ReAct, function calling) декомпозируют задачу по схеме, заданной человеком. RLM декомпозирует контекст, и выбор стратегии полностью делегирован модели:
| Подход | Что декомпозирует | Кто задаёт схему |
|---|---|---|
| ReAct / Agents | Задачу | Человек (инструменты, граф) |
| RLM | Контекст | Модель сама решает |
🏗 Архитектура
- Корневая модель (depth=0): получает только запрос, контекст загружен в переменную REPL-среды и модели не показывается. Это предотвращает “context rot” — деградацию внимания на длинных контекстах.
- Среда (Python REPL): контекст как переменная в памяти, модель взаимодействует через блоки кода.
- Рекурсивные вызовы: корневая модель вызывает
RLM(q, C_subset)внутри REPL — изолированный под-RLM с собственным запросом, фрагментом контекста и средой. - Завершение: модель выводит
FINAL(answer)илиFINAL_VAR(var).
Формально: над средой — это LM с инструментом , где — трансформированный контекст, а — изолированная среда.
🔍 Спонтанные стратегии
Модели самостоятельно вырабатывают поведенческие паттерны:
- Peeking: подсмотреть первые N символов контекста для оценки структуры.
- Grepping: regex-поиск вместо семантического — модель предпочитает точные совпадения.
- Partition + Map: разбить контекст на части и запустить рекурсивные LM-вызовы для каждого фрагмента.
- Summarization: обобщить подмножества контекста для принятия решения корневой моделью.
📊 Результаты
- OOLONG (132K токенов): RLM(GPT-5-mini) обошёл GPT-5 на +34 пункта (~114%) при той же стоимости.
- BrowseComp-Plus (1000 документов): RLM(GPT-5) — единственный метод, сохранивший 100% производительности при масштабировании; ReAct + BM25 уступил и по качеству, и по стоимости.
🛠 Ограничения
- Рекурсивные вызовы блокирующие, без префиксного кэширования — медленно.
- Нет гарантий контроля стоимости API или времени выполнения.
- Эксперименты ограничены глубиной рекурсии 1.
Связанные концепции
- Context Window — проблема “context rot”, которую RLM обходит архитектурно.
- Agent — альтернативный подход к масштабированию инференса.
- Inference — RLM как следующий шаг после CoT и ReAct в масштабировании времени инференса.