RLM (Recursive Language Model)

Определение

RLM — стратегия инференса, при которой языковая модель рекурсивно декомпозирует входной контекст (не задачу), запуская изолированные под-вызовы самой себя через Python REPL-среду. Корневая модель не видит полный контекст — только запрос и результаты работы под-моделей.

🧠 Ключевое отличие от агентов

Агенты (ReAct, function calling) декомпозируют задачу по схеме, заданной человеком. RLM декомпозирует контекст, и выбор стратегии полностью делегирован модели:

Подход	Что декомпозирует	Кто задаёт схему
ReAct / Agents	Задачу	Человек (инструменты, граф)
RLM	Контекст	Модель сама решает

🏗 Архитектура

Корневая модель (depth=0): получает только запрос, контекст загружен в переменную REPL-среды и модели не показывается. Это предотвращает “context rot” — деградацию внимания на длинных контекстах.
Среда (Python REPL): контекст как переменная в памяти, модель взаимодействует через блоки кода.
Рекурсивные вызовы: корневая модель вызывает RLM(q, C_subset) внутри REPL — изолированный под-RLM с собственным запросом, фрагментом контекста и средой.
Завершение: модель выводит FINAL(answer) или FINAL_VAR(var).

Формально: $R L M_{M} (q, C)$ над средой $E$ — это LM с инструментом $R L M_{M} (\overset{q}{^}, \hat{C})$ , где $\hat{C}$ — трансформированный контекст, а $\hat{E}$ — изолированная среда.

🔍 Спонтанные стратегии

Модели самостоятельно вырабатывают поведенческие паттерны:

Peeking: подсмотреть первые N символов контекста для оценки структуры.
Grepping: regex-поиск вместо семантического — модель предпочитает точные совпадения.
Partition + Map: разбить контекст на части и запустить рекурсивные LM-вызовы для каждого фрагмента.
Summarization: обобщить подмножества контекста для принятия решения корневой моделью.

📊 Результаты

OOLONG (132K токенов): RLM(GPT-5-mini) обошёл GPT-5 на +34 пункта (~114%) при той же стоимости.
BrowseComp-Plus (1000 документов): RLM(GPT-5) — единственный метод, сохранивший 100% производительности при масштабировании; ReAct + BM25 уступил и по качеству, и по стоимости.

🛠 Ограничения

Рекурсивные вызовы блокирующие, без префиксного кэширования — медленно.
Нет гарантий контроля стоимости API или времени выполнения.
Эксперименты ограничены глубиной рекурсии 1.

Связанные концепции

Context Window — проблема “context rot”, которую RLM обходит архитектурно.
Agent — альтернативный подход к масштабированию инференса.
Inference — RLM как следующий шаг после CoT и ReAct в масштабировании времени инференса.

AI Knowledge Base

Проводник

RLM (Recursive Language Model)

RLM (Recursive Language Model)

🧠 Ключевое отличие от агентов

🏗 Архитектура

🔍 Спонтанные стратегии

📊 Результаты

🛠 Ограничения

Связанные концепции

Вид графа

Оглавление

Обратные ссылки