RLM (Recursive Language Model)

Определение

RLM — стратегия инференса, при которой языковая модель рекурсивно декомпозирует входной контекст (не задачу), запуская изолированные под-вызовы самой себя через Python REPL-среду. Корневая модель не видит полный контекст — только запрос и результаты работы под-моделей.


🧠 Ключевое отличие от агентов

Агенты (ReAct, function calling) декомпозируют задачу по схеме, заданной человеком. RLM декомпозирует контекст, и выбор стратегии полностью делегирован модели:

ПодходЧто декомпозируетКто задаёт схему
ReAct / AgentsЗадачуЧеловек (инструменты, граф)
RLMКонтекстМодель сама решает

🏗 Архитектура

  1. Корневая модель (depth=0): получает только запрос, контекст загружен в переменную REPL-среды и модели не показывается. Это предотвращает “context rot” — деградацию внимания на длинных контекстах.
  2. Среда (Python REPL): контекст как переменная в памяти, модель взаимодействует через блоки кода.
  3. Рекурсивные вызовы: корневая модель вызывает RLM(q, C_subset) внутри REPL — изолированный под-RLM с собственным запросом, фрагментом контекста и средой.
  4. Завершение: модель выводит FINAL(answer) или FINAL_VAR(var).

Формально: над средой — это LM с инструментом , где — трансформированный контекст, а — изолированная среда.


🔍 Спонтанные стратегии

Модели самостоятельно вырабатывают поведенческие паттерны:

  • Peeking: подсмотреть первые N символов контекста для оценки структуры.
  • Grepping: regex-поиск вместо семантического — модель предпочитает точные совпадения.
  • Partition + Map: разбить контекст на части и запустить рекурсивные LM-вызовы для каждого фрагмента.
  • Summarization: обобщить подмножества контекста для принятия решения корневой моделью.

📊 Результаты

  • OOLONG (132K токенов): RLM(GPT-5-mini) обошёл GPT-5 на +34 пункта (~114%) при той же стоимости.
  • BrowseComp-Plus (1000 документов): RLM(GPT-5) — единственный метод, сохранивший 100% производительности при масштабировании; ReAct + BM25 уступил и по качеству, и по стоимости.

🛠 Ограничения

  • Рекурсивные вызовы блокирующие, без префиксного кэширования — медленно.
  • Нет гарантий контроля стоимости API или времени выполнения.
  • Эксперименты ограничены глубиной рекурсии 1.

Связанные концепции

  • Context Window — проблема “context rot”, которую RLM обходит архитектурно.
  • Agent — альтернативный подход к масштабированию инференса.
  • Inference — RLM как следующий шаг после CoT и ReAct в масштабировании времени инференса.