πŸ“„ RLM: РСкурсивныС языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ инфСрСнса Ρ‡Π΅Ρ€Π΅Π· Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ†ΠΈΡŽ контСкста

ΠšΡ€Π°Ρ‚ΠΊΠΈΠΉ ΠΎΠ±Π·ΠΎΡ€

Alexander Zhang прСдставляСт RLM (Recursive Language Models) β€” ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ инфСрСнса, ΠΏΡ€ΠΈ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ модСль рСкурсивно Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ Π½Π΅ Π·Π°Π΄Π°Ρ‡Ρƒ, Π° контСкст. Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ Π°Π³Π΅Π½Ρ‚ΠΎΠ², Π³Π΄Π΅ схСму Π·Π°Π΄Π°Ρ‘Ρ‚ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ, здСсь модСль сама Ρ€Π΅ΡˆΠ°Π΅Ρ‚, ΠΊΠ°ΠΊ β€œΡ‡ΠΈΡ‚Π°Ρ‚ΡŒβ€ Π΄Π»ΠΈΠ½Π½Ρ‹ΠΉ контСкст Ρ‡Π΅Ρ€Π΅Π· REPL-срСду. Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: +34 ΠΏΡƒΠ½ΠΊΡ‚Π° (~114%) Π½Π°Π΄ GPT-5 ΠΏΡ€ΠΈ Ρ‚ΠΎΠΉ ΠΆΠ΅ стоимости Π½Π° 132K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

πŸ”— ΠžΡ€ΠΈΠ³ΠΈΠ½Π°Π»: RLMs: Why Scale Test-Time Compute If You Can Scale Context? β€” alexzhang13.github.io


πŸ›οΈ ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ ΠΈΠ΄Π΅ΠΈ

  • ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎ-ориСнтированная, Π° Π½Π΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ½ΠΎ-ориСнтированная дСкомпозиция: RLM Π΄Π΅Π»Π΅Π³ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΎ Ρ‚ΠΎΠΌ, ΠΊΠ°ΠΊ Ρ‡ΠΈΡ‚Π°Ρ‚ΡŒ ΠΈ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ контСкст, вмСсто Ρ‚ΠΎΠ³ΠΎ Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π» Π³Ρ€Π°Ρ„ инструмСнтов.
  • ΠšΠΎΡ€Π½Π΅Π²Π°Ρ модСль Π½Π΅ Π²ΠΈΠ΄ΠΈΡ‚ контСкст: это ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½ΠΎ β€” ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ β€œcontext rot” (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ внимания Π½Π° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах) ΠΈ заставляСт модСль Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ Ρ‡Π΅Ρ€Π΅Π· инструмСнты.
  • RLM β‰  Π°Π³Π΅Π½Ρ‚: Π°Π³Π΅Π½Ρ‚Ρ‹ Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΡƒΡŽΡ‚ Π·Π°Π΄Π°Ρ‡Ρƒ, RLM Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ контСкст. Π­Ρ‚ΠΎ Π½Π΅ β€œΠΏΡ€ΠΎΡΡƒΠΌΠΌΠΈΡ€ΠΎΠ²Π°Π» ΠΈ ΠΏΠ΅Ρ€Π΅Π΄Π°Π» Π΄Π°Π»ΡŒΡˆΠ΅β€ β€” модСль Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°Π΅Ρ‚ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ взаимодСйствия.
  • ΠœΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅ΠΌΠΎΡΡ‚ΡŒ ΠΊΠ°ΠΊ свойство Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹: Ссли frontier-модСль Π·Π°Π²Ρ‚Ρ€Π° Π²ΠΎΠ·ΡŒΠΌΡ‘Ρ‚ 10M Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², RLM смоТСт Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со 100M.

πŸ’‘ Π“Π΄Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ (Use Cases)

  • Π‘Π²Π΅Ρ€Ρ…Π΄Π»ΠΈΠ½Π½Ρ‹Π΅ контСксты: Π°Π½Π°Π»ΠΈΠ· гигантских Π»ΠΎΠ³ΠΎΠ², ΠΊΠΎΠ΄-Π±Π°Π·, датасСтов, Π³Π΄Π΅ Π½ΠΈ ΠΎΠ΄Π½Π° модСль Π½Π΅ справляСтся с ΠΏΠΎΠ»Π½ΠΎΠΉ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΎΠΉ.
  • ДистрибутивныС запросы: β€œΡΠΊΠΎΠ»ΡŒΠΊΠΎ записСй ΡƒΠ΄ΠΎΠ²Π»Π΅Ρ‚Π²ΠΎΡ€ΡΡŽΡ‚ ΡƒΡΠ»ΠΎΠ²ΠΈΡŽ X” ΠΏΠΎ всСму корпусу β€” Π·Π°Π΄Π°Ρ‡Π°, Π³Π΄Π΅ контСкстноС ΠΎΠΊΠ½ΠΎ просСдаСт ΠΏΠ΅Ρ€Π²Ρ‹ΠΌ.
  • Multi-hop рассуТдСния Π½Π° Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚Π°Ρ…: поиск ΠΎΡ‚Π²Π΅Ρ‚Π°, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰Π΅Π³ΠΎ ΡΠ²ΡΠ·Π°Ρ‚ΡŒ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… источников срСди тысяч Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².
  • Модально-нСзависимый Π°Π½Π°Π»ΠΈΠ·: тСорСтичСски контСкст ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ любой ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ (изобраТСния, Π°ΡƒΠ΄ΠΈΠΎ), Π·Π°Π³Ρ€ΡƒΠΆΠ°Π΅ΠΌΠΎΠΉ Π² ΠΏΠ°ΠΌΡΡ‚ΡŒ REPL.

🧩 Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»Π°

  • Introduction
  • Background & Context
  • What Makes RLM Unique
  • Implementation
  • Emergent Strategies
  • Experiment 1 β€” OOLONG Benchmark
  • Experiment 2 β€” BrowseComp-Plus
  • Limitations
  • Future Directions

🧠 Основная Ρ‡Π°ΡΡ‚ΡŒ

Π’Π²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΈ контСкст

ΠŸΡ€ΠΎΠ±Π»Π΅ΠΌΠ° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстов Ρ…ΠΎΡ€ΠΎΡˆΠΎ извСстна: Π΄Π°ΠΆΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с гигантскими контСкстными ΠΎΠΊΠ½Π°ΠΌΠΈ ΡΡ‚Ρ€Π°Π΄Π°ΡŽΡ‚ ΠΎΡ‚ β€œcontext rot” β€” Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΠΈ качСства ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² с ростом ΠΎΠ±ΡŠΡ‘ΠΌΠ° Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π²ΠΊΠ»ΡŽΡ‡Π°ΡŽΡ‚:

  • RAG: ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ поиск Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Ρ… Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠ², Π½ΠΎ тСряСтся глобальная структура.
  • АгСнты (ReAct): дСкомпозиция Π·Π°Π΄Π°Ρ‡ΠΈ Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ Ρ‡Π΅Ρ€Π΅Π· инструмСнты, Π½ΠΎ схСма Тёсткая ΠΈ Π½Π΅ адаптируСтся ΠΊ контСксту.
  • Буммаризация: сТатиС контСкста, Π½ΠΎ с ΠΏΠΎΡ‚Π΅Ρ€Π΅ΠΉ Π΄Π΅Ρ‚Π°Π»Π΅ΠΉ.

RLM ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΈΠ°Π»ΡŒΠ½ΠΎ ΠΈΠ½ΠΎΠΉ ΠΏΡƒΡ‚ΡŒ: Π½ΠΈ ΠΎΠ΄Π½ΠΎΠΌΡƒ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎΠΌΡƒ Π²Ρ‹Π·ΠΎΠ²Ρƒ LM Π½Π΅ Π½ΡƒΠΆΠ½ΠΎ ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Ρ‚ΡŒ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹ΠΉ контСкст. ВмСсто этого модСль ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ инструмСнт для рСкурсивного Π²Ρ‹Π·ΠΎΠ²Π° самой сСбя Π½Π° Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π°Ρ… контСкста.

Π§Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ RLM ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΌ

Автор выдСляСт Ρ‚Ρ€ΠΈ ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… отличия:

  1. ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎ-ориСнтированная дСкомпозиция: Π°Π³Π΅Π½Ρ‚Ρ‹ Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΡƒΡŽΡ‚ Π·Π°Π΄Π°Ρ‡Ρƒ (Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊ Ρ€Π΅ΡˆΠ°Π΅Ρ‚, ΠΊΠ°ΠΊΠΈΠ΅ инструмСнты Π½ΡƒΠΆΠ½Ρ‹); RLM Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ контСкст (модСль Ρ€Π΅ΡˆΠ°Π΅Ρ‚, ΠΊΠ°ΠΊ Π΅Π³ΠΎ Ρ‡ΠΈΡ‚Π°Ρ‚ΡŒ).

  2. Π˜Π·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ срСда: ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ рСкурсивный Π²Ρ‹Π·ΠΎΠ² ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ собствСнноС REPL-ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ β€” Π½Π΅Ρ‚ ΡƒΡ‚Π΅Ρ‡Π΅ΠΊ состояния, Π½Π΅Ρ‚ ΠΏΡƒΡ‚Π°Π½ΠΈΡ†Ρ‹ ΠΌΠ΅ΠΆΠ΄Ρƒ уровнями.

  3. Π­ΠΌΠ΅Ρ€Π΄ΠΆΠ΅Π½Ρ‚Π½Ρ‹Π΅ стратСгии: модСль сама β€œΠΏΡ€ΠΈΠ΄ΡƒΠΌΡ‹Π²Π°Π΅Ρ‚β€ ΠΊΠ°ΠΊ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с контСкстом β€” peeking, grepping, partition+map β€” Π±Π΅Π· явного программирования этих ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΉ.

РСализация

RLM β€” это тонкая ΠΎΠ±Ρ‘Ρ€Ρ‚ΠΊΠ° Π²ΠΎΠΊΡ€ΡƒΠ³ LM. Π‘ Ρ‚ΠΎΡ‡ΠΊΠΈ зрСния API: rlm.completion(messages) β€” прямая Π·Π°ΠΌΠ΅Π½Π° gpt5.completion(messages).

Π¦ΠΈΠΊΠ» Ρ€Π°Π±ΠΎΡ‚Ρ‹:

1. ΠšΠΎΡ€Π½Π΅Π²Π°Ρ модСль ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ запрос q ΠΈ ΡƒΠΊΠ°Π·Π°Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎ контСкст Π² ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ REPL
2. МодСль Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ ΠΊΠΎΠ΄ для взаимодСйствия с контСкстом:
   - peek(ctx, n) β€” ΠΏΠΎΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ ΠΏΠ΅Ρ€Π²Ρ‹Π΅ N символов
   - grep(ctx, pattern) β€” поиск ΠΏΠΎ regex
   - rlm_call(subquery, ctx_subset) β€” рСкурсивный Π²Ρ‹Π·ΠΎΠ²
3. REPL выполняСт ΠΊΠΎΠ΄ ΠΈ Π²ΠΎΠ·Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ (усСчённый) Π²Ρ‹Π²ΠΎΠ΄
4. ΠŸΠΎΠ²Ρ‚ΠΎΡ€ΡΡ‚ΡŒ шаги 2-3 ΠΏΠΎΠΊΠ° модСль Π½Π΅ Π²Ρ‹Π²Π΅Π΄Π΅Ρ‚ FINAL(answer)

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ ΠΏΡ€ΠΈΠΌΠΈΡ‚ΠΈΠ²Ρ‹ REPL-срСды:

  • peek(ctx, n) β€” ΠΏΠΎΠ΄ΡΠΌΠΎΡ‚Ρ€Π΅Ρ‚ΡŒ Π½Π°Ρ‡Π°Π»ΠΎ контСкста
  • grep(ctx, pattern) β€” Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΏΠΎ regex
  • partition(ctx, n) β€” Ρ€Π°Π·Π±ΠΈΠ΅Π½ΠΈΠ΅ Π½Π° N частСй
  • rlm_call(query, ctx_subset) β€” рСкурсивный LM-Π²Ρ‹Π·ΠΎΠ² Π½Π°Π΄ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚ΠΎΠΌ

Π€ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅: Π½Π°Π΄ срСдой прСдоставляСт ΠΌΠΎΠ΄Π΅Π»ΠΈ инструмСнт , ΠΏΠΎΡ€ΠΎΠΆΠ΄Π°ΡŽΡ‰ΠΈΠΉ ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄-RLM-экзСмпляр с собствСнным запросом , трансформированным контСкстом ΠΈ ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСдой .

Π­ΠΌΠ΅Ρ€Π΄ΠΆΠ΅Π½Ρ‚Π½Ρ‹Π΅ стратСгии

Автор наблюдал, ΠΊΠ°ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ спонтанно Π²Ρ‹Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°ΡŽΡ‚ повСдСнчСскиС ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹:

Peeking (подглядываниС): корнСвая модСль Π·Π°ΠΏΡ€Π°ΡˆΠΈΠ²Π°Π΅Ρ‚ ΠΏΠ΅Ρ€Π²Ρ‹Π΅ N символов контСкста, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΎΡ†Π΅Π½ΠΈΡ‚ΡŒ Π΅Π³ΠΎ структуру (JSON? Π»ΠΎΠ³? тСкст?) ΠΈ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ.

Grepping (поиск ΠΏΠΎ шаблонам): модСль ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡ΠΈΡ‚Π°Π΅Ρ‚ regex сСмантичСскому поиску β€” Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ совпадСния Π½Π°Π΄Ρ‘ΠΆΠ½Π΅Π΅ для дистрибутивных запросов Π²Ρ€ΠΎΠ΄Π΅ β€œΡΠΊΠΎΠ»ΡŒΠΊΠΎ записСй содСрТат X”.

Partition + Map: модСль Ρ€Π°Π·Π±ΠΈΠ²Π°Π΅Ρ‚ контСкст Π½Π° части ΠΈ запускаСт рСкурсивныС Π²Ρ‹Π·ΠΎΠ²Ρ‹ для сСмантичСской ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ„Ρ€Π°Π³ΠΌΠ΅Π½Ρ‚Π° (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, классификация записСй). Π­Ρ‚ΠΎ классичСский map-reduce, Π½ΠΎ orchestration ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ Π½Π° сторонС LM.

Summarization: ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½ΠΈΠ΅ подмноТСств контСкста для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ ΠΊΠΎΡ€Π½Π΅Π²ΠΎΠΉ модСлью β€” модСль сама Ρ€Π΅ΡˆΠ°Π΅Ρ‚, Ρ‡Ρ‚ΠΎ ΡΡƒΠΌΠΌΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ.

Long-input, long-output: Ρ€ΡƒΡ‚ΠΈΠ½Π½Ρ‹Π΅ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ Π·Π°Π΄Π°Ρ‡ΠΈ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, отслСТиваниС git diff) Π΄Π΅Π»Π΅Π³ΠΈΡ€ΡƒΡŽΡ‚ΡΡ REPL-ΠΊΠΎΠ΄Ρƒ, Π° Π½Π΅ Ρ€Π΅ΡˆΠ°ΡŽΡ‚ΡΡ модСлью β€œΠ²Ρ€ΡƒΡ‡Π½ΡƒΡŽβ€.

ЭкспСримСнт 1 β€” OOLONG Benchmark

Π—Π°Π΄Π°Ρ‡Π°: ΠΎΡ‚Π²Π΅Ρ‚Ρ‹ Π½Π° дистрибутивныС запросы ΠΏΠΎ списку ΠΈΠ· ~3000–6000 строк с ΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΡΠΊΠΈΠΌΠΈ ID ΠΈ Π½Π΅Ρ€Π°Π·ΠΌΠ΅Ρ‡Π΅Π½Π½Ρ‹ΠΌΠΈ сущностями. ΠžΡ†Π΅Π½ΠΈΠ²Π°Π»ΠΈΡΡŒ запросы с контСкстом >128K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΡ€ΠΈ 132K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²:

  • RLM(GPT-5-mini) ΠΏΡ€Π΅Π²Π·ΠΎΡˆΡ‘Π» GPT-5 Π½Π° 34+ ΠΏΡƒΠ½ΠΊΡ‚Π° (прирост ~114%)
  • Π‘Ρ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ API-запроса β€” ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Ρ‚Π° ΠΆΠ΅

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΡ€ΠΈ 263K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²:

  • RLM(GPT-5-mini) ΠΏΡ€Π΅Π²Π·ΠΎΡˆΡ‘Π» GPT-5 Π½Π° 15+ ΠΏΡƒΠ½ΠΊΡ‚ΠΎΠ² (прирост ~49%)
  • ΠŸΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ GPT-5-mini ΡƒΠΏΠ°Π»Π° сильнСС, Ρ‡Π΅ΠΌ Ρƒ GPT-5 β€” β€œcontext rot” ΠΏΠΎΡ€Π°ΠΆΠ°Π΅Ρ‚ мСньшиС ΠΌΠΎΠ΄Π΅Π»ΠΈ сильнСС

Абляция: REPL-срСда Π±Π΅Π· рСкурсивных Π²Ρ‹Π·ΠΎΠ²ΠΎΠ² ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ΠΏΠ°Π΄Π΅Π½ΠΈΠ΅ ~10%, подтвСрТдая Π²Π°ΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΈΠΌΠ΅Π½Π½ΠΎ рСкурсии для сСмантичСских ΠΏΠΎΠ΄Π·Π°Π΄Π°Ρ‡.

ЭкспСримСнт 2 β€” BrowseComp-Plus

Π—Π°Π΄Π°Ρ‡Π°: multi-hop запросы, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΠ΅ ассоциации ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² срСди ~100K Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² (~5K слов Π² срСднСм). ΠžΡ‚Π²Π΅Ρ‚ Π΅ΡΡ‚ΡŒ Π² корпусС, Π½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΠΈΡ‚ΡŒ Π΅Π³ΠΎ ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠΆΠ½ΠΎ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ связав ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΡŽ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… источников.

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹:

  • RLM(GPT-5) β€” СдинствСнный ΠΌΠ΅Ρ‚ΠΎΠ΄, ΡΠΎΡ…Ρ€Π°Π½ΠΈΠ²ΡˆΠΈΠΉ 100% ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΏΡ€ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ Π΄ΠΎ 1000 Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²
  • Базовая GPT-5 ΠΏΠΎΠΊΠ°Π·Π°Π»Π° явноС ΠΏΠ°Π΄Π΅Π½ΠΈΠ΅ с ростом числа Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ² β€” Π½ΠΈ ΠΏΠΎΠ»Π½Ρ‹ΠΉ контСкст, Π½ΠΈ усСчСниС, Π½ΠΈ BM25 Π½Π΅ ΠΏΠΎΠΌΠΎΠ³Π»ΠΈ
  • ReAct + BM25 уступил RLM ΠΈ ΠΏΠΎ качСству, ΠΈ ΠΏΠΎ стоимости

ΠžΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΡ

  • Π‘ΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ: рСкурсивныС Π²Ρ‹Π·ΠΎΠ²Ρ‹ Π±Π»ΠΎΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅, Π±Π΅Π· прСфиксного ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ. Запрос ΠΌΠΎΠΆΠ΅Ρ‚ Π·Π°Π½ΠΈΠΌΠ°Ρ‚ΡŒ ΠΎΡ‚ сСкунд Π΄ΠΎ ΠΌΠΈΠ½ΡƒΡ‚.
  • Π‘Ρ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ: Π½Π΅Ρ‚ Π³Π°Ρ€Π°Π½Ρ‚ΠΈΠΉ контроля Π½Π°Π΄ ΠΎΠ±Ρ‰ΠΈΠΌ Π±ΡŽΠ΄ΠΆΠ΅Ρ‚ΠΎΠΌ API ΠΈΠ»ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π΅ΠΌ выполнСния.
  • Π“Π»ΡƒΠ±ΠΈΠ½Π° рСкурсии: всС экспСримСнты ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Ρ‹ Π³Π»ΡƒΠ±ΠΈΠ½ΠΎΠΉ 1; большая Π³Π»ΡƒΠ±ΠΈΠ½Π° β€” ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΉ вопрос.
  • Π”Π΅Ρ‚Π΅Ρ€ΠΌΠΈΠ½ΠΈΠ·ΠΌ: модСль ΠΌΠΎΠΆΠ΅Ρ‚ Π²Ρ‹Π±Ρ€Π°Ρ‚ΡŒ Π½Π΅ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ взаимодСйствия с контСкстом.

НаправлСния развития

  • АсинхронныС Π²Ρ‹Π·ΠΎΠ²Ρ‹: распараллСливаниС рСкурсивных ΠΏΠΎΠ΄-запросов для ускорСния.
  • RL-оптимизация Ρ‚Ρ€Π°Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΉ: ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π²Ρ‹Π±ΠΈΡ€Π°Ρ‚ΡŒ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹Π΅ стратСгии взаимодСйствия с контСкстом Ρ‡Π΅Ρ€Π΅Π· reinforcement learning.
  • Π‘ΠΎΠ»ΡŒΡˆΠ°Ρ Π³Π»ΡƒΠ±ΠΈΠ½Π° рСкурсии: иСрархичСская дСкомпозиция контСкста Π½Π° мноТСство ΡƒΡ€ΠΎΠ²Π½Π΅ΠΉ.
  • ΠšΡ€ΠΎΡΡ-ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ: ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ RLM ΠΊ контСкстам ΠΈΠ· ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, Π°ΡƒΠ΄ΠΈΠΎ, Π²ΠΈΠ΄Π΅ΠΎ.

πŸ› οΈ ВСхничСскиС Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈ рСализация

Базовая Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° RLM:

# ПсСвдокод Ρ†ΠΈΠΊΠ»Π° RLM (ΠΎΠ΄ΠΈΠ½ шаг)
def rlm_step(model, query, env):
    # model Π½Π΅ Π²ΠΈΠ΄ΠΈΡ‚ env.ctx Π½Π°ΠΏΡ€ΡΠΌΡƒΡŽ β€” Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‡Π΅Ρ€Π΅Π· инструмСнты
    response = model.completion(
        messages=[{
            "role": "user",
            "content": f"Query: {query}\nContext is in variable 'ctx'. Use tools to explore it."
        }],
        tools=[
            peek_tool,    # peek(ctx, n) -> first n chars
            grep_tool,    # grep(ctx, pattern) -> matching lines
            rlm_tool,     # rlm_call(subquery, ctx_fragment) -> FINAL answer
            final_tool,   # FINAL(answer) -> Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΠ΅
        ],
        environment=env   # Python REPL с ctx Π² памяти
    )
 
    if response.is_final:
        return response.answer
 
    # Π’Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚ΡŒ ΠΊΠΎΠ΄ Π² REPL, ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄
    output = env.execute(response.code)
    # ΠŸΠ΅Ρ€Π΅Π΄Π°Ρ‚ΡŒ Π²Ρ‹Π²ΠΎΠ΄ ΠΎΠ±Ρ€Π°Ρ‚Π½ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ (с усСчСниСм)
    return rlm_step(model, query, env.feed(output))

ΠšΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏ: rlm_tool создаёт ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ экзСмпляр RLM β€” Π½ΠΎΠ²Ρ‹ΠΉ env со своим ctx, Π½ΠΎΠ²Ρ‹ΠΉ Ρ†ΠΈΠΊΠ», Π½ΠΈΠΊΠ°ΠΊΠΎΠ³ΠΎ раздСлСния состояния с Ρ€ΠΎΠ΄ΠΈΡ‚Π΅Π»Π΅ΠΌ.

# Упрощённая рСализация rlm_tool
def rlm_call(subquery, ctx_fragment):
    sub_env = Environment(ctx=ctx_fragment)  # изолированная срСда
    return rlm_step(model, subquery, sub_env)

βš–οΈ ΠŸΠ»ΡŽΡΡ‹ ΠΈ ΠœΠΈΠ½ΡƒΡΡ‹

πŸ‘ ΠŸΠ»ΡŽΡΡ‹πŸ‘Ž ΠœΠΈΠ½ΡƒΡΡ‹
ΠšΠΎΠ½Ρ‚Π΅ΠΊΡΡ‚Π½ΠΎΠ΅ ΠΎΠΊΠ½ΠΎ ΠΊΠΎΡ€Π½Π΅Π²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ пСрСгруТаСтся β€” Π·Π°Ρ‰ΠΈΡ‚Π° ΠΎΡ‚ context rotΠ‘Π»ΠΎΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ Π²Ρ‹Π·ΠΎΠ²Ρ‹ β€” ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎ, особСнно Π±Π΅Π· прСфиксного ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ
МодСль Π°Π΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎ Π²Ρ‹Π±ΠΈΡ€Π°Π΅Ρ‚ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ чтСния контСкстаНСт Π³Π°Ρ€Π°Π½Ρ‚ΠΈΠΉ ΠΏΠΎ стоимости ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ выполнСния
Модальная Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡ‚ΡŒ β€” контСкст ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π»ΡŽΠ±Ρ‹ΠΌ Ρ‚ΠΈΠΏΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ…Π“Π»ΡƒΠ±ΠΈΠ½Π° рСкурсии ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½Π° 1 Π² Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΡ… экспСримСнтах
ΠœΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΡƒΠ΅Ρ‚ΡΡ с ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΠ΅ΠΌ Π±Π°Π·ΠΎΠ²Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉΠΠ΅ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½Π°Ρ стратСгия ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ ΠΏΠ»ΠΎΡ…ΠΈΠΌ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ
ΠŸΡ€ΠΎΡΡ‚Π°Ρ Π·Π°ΠΌΠ΅Π½Π° ΠΎΠ±Ρ‹Ρ‡Π½ΠΎΠ³ΠΎ completion-Π²Ρ‹Π·ΠΎΠ²Π°Π’Ρ€Π΅Π±ΡƒΠ΅Ρ‚ REPL-срСды с исполнСниСм ΠΊΠΎΠ΄Π°

πŸ”— Бвязи

  • RLM (Recursive Language Model) β€” Ρ‚Π΅Ρ€ΠΌΠΈΠ½ Π² глоссарии.
  • Context Window β€” ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° β€œcontext rot”, ΠΊΠΎΡ‚ΠΎΡ€ΡƒΡŽ RLM Ρ€Π΅ΡˆΠ°Π΅Ρ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π½ΠΎ.
  • Agent β€” Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄: дСкомпозиция Π·Π°Π΄Π°Ρ‡ΠΈ вмСсто Π΄Π΅ΠΊΠΎΠΌΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ контСкста.
  • Inference β€” RLM ΠΊΠ°ΠΊ ΡΠ²ΠΎΠ»ΡŽΡ†ΠΈΡ ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ инфСрСнса (послС CoT ΠΈ ReAct).

Π’Π΅Π³ΠΈ: ai inference context rlm techreview