Память агента: личная пятислойка

Это не статья и не перевод

Рабочая схема «как я для себя режу память вокруг LLM», чтобы проектировать стек и не путать опыт, факты о пользователе, правила и корпус. Термины намеренно не совпадают один-в-один с классификациями из блогов — так удобнее помнить зону ответственности инженера.

Опоры (чужие рамки): DEV — пять типов памяти · Kore.ai — что такое agent memory · по запросу AI Agent Cognitive Memory Architecture — обзоры вроде Episodic / Semantic / Working in production, arXiv:2603.17244


Как я делю на слои

УровеньТип памятиЗа что отвечаетИнструменты
L1Working«Оперативка» (context window). Кэш-токены.Hardware / model level (по сути неуправляемый лимит; управляю только расходом)
L2EpisodicСобытия текущей сессии. Чистка истории от мусора.Zep, LangMem, Hindsight
L3SemanticЛичные факты и предпочтения, общие для всех чатов.Mem0, mcp-memory-server
L4Procedural«Как делать»: навыки, правила кодинга, стандарты..cursor/rules, Cursor Skills, Claude Skills
L5DurableГлобальная база знаний, документация, архивы.RAG, Obsidian, GraphRAG

Уточнение по L1: в учебниках «working memory» часто ещё и scratchpad агента в коде — у меня в строке L1 именно железо окна и кэша inference, а не JSON-состояние цикла; scratchpad в голове ложится ближе к L2/L4 в зависимости от того, что в него кладём.

Слои L2–L5 — зона, где осмысленно улучшать систему: меньше лишних токенов, меньше смешения «вчера решили» с «так в PDF».


Зачем так резать

  • Проектирование: на каждый вопрос («что делаем сейчас», «что пробовали», «какие правила», «что в базе знаний») — свой слой и своё хранилище.
  • Токены: не тащить регламенты из слоя 5 в слой 3; в окне держать дельту сессии + узкий top‑k.
  • Точность: не смешивать retrieval эпизодов и документов в одну кучу без явной метки источника.

Как это лежит рядом с «классикой»

Откуда рамкаЗаметка для себя
DEV (STM, LTM, working scratchpad, episodic, semantic)Удобно объяснять; в проде LTM/semantic часто один векторный слой с разными метаданными.
Kore (semantic, episodic, procedural, working + pipeline)Сильный акцент на extraction / consolidation / retrieval — без этого слой 3 превращается в шум.

Итог для себя: не спорить о словах, а держать таблицу «вопрос → слой → хранилище».


🔗 Связи

Теги: agents memory opinion