myWiki/longmem-eval-20250625.md at 6021dea160092d29b1a1f202917027e29f55465d - myWiki - SZ CodeSpace

SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

LongMemEval Review — 长期交互记忆的系统性评测框架

2026-06-25

2026-06-25

review

review

memory-benchmark

evaluation

chat-assistant

longmem-eval-2025

📌 基本信息

论文：LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
作者：Wu et al. (UCLA / Tencent AI Lab / UCSD)
会议：ICLR 2025 | arXiv:2410.10813
领域：cs.CL (记忆评测 / 聊天助手)
代码：github.com/xiaowu0162/LongMemEval

🎯 核心概念

long-term-interactive-memory — 聊天助手在持续交互中积累、回忆和推理个人知识的能力
longmem-eval — 500 题 × 5 能力（提取/跨会话/时间/更新/遗忘）× 2 规模（S=115k, M=1.5M tokens）
memory-indexing-retrieval-reading — 统一记忆框架：三阶段 × 四控制点（Value/Key/Query/Reading）
fact-augmented-key-expansion — LLM 提取结构化事实作索引键（+9.4% recall, +5.4% QA）
time-aware-query-expansion — 时间戳 + 搜索范围缩小（时间推理召回 +6.8-11.3%）

🔗 概念网络

核心连接：long-term-interactive-memory ↔ longmem-eval ↔ memory-indexing-retrieval-reading
已有概念桥接：atlas-memory-system（三阶段→Atlas write/recall 管线映射），agent-memory-taxonomy（mem type × 评测能力对应），memory-consolidation（≈ fact-augmented key expansion）
扩展方向：与 per-index-time-decay 的互补——decay 做背景沉底，time expansion 做精确窗口

📚 Wiki 集成

新增页面：6 个（1 论文 + 5 概念）
链接密度：核心概念平均 4 个跨引用链接
与记忆系统簇的连接：bridge 到 Atlas (5 links), Memory Taxonomy (3 links)
总规模：1216 → 1222 页

💡 关键洞察

Abstention 是评测设计的新维度——所有已有记忆基准都隐含假设"答案存在"，LongMemEval 第一个要求模型说"我不知道"。这对生产系统至关重要：记忆系统不应只追求召回率，还要精确识别信息缺失。
三阶段框架 + 四控制点提供了一个设计语言——不再笼统讨论"记忆好不好"，而是在具体控制点上做 ablation：Round vs Session 粒度、Fact Key vs Raw Key、Time Query vs Raw Query。这是工程记忆系统可以逐项优化的 checklist。
LongMemEval 可以直接评测 Atlas——在论文描述的实验管线中，将 Atlas 的 recall_memory 放在 Retrieval 阶段、consolidation 输出作为 Indexing 阶段的 fact key，然后在 LongMemEval 的 500 题上跑 eval——直接得到 Atlas 在五种记忆能力上的分数。