title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| LongMemEval Benchmark |
2026-06-25 |
2026-06-25 |
concept |
| benchmark |
| memory |
| evaluation |
| chat-assistant |
|
|
LongMemEval Benchmark
LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准,包含 500 道手工创建的问题,覆盖 5 种核心记忆能力。
问题形式化
每个评测实例:(S, q, t_q, a)
- S = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]:N 个按时间排序的历史会话
- 每个 S_i 是用户-助手的多轮交互(含任务型对话)
- q:问题,t_q:提问时间戳,a:答案
五种记忆能力
| # |
能力 |
挑战 |
占比 |
| 1 |
Information Extraction |
从多轮对话中提取隐藏信息 |
~30% |
| 2 |
Multi-Session Reasoning |
跨多个独立会话综合信息 |
~20% |
| 3 |
Temporal Reasoning |
基于时间参考推断 |
~15% |
| 4 |
Knowledge Updates |
处理更新/矛盾的用户信息 |
~20% |
| 5 |
Abstention |
识别不可回答的问题(不幻想) |
~15% |
两个标准规模
| 设置 |
规模 |
现象 |
| LongMemEval S |
~115k tokens |
长上下文 LLM 准确度下降 30-60% |
| LongMemEval M |
500 sessions, ~1.5M tokens |
极大规模;商业系统仅 30-70% |
历史长度可自由扩展:"needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。
与已有基准的差异
| 已有基准 |
缺失的能力 |
| MemoryBank |
跨会话推理、时间推理 |
| LoCoMo |
助手侧信息回忆、知识更新 |
| PerLTQA |
时间推理、遗忘识别 |
| 所有已有基准 |
Abstention(不可回答的识别) |
设计亮点
- 任务型对话 + 闲聊混合:反映真实使用场景——长上下文输入 + 长形式回复
- 可自由扩展长度:不是固定数据集,是可以无限增长的历史
- 时间戳标注:每个会话有明确时间戳,使时间推理成为可能
- Abstention 题:模型必须学会说"我不知道"——记忆系统不仅是"找到",更是"知道何时放弃"
参考