SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

LongMemEval Benchmark

2026-06-25

2026-06-25

concept

benchmark

memory

evaluation

chat-assistant

longmem-eval-2025

LongMemEval Benchmark

LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准，包含 500 道手工创建的问题，覆盖 5 种核心记忆能力。

问题形式化

每个评测实例：(S, q, t_q, a)

S = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]：N 个按时间排序的历史会话
每个 S_i 是用户-助手的多轮交互（含任务型对话）
q：问题，t_q：提问时间戳，a：答案

五种记忆能力

#	能力	挑战	占比
1	Information Extraction	从多轮对话中提取隐藏信息	~30%
2	Multi-Session Reasoning	跨多个独立会话综合信息	~20%
3	Temporal Reasoning	基于时间参考推断	~15%
4	Knowledge Updates	处理更新/矛盾的用户信息	~20%
5	Abstention	识别不可回答的问题（不幻想）	~15%

两个标准规模

设置	规模	现象
LongMemEval S	~115k tokens	长上下文 LLM 准确度下降 30-60%
LongMemEval M	500 sessions, ~1.5M tokens	极大规模；商业系统仅 30-70%

历史长度可自由扩展："needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。

与已有基准的差异

已有基准	缺失的能力
MemoryBank	跨会话推理、时间推理
LoCoMo	助手侧信息回忆、知识更新
PerLTQA	时间推理、遗忘识别
所有已有基准	Abstention（不可回答的识别）

设计亮点

任务型对话 + 闲聊混合：反映真实使用场景——长上下文输入 + 长形式回复
可自由扩展长度：不是固定数据集，是可以无限增长的历史
时间戳标注：每个会话有明确时间戳，使时间推理成为可能
Abstention 题：模型必须学会说"我不知道"——记忆系统不仅是"找到"，更是"知道何时放弃"

参考