Files
myWiki/concepts/longmem-eval.md

2.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
LongMemEval Benchmark 2026-06-25 2026-06-25 concept
benchmark
memory
evaluation
chat-assistant
longmem-eval-2025

LongMemEval Benchmark

LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准,包含 500 道手工创建的问题,覆盖 5 种核心记忆能力。

问题形式化

每个评测实例:(S, q, t_q, a)

  • S = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]N 个按时间排序的历史会话
  • 每个 S_i 是用户-助手的多轮交互(含任务型对话)
  • q:问题,t_q:提问时间戳,a:答案

五种记忆能力

# 能力 挑战 占比
1 Information Extraction 从多轮对话中提取隐藏信息 ~30%
2 Multi-Session Reasoning 跨多个独立会话综合信息 ~20%
3 Temporal Reasoning 基于时间参考推断 ~15%
4 Knowledge Updates 处理更新/矛盾的用户信息 ~20%
5 Abstention 识别不可回答的问题(不幻想) ~15%

两个标准规模

设置 规模 现象
LongMemEval S ~115k tokens 长上下文 LLM 准确度下降 30-60%
LongMemEval M 500 sessions, ~1.5M tokens 极大规模;商业系统仅 30-70%

历史长度可自由扩展:"needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。

与已有基准的差异

已有基准 缺失的能力
MemoryBank 跨会话推理、时间推理
LoCoMo 助手侧信息回忆、知识更新
PerLTQA 时间推理、遗忘识别
所有已有基准 Abstention(不可回答的识别)

设计亮点

  • 任务型对话 + 闲聊混合:反映真实使用场景——长上下文输入 + 长形式回复
  • 可自由扩展长度:不是固定数据集,是可以无限增长的历史
  • 时间戳标注:每个会话有明确时间戳,使时间推理成为可能
  • Abstention 题:模型必须学会说"我不知道"——记忆系统不仅是"找到",更是"知道何时放弃"

参考