62 lines
2.3 KiB
Markdown
62 lines
2.3 KiB
Markdown
---
|
||
title: "LongMemEval Benchmark"
|
||
created: 2026-06-25
|
||
updated: 2026-06-25
|
||
type: concept
|
||
tags: ["benchmark", "memory", "evaluation", "chat-assistant"]
|
||
sources:
|
||
- "[[longmem-eval-2025]]"
|
||
---
|
||
|
||
# LongMemEval Benchmark
|
||
|
||
LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准,包含 500 道手工创建的问题,覆盖 5 种核心记忆能力。
|
||
|
||
## 问题形式化
|
||
|
||
每个评测实例:**(S, q, t_q, a)**
|
||
|
||
- **S** = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]:N 个按时间排序的历史会话
|
||
- 每个 S_i 是用户-助手的多轮交互(含任务型对话)
|
||
- **q**:问题,**t_q**:提问时间戳,**a**:答案
|
||
|
||
## 五种记忆能力
|
||
|
||
| # | 能力 | 挑战 | 占比 |
|
||
|---|------|------|------|
|
||
| 1 | **Information Extraction** | 从多轮对话中提取隐藏信息 | ~30% |
|
||
| 2 | **Multi-Session Reasoning** | 跨多个独立会话综合信息 | ~20% |
|
||
| 3 | **Temporal Reasoning** | 基于时间参考推断 | ~15% |
|
||
| 4 | **Knowledge Updates** | 处理更新/矛盾的用户信息 | ~20% |
|
||
| 5 | **Abstention** | 识别不可回答的问题(不幻想) | ~15% |
|
||
|
||
## 两个标准规模
|
||
|
||
| 设置 | 规模 | 现象 |
|
||
|------|------|------|
|
||
| LongMemEval **S** | ~115k tokens | 长上下文 LLM 准确度下降 30-60% |
|
||
| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模;商业系统仅 30-70% |
|
||
|
||
历史长度可自由扩展:"needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。
|
||
|
||
## 与已有基准的差异
|
||
|
||
| 已有基准 | 缺失的能力 |
|
||
|---------|----------|
|
||
| MemoryBank | 跨会话推理、时间推理 |
|
||
| LoCoMo | 助手侧信息回忆、知识更新 |
|
||
| PerLTQA | 时间推理、遗忘识别 |
|
||
| 所有已有基准 | **Abstention**(不可回答的识别)|
|
||
|
||
## 设计亮点
|
||
|
||
- **任务型对话 + 闲聊混合**:反映真实使用场景——长上下文输入 + 长形式回复
|
||
- **可自由扩展长度**:不是固定数据集,是可以无限增长的历史
|
||
- **时间戳标注**:每个会话有明确时间戳,使时间推理成为可能
|
||
- **Abstention 题**:模型必须学会说"我不知道"——记忆系统不仅是"找到",更是"知道何时放弃"
|
||
|
||
## 参考
|
||
- [[longmem-eval-2025]]
|
||
- [[long-term-interactive-memory]]
|
||
- [[memory-indexing-retrieval-reading]]
|