Files
myWiki/concepts/longmem-eval.md

62 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LongMemEval Benchmark"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: ["benchmark", "memory", "evaluation", "chat-assistant"]
sources:
- "[[longmem-eval-2025]]"
---
# LongMemEval Benchmark
LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准,包含 500 道手工创建的问题,覆盖 5 种核心记忆能力。
## 问题形式化
每个评测实例:**(S, q, t_q, a)**
- **S** = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]N 个按时间排序的历史会话
- 每个 S_i 是用户-助手的多轮交互(含任务型对话)
- **q**:问题,**t_q**:提问时间戳,**a**:答案
## 五种记忆能力
| # | 能力 | 挑战 | 占比 |
|---|------|------|------|
| 1 | **Information Extraction** | 从多轮对话中提取隐藏信息 | ~30% |
| 2 | **Multi-Session Reasoning** | 跨多个独立会话综合信息 | ~20% |
| 3 | **Temporal Reasoning** | 基于时间参考推断 | ~15% |
| 4 | **Knowledge Updates** | 处理更新/矛盾的用户信息 | ~20% |
| 5 | **Abstention** | 识别不可回答的问题(不幻想) | ~15% |
## 两个标准规模
| 设置 | 规模 | 现象 |
|------|------|------|
| LongMemEval **S** | ~115k tokens | 长上下文 LLM 准确度下降 30-60% |
| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模;商业系统仅 30-70% |
历史长度可自由扩展:"needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。
## 与已有基准的差异
| 已有基准 | 缺失的能力 |
|---------|----------|
| MemoryBank | 跨会话推理、时间推理 |
| LoCoMo | 助手侧信息回忆、知识更新 |
| PerLTQA | 时间推理、遗忘识别 |
| 所有已有基准 | **Abstention**(不可回答的识别)|
## 设计亮点
- **任务型对话 + 闲聊混合**:反映真实使用场景——长上下文输入 + 长形式回复
- **可自由扩展长度**:不是固定数据集,是可以无限增长的历史
- **时间戳标注**:每个会话有明确时间戳,使时间推理成为可能
- **Abstention 题**:模型必须学会说"我不知道"——记忆系统不仅是"找到",更是"知道何时放弃"
## 参考
- [[longmem-eval-2025]]
- [[long-term-interactive-memory]]
- [[memory-indexing-retrieval-reading]]