20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/longmem-eval.md
+++ b/concepts/longmem-eval.md
@@ -0,0 +1,61 @@
+---
+title: "LongMemEval Benchmark"
+created: 2026-06-25
+updated: 2026-06-25
+type: concept
+tags: ["benchmark", "memory", "evaluation", "chat-assistant"]
+sources:
+  - "[[longmem-eval-2025]]"
+---
+
+# LongMemEval Benchmark
+
+LongMemEval (ICLR 2025) 是首个系统性评测聊天助手长期交互记忆能力的综合基准，包含 500 道手工创建的问题，覆盖 5 种核心记忆能力。
+
+## 问题形式化
+
+每个评测实例：**(S, q, t_q, a)**
+
+- **S** = [(t₁, S₁), (t₂, S₂), ..., (t_N, S_N)]：N 个按时间排序的历史会话
+- 每个 S_i 是用户-助手的多轮交互（含任务型对话）
+- **q**：问题，**t_q**：提问时间戳，**a**：答案
+
+## 五种记忆能力
+
+| # | 能力 | 挑战 | 占比 |
+|---|------|------|------|
+| 1 | **Information Extraction** | 从多轮对话中提取隐藏信息 | ~30% |
+| 2 | **Multi-Session Reasoning** | 跨多个独立会话综合信息 | ~20% |
+| 3 | **Temporal Reasoning** | 基于时间参考推断 | ~15% |
+| 4 | **Knowledge Updates** | 处理更新/矛盾的用户信息 | ~20% |
+| 5 | **Abstention** | 识别不可回答的问题（不幻想） | ~15% |
+
+## 两个标准规模
+
+| 设置 | 规模 | 现象 |
+|------|------|------|
+| LongMemEval **S** | ~115k tokens | 长上下文 LLM 准确度下降 30-60% |
+| LongMemEval **M** | 500 sessions, ~1.5M tokens | 极大规模；商业系统仅 30-70% |
+
+历史长度可自由扩展："needle-in-a-haystack" 风格——信息隐藏在可自由增长的对话历史中。
+
+## 与已有基准的差异
+
+| 已有基准 | 缺失的能力 |
+|---------|----------|
+| MemoryBank | 跨会话推理、时间推理 |
+| LoCoMo | 助手侧信息回忆、知识更新 |
+| PerLTQA | 时间推理、遗忘识别 |
+| 所有已有基准 | **Abstention**（不可回答的识别）|
+
+## 设计亮点
+
+- **任务型对话 + 闲聊混合**：反映真实使用场景——长上下文输入 + 长形式回复
+- **可自由扩展长度**：不是固定数据集，是可以无限增长的历史
+- **时间戳标注**：每个会话有明确时间戳，使时间推理成为可能
+- **Abstention 题**：模型必须学会说"我不知道"——记忆系统不仅是"找到"，更是"知道何时放弃"
+
+## 参考
+- [[longmem-eval-2025]]
+- [[long-term-interactive-memory]]
+- [[memory-indexing-retrieval-reading]]