20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/raw/articles/atlas-agent-memory-architecture-2026.md
+++ b/raw/articles/atlas-agent-memory-architecture-2026.md
@@ -0,0 +1,61 @@
+---
+title: "Atlas Agent 记忆架构：三索引 + 混合召回 + 写后提炼"
+author: "Atlas Memory System (基于 noamschwartz/atlas-memory-demo)"
+source: "微信公众号"
+date: "2026"
+type: article
+tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation", "bias"]
+---
+
+# Atlas Agent 记忆系统架构全解析
+
+> 深度工程实践：Agent 记忆不是 KV 存储问题，是多索引信息检索问题。
+
+## 核心论点
+
+`chat_history.append()` 不是记忆系统——那是日志文件。真正的挑战：在三索引（episodic/semantic/procedural）+ catalog 四种不同生命周期的信息中，用对的衰减曲线和互补的检索通道，在查询瞬间找到对的那几条。
+
+## Atlas 架构
+
+### 三索引 + 公共
+| 索引 | 内容 | 衰减源 | 写入频率 |
+|------|------|--------|---------|
+| episodic | 原始消息+时间戳 | timestamp | 每回合 |
+| semantic | 提炼后稳定事实 | last_used_at | consolidation |
+| procedural | 多步操作流程 | 豁免(1.0) | consolidation |
+| catalog | 公共共享知识 | timestamp | 手动 |
+
+### 检索管线
+1. Verbatim Pre-Recall — 用户原话，不经 LLM 改写
+2. BM25 + Dense 双通路并行 → RRF 融合 (rank_constant=30)
+3. Cross-encoder 重排序 (Jina v2, top-80→top-K)
+4. Reranker 失败降级为 RRF 顺序
+
+### Ablation 数据
+- **Full**: R@10=0.89
+- **Dense-only**: 0.845
+- **BM25-only**: 0.708
+- **No-Reranker**: -0.238
+
+### 五条代码链路
+- write_memory (refresh=True 保证同轮可见)
+- recall_memory (混合检索+reranker)
+- Verbatim Pre-Recall (绕过 LLM 改写层)
+- Consolidation (episodic→semantic/procedural)
+- Soft-Supersession (非破坏矛盾处理)
+
+## 三个通用设计原则
+
+1. **衰减曲线是领域性决策**—先定义信息有效周期，再定衰减参数
+2. **BM25+vector 互补**—BM25 抓精确 token，dense 抓语义意图，不可互相替代
+3. **记忆需要后台提炼+矛盾处理**—consolidation 转化事件为事实，supersession 提供非破坏性更新
+
+## 与 GBrain 的对比
+
+| 维度 | Atlas | GBrain |
+|------|-------|--------|
+| 存储 | ES 搜索引擎 | Markdown+Git |
+| 多租户 | ES DLS (集群层) | 应用层 auth |
+| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
+| 衰减 | Per-index gauss | 无显式衰减 |
+| 调试透明度 | 仅通过 API | 直接打开文件 |
--- a/raw/articles/financial-llm-practice-2026.md
+++ b/raw/articles/financial-llm-practice-2026.md
@@ -0,0 +1,49 @@
+---
+title: "金融行业大模型落地实践：从长文档检索到 Agent 工程"
+author: "林金曙（恒生电子研究院 AI 首席技术专家）"
+source: "DataFun / DAcon 上海站 2026"
+date: "2026"
+type: "article"
+tags: ["financial-llm", "agent", "rag", "pageindex", "mcp", "context-engineering"]
+---
+
+# 金融行业大模型落地实践：从长文档检索到 Agent 工程
+
+> 林金曙，恒生电子研究院 AI 首席技术专家，DAcon 上海站 2026
+> 编辑整理：韩珊珊 | 出品社区：DataFun
+
+## 摘要
+
+系统梳理了金融行业落地大模型的三重挑战（合规刚性、数据安全、业务严谨性），基于恒生电子在券商、基金、银行等机构的实际项目经验，重点分享了 PageIndex 长文档检索方案、Agentic RAG 架构、金融场景"好需求"定义方法、大模型选型教训（Qwen3-32B vs Qwen3-235B）、上下文工程实践，以及 Agent 从工具调用到自主规划的探索。
+
+## 核心内容
+
+### 1. 金融行业的三重约束
+- **合规**：每段生成内容可溯源、结果需人工确认
+- **安全**：私有化部署、数据不出域
+- **严谨**：私域数据与业务系统无缝挂接，数据质量优先于模型能力
+
+### 2. 场景案例
+- **机构运营**：200+ 件材料办理流程 → 自然语言意图转译为系统操作序列
+- **投顾理财**：保险条款合规判断（RAG 只解决"看懂"，业务闭环需调用系统接口）
+- **托管运营**：信披报告自动审核（净值、勾稽关系等规则自动化）
+- **投行**：蜜雪冰城 1300 页招股书 → PageIndex 方案
+
+### 3. 核心工程实践
+- **PageIndex**：利用文档目录结构建立"章节名↔页码范围"映射，将检索从 300 页压缩到 3 页
+- **Agentic RAG**：任务拆解为子问题，动态调用 PageIndex/BM25/向量检索，自我评估信息充分性
+- **无向量检索**：金融查询大量精确匹配（代码、专有名词、数字），BM25 优于向量检索
+- **好需求三要素**：在哪里看（限定章节）、看什么（业务语言）、怎么判（SOP 可执行条件）
+- **选型教训**：Qwen3-32B → 530 条规则/4300 行代码/三人离职；Qwen3-235B → 规则砍半，准确率 +45pp
+- **上下文工程**：prompt 从 24K token 压缩到 3K，180 个财务指标按需拼入
+
+### 4. Agent 探索
+- OpenClaw 在金融场景的四短板：权限模糊、审计不足、插件无管控、幻觉无兜底
+- Skill 原子化 + MCP 协议接入
+- 接口大模型友好改造（业务语义、时间标签、功能说明）
+
+### 5. 核心观点
+- "不卷织布速，卷机器驾驭力"
+- "交付乐高式 Skills，交付拼好的乐高小车"
+- "从代码生产者转身业务审核员"
+- "弃大脑之争，筑神经之基"
--- a/raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md
+++ b/raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md
@@ -0,0 +1,41 @@
+---
+title: "大模型沉默螺旋：当算法催生数字从众"
+author: 李媛媛
+source: 数据派THU (DatapiTHU)
+date: 2026
+url: https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
+type: article
+tags:
+  - spiral-of-silence
+  - llm
+  - rag
+  - multi-agent
+  - rlhf
+  - content-ecology
+---
+
+## 摘要
+
+本文系统梳理了大模型沉默螺旋（LLM Spiral of Silence）现象：LLM 无需人类心理动机，仅依靠底层统计生成机制就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应。文章从经典传播学理论迁移出发，剖析了 RAG 闭环迭代与多智能体交互两大实证场景，拆解了四大技术根源（预训练统计偏好、历史上下文锚定、角色设定固化、RLHF 对齐放大），并提出技术-机制-研究三维治理方案。
+
+## 核心主张
+
+- LLM 沉默螺旋是**所有主流大模型的通用系统性问题**（GPT、Llama、通义千问、DeepSeek 等），仅存在效应强弱差异
+- 无需人类心理动机，纯统计语言生成机制即可自发形成
+- AI 沉默螺旋比人类社会更隐蔽、迭代更快、压制更强
+- 小模型、中文模型、RLHF 对齐后模型的沉默螺旋效应更显著
+
+## 关键实验发现
+
+1. **RAG 闭环**：5 轮迭代后人类原创内容占比从 50% 暴跌至 15% 以下，搜索引擎算法天然偏好 AI 生成文本
+2. **多智能体交互**：历史上下文 + 角色设定叠加时，主流观点占比突破 80%，小众观点被完全压制
+3. **模型差异**：小参数模型 > 大参数模型；中文模型 > 英文模型
+
+## 参考文献
+
+[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
+[2] arXiv 2025. Spiral of Silence in Large Language Model Agents
+[3] Noelle-Neumann E. The Spiral of Silence: Public Opinion—Our Social Skin, 1984.
+[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
+[5] Knowledge-Based Systems 2026. Quantifying and mitigating the spiral of silence in recommender systems
+[6] 周葆华. 网络舆论过程与动态演化:基于计算传播研究的分析[J]. 西北师大学报, 2019.
--- a/raw/articles/memtensor-memos-agent-memory-2026.md
+++ b/raw/articles/memtensor-memos-agent-memory-2026.md
@@ -0,0 +1,63 @@
+---
+title: "MemOS：Agent 记忆系统从效率工具到生存关键"
+created: 2026-06-19
+updated: 2026-06-19
+type: article-raw
+source: https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
+speaker: 熊飞宇
+company: 记忆张量（MemTensor）
+publisher: DataFun
+---
+
+# MemOS：Agent 记忆系统从效率工具到生存关键
+
+**分享嘉宾**：熊飞宇，记忆张量（上海）科技有限公司创始人兼CEO，上海算法创新研究院大模型中心负责人
+**出品社区**：DataFun
+
+## 核心观点
+
+记忆（Memory）正在成为 AI Agent 最大的短板。ChatGPT 上线个人记忆功能 + OpenClaw 连续型 Agent 出现后，行业形成共识：记忆不再是锦上添花，而是 Agent 能否持续进化的核心要素。
+
+## 内容概要
+
+### 1. 记忆演进：从效率工具到生死关键
+- ChatGPT 记忆功能：个性化理解是 AGI 时代的关键
+- OpenClaw 出现：缺乏良好记忆系统，长程 Agent 任务无法顺利执行
+- 从 single-session → multi-session/multi-user/multi-agent/multi-apps，复杂度指数增长
+
+### 2. 两条技术路径
+- **模型驱动**：Memorizing Transformers 等架构创新，成本极高，失败风险大
+- **应用驱动**：Prompt/Agent 流模拟记忆（Mem0, Zep），轻量但结合不紧密
+- **MemTensor 做法**：融合两条路径——模型驱动决定上限，应用驱动决定下限
+
+### 3. MemOS 五层架构
+- 记忆存储层：MemCube（最小记忆单元）+ MemStore（可交易记忆市场）
+- 记忆治理层：权限管理、生命周期、水印、隐私
+- 记忆调度层：核心——明文记忆、激活记忆、参数记忆三层协同
+- 编解码层 + 应用层
+
+### 4. 三层记忆协同
+- **明文记忆**（Explicit）：Prompt/Agent 流处理，业界主流
+- **激活记忆**（Activation）：KV Cache 管理，优化缓存命中率和 token 消耗
+- **参数记忆**（Parameter）：行业 know-how 通过后训练注入大模型
+
+### 5. 平台规模
+- GitHub 8.5K Star，社区 1.2 万+ 活跃用户
+- 云服务单月调用量 2500 万+，月涨幅 100-200%
+- 单次请求节省 45-72% token
+
+### 6. MemOS 增强 OpenClaw（六大维度）
+- 存储类型、检索（多路召回/时间衰减/去重）、进化（Mem2Skill）、可视化、协作（Hub）
+- 三级去重漏斗：SHA-256 → 向量余弦相似度 → LLM Judge
+- 平均压缩比 75%+，token 消耗降低近 50%
+- 核心创新 Mem2Skill：记忆不止于被搜到，而是内化为能力
+
+### 7. ClawForce 企业产品
+- 解决五痛点：部署难、经验散、响应遗漏、场景受限、数据不可追溯
+- 五层设计：智能中枢 + 记忆层 + Skill 引擎 + 事件监听 + 工具链接
+- 三重安全：事前隔离 → 事中脱敏加密 → 事后审计
+- 场景：研发全链路自动化、电商 7×24 监控、公文写作（-85% 耗时）、销售（客户触达翻倍）
+
+### 8. 一体机方案
+- NVIDIA DGX 一体机（128G 显存 + 内存共享）
+- 中国电信国产算力方案
--- a/raw/articles/michael-jordan-mlst-collectivist-ai-2026.md
+++ b/raw/articles/michael-jordan-mlst-collectivist-ai-2026.md
@@ -0,0 +1,64 @@
+---
+title: "Michael I. Jordan 论 AI 的集体主义经济学（MLST 访谈）"
+author: Michael I. Jordan (受访), Tim Scarfe (主持)
+source: 机器之心编译, MLST (Machine Learning Street Talk)
+date: 2026
+url: https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
+original: https://www.youtube.com/watch?v=AREWYbVtX64
+paper: https://arxiv.org/pdf/2507.06268
+type: article
+tags:
+  - michael-jordan
+  - ai-economics
+  - collectivist-ai
+  - uncertainty
+  - agi-critique
+---
+
+## 摘要
+
+Michael I. Jordan（统计机器学习奠基人，门下走出 Andrew Ng、Yoshua Bengio 等）在 MLST 访谈中围绕论文《AI 的集体主义经济学视角》展开深度对话。核心论点：当前 AI 叙事被个体认知隐喻主导（大脑即计算机），忽略了智能的社会性、经济性和不确定性；需要引入经济学与社会科学构建完整的智能系统框架；AGI 是公关词，超级智能 vs 人类灭绝是虚假二元——两极之间有无数的积极可能性。
+
+## Michael I. Jordan 背景
+
+- 加州大学伯克利分校 EECS + 统计系杰出教授，Inria 巴黎研究员
+- 2016 年《科学》杂志「全球最具影响力计算机科学家」
+- 学生：Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等
+- 领域：图模型、变分推断、贝叶斯非参数方法
+
+## 核心观点
+
+### 1. AGI 是公关词
+
+「AGI 只是个公关词。它是一种扭曲。」AI 术语回归（伴随 LLM 兴起）对研究路径和商业模式产生扭曲效应。真正的机器学习传统（决策树、逻辑回归、供应链预测）一直存在且影响更大，但因为没有"人类可读输出"而被忽视。
+
+### 2. AI 需要经济学——集体主义框架
+
+主流 AI 思维的根本缺陷：**将智能窄化为个体认知**（大脑隐喻 → 神经元 → 梯度下降），忽略了人是社会动物。框架落在一个三角形上：
+- [[collectivist-ai|CS + 统计学 + 经济学]]
+
+「只有计算加优化，你就只能得到语言模型。把统计和经济思维加进来，才开始有完整的系统性思考。」
+
+### 3. 停止人类化机器
+
+不要问"它是否理解"——要问：能不能降低不确定性、能不能让工程系统建立在它之上、能不能让计划成为可能。[[anthropomorphization-critique|人类化机器]]系统性地转移了注意力，让人忘记真正重要的工程问题：失效条件、误差范围、与真实数据的结合、谁来承担出错的后果。
+
+### 4. 基础模型在知识边界最危险
+
+[[foundation-model-frontier-bias|基础模型前沿偏倚]]：科学家感兴趣的是知识边界上的新问题，而基础模型恰恰在那里训练数据最稀少、偏倚最大。AlphaFold 案例——量子涨落预测的置信区间极窄但完全偏离真实值。解决方案：[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注数据与大量模型预测。
+
+### 5. 超级智能 vs 人类灭绝是虚假二元
+
+「那种思想领袖分成两队，一队冲向乌托邦，一队冲向末日——在人类历史上这种程度的现实脱节是非常罕见的。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有无数积极的事情可以做。
+
+## Jordan 的不确定性三分法
+
+[[uncertainty-taxonomy|不确定性分类法]]（超越经典 epistemic/aleatoric 二分）：
+1. **采样不确定性**——数据是否足够？但在社会语境中需按纳什均衡处理（鸭子比喻）
+2. **信息不对称**——结构性不透明，不会消失（经济学范畴）
+3. **数据时效性（providence）**——数据的时间元数据应定量纳入不确定性计算
+
+## 参考文献
+
+- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268.
+- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64
--- a/raw/articles/nobrega-ai-production-tradeoffs-2026.md
+++ b/raw/articles/nobrega-ai-production-tradeoffs-2026.md
@@ -0,0 +1,62 @@
+---
+title: "Six Choices Every AI Engineer Has to Make (and Nobody Teaches)"
+created: 2026-06-19
+updated: 2026-06-19
+type: article-raw
+source: https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
+wechat: https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
+translator: 陈超
+publisher: 数据派THU
+---
+
+# Six Choices Every AI Engineer Has to Make (and Nobody Teaches)
+
+**作者**：Sara Nobrega
+**翻译**：陈超（北京大学应用心理硕士）
+**发布**：数据派THU（DatapiTHU）
+**原文**：Towards Data Science
+
+## 核心主题
+
+AI 生产中 6 种关键权衡，都有最新研究支持。
+
+## 6 种权衡
+
+### 1. 构建 vs 购买（Build vs Buy）
+- 三个选择：调用 API、微调开源模型、自建托管
+- 日请求 < 10 万 → API（GPT-4o Mini）
+- 日请求 > 100 万 → 自建（但注意：人力占成本的 70-80%，GPU 只占 20-30%）
+- 团队平均超出 LLM 预算 340%，主因是缺少使用跟踪和成本归属
+
+### 2. 模型复杂度 vs 可维护性
+- CACE 原理：Change Anything Changes Everything (Sculley et al., 2015)
+- 数据依赖比代码依赖更昂贵
+- 为 2% 精度提升选择更复杂模型 → 支付 18 个月调试税
+
+### 3. 数据数量 vs 数据质量
+- 超过噪声阈值，更多低质量数据会降低性能
+- "数据沼泽"问题：存储便宜 → 什么都存 → 清理成本爆炸
+- 医疗 AI：专家标注小数据集 > 不可靠标注大数据集
+
+### 4. 吞吐量 vs 延迟（批处理 vs 实时）
+- 批处理：按时生成预测，低成本，简单，预测可能过时
+- 实时：按需，毫秒级，昂贵，24/7 运维
+- 大多数业务问题不需要亚秒级预测
+
+### 5. 提示词工程 vs 微调
+- 提示词工程：快、便宜、灵活，但脆弱
+- 微调：昂贵（GPT-4o 客户支持约 $1万 + 6 周），但规模化可靠
+- DSPy 提示优化在部分基准上超微调 6-19 个百分点
+- 混合模式兴起：微调解决风格/基调 + RAG 作事实基础
+
+### 6. 自动化 vs 人类监督（HITL）
+- 完全人工审查无法规模化
+- 选择性 HITL：只在边缘案例、低置信度、高风险决策时触发人工
+- AI 处理规模/速度/模式识别，人类处理不可逆性
+- 医疗/金融/法律领域，HITL 通常是合规要求
+
+## 核心原则
+
+> 在生产中，决策的成本很少在决策做出的地方产生回报。
+
+复杂度的代价延迟偿付——更复杂的模型在 6 个月后增加维护成本，实时系统的 24/7 基础设施支撑长期代价更高，大规模脏数据在重训练周期上付出代价。