20260625:很多新内容
This commit is contained in:
61
raw/articles/atlas-agent-memory-architecture-2026.md
Normal file
61
raw/articles/atlas-agent-memory-architecture-2026.md
Normal file
@@ -0,0 +1,61 @@
|
||||
---
|
||||
title: "Atlas Agent 记忆架构:三索引 + 混合召回 + 写后提炼"
|
||||
author: "Atlas Memory System (基于 noamschwartz/atlas-memory-demo)"
|
||||
source: "微信公众号"
|
||||
date: "2026"
|
||||
type: article
|
||||
tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation", "bias"]
|
||||
---
|
||||
|
||||
# Atlas Agent 记忆系统架构全解析
|
||||
|
||||
> 深度工程实践:Agent 记忆不是 KV 存储问题,是多索引信息检索问题。
|
||||
|
||||
## 核心论点
|
||||
|
||||
`chat_history.append()` 不是记忆系统——那是日志文件。真正的挑战:在三索引(episodic/semantic/procedural)+ catalog 四种不同生命周期的信息中,用对的衰减曲线和互补的检索通道,在查询瞬间找到对的那几条。
|
||||
|
||||
## Atlas 架构
|
||||
|
||||
### 三索引 + 公共
|
||||
| 索引 | 内容 | 衰减源 | 写入频率 |
|
||||
|------|------|--------|---------|
|
||||
| episodic | 原始消息+时间戳 | timestamp | 每回合 |
|
||||
| semantic | 提炼后稳定事实 | last_used_at | consolidation |
|
||||
| procedural | 多步操作流程 | 豁免(1.0) | consolidation |
|
||||
| catalog | 公共共享知识 | timestamp | 手动 |
|
||||
|
||||
### 检索管线
|
||||
1. Verbatim Pre-Recall — 用户原话,不经 LLM 改写
|
||||
2. BM25 + Dense 双通路并行 → RRF 融合 (rank_constant=30)
|
||||
3. Cross-encoder 重排序 (Jina v2, top-80→top-K)
|
||||
4. Reranker 失败降级为 RRF 顺序
|
||||
|
||||
### Ablation 数据
|
||||
- **Full**: R@10=0.89
|
||||
- **Dense-only**: 0.845
|
||||
- **BM25-only**: 0.708
|
||||
- **No-Reranker**: -0.238
|
||||
|
||||
### 五条代码链路
|
||||
- write_memory (refresh=True 保证同轮可见)
|
||||
- recall_memory (混合检索+reranker)
|
||||
- Verbatim Pre-Recall (绕过 LLM 改写层)
|
||||
- Consolidation (episodic→semantic/procedural)
|
||||
- Soft-Supersession (非破坏矛盾处理)
|
||||
|
||||
## 三个通用设计原则
|
||||
|
||||
1. **衰减曲线是领域性决策**—先定义信息有效周期,再定衰减参数
|
||||
2. **BM25+vector 互补**—BM25 抓精确 token,dense 抓语义意图,不可互相替代
|
||||
3. **记忆需要后台提炼+矛盾处理**—consolidation 转化事件为事实,supersession 提供非破坏性更新
|
||||
|
||||
## 与 GBrain 的对比
|
||||
|
||||
| 维度 | Atlas | GBrain |
|
||||
|------|-------|--------|
|
||||
| 存储 | ES 搜索引擎 | Markdown+Git |
|
||||
| 多租户 | ES DLS (集群层) | 应用层 auth |
|
||||
| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
|
||||
| 衰减 | Per-index gauss | 无显式衰减 |
|
||||
| 调试透明度 | 仅通过 API | 直接打开文件 |
|
||||
49
raw/articles/financial-llm-practice-2026.md
Normal file
49
raw/articles/financial-llm-practice-2026.md
Normal file
@@ -0,0 +1,49 @@
|
||||
---
|
||||
title: "金融行业大模型落地实践:从长文档检索到 Agent 工程"
|
||||
author: "林金曙(恒生电子研究院 AI 首席技术专家)"
|
||||
source: "DataFun / DAcon 上海站 2026"
|
||||
date: "2026"
|
||||
type: "article"
|
||||
tags: ["financial-llm", "agent", "rag", "pageindex", "mcp", "context-engineering"]
|
||||
---
|
||||
|
||||
# 金融行业大模型落地实践:从长文档检索到 Agent 工程
|
||||
|
||||
> 林金曙,恒生电子研究院 AI 首席技术专家,DAcon 上海站 2026
|
||||
> 编辑整理:韩珊珊 | 出品社区:DataFun
|
||||
|
||||
## 摘要
|
||||
|
||||
系统梳理了金融行业落地大模型的三重挑战(合规刚性、数据安全、业务严谨性),基于恒生电子在券商、基金、银行等机构的实际项目经验,重点分享了 PageIndex 长文档检索方案、Agentic RAG 架构、金融场景"好需求"定义方法、大模型选型教训(Qwen3-32B vs Qwen3-235B)、上下文工程实践,以及 Agent 从工具调用到自主规划的探索。
|
||||
|
||||
## 核心内容
|
||||
|
||||
### 1. 金融行业的三重约束
|
||||
- **合规**:每段生成内容可溯源、结果需人工确认
|
||||
- **安全**:私有化部署、数据不出域
|
||||
- **严谨**:私域数据与业务系统无缝挂接,数据质量优先于模型能力
|
||||
|
||||
### 2. 场景案例
|
||||
- **机构运营**:200+ 件材料办理流程 → 自然语言意图转译为系统操作序列
|
||||
- **投顾理财**:保险条款合规判断(RAG 只解决"看懂",业务闭环需调用系统接口)
|
||||
- **托管运营**:信披报告自动审核(净值、勾稽关系等规则自动化)
|
||||
- **投行**:蜜雪冰城 1300 页招股书 → PageIndex 方案
|
||||
|
||||
### 3. 核心工程实践
|
||||
- **PageIndex**:利用文档目录结构建立"章节名↔页码范围"映射,将检索从 300 页压缩到 3 页
|
||||
- **Agentic RAG**:任务拆解为子问题,动态调用 PageIndex/BM25/向量检索,自我评估信息充分性
|
||||
- **无向量检索**:金融查询大量精确匹配(代码、专有名词、数字),BM25 优于向量检索
|
||||
- **好需求三要素**:在哪里看(限定章节)、看什么(业务语言)、怎么判(SOP 可执行条件)
|
||||
- **选型教训**:Qwen3-32B → 530 条规则/4300 行代码/三人离职;Qwen3-235B → 规则砍半,准确率 +45pp
|
||||
- **上下文工程**:prompt 从 24K token 压缩到 3K,180 个财务指标按需拼入
|
||||
|
||||
### 4. Agent 探索
|
||||
- OpenClaw 在金融场景的四短板:权限模糊、审计不足、插件无管控、幻觉无兜底
|
||||
- Skill 原子化 + MCP 协议接入
|
||||
- 接口大模型友好改造(业务语义、时间标签、功能说明)
|
||||
|
||||
### 5. 核心观点
|
||||
- "不卷织布速,卷机器驾驭力"
|
||||
- "交付乐高式 Skills,交付拼好的乐高小车"
|
||||
- "从代码生产者转身业务审核员"
|
||||
- "弃大脑之争,筑神经之基"
|
||||
41
raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md
Normal file
41
raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "大模型沉默螺旋:当算法催生数字从众"
|
||||
author: 李媛媛
|
||||
source: 数据派THU (DatapiTHU)
|
||||
date: 2026
|
||||
url: https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
|
||||
type: article
|
||||
tags:
|
||||
- spiral-of-silence
|
||||
- llm
|
||||
- rag
|
||||
- multi-agent
|
||||
- rlhf
|
||||
- content-ecology
|
||||
---
|
||||
|
||||
## 摘要
|
||||
|
||||
本文系统梳理了大模型沉默螺旋(LLM Spiral of Silence)现象:LLM 无需人类心理动机,仅依靠底层统计生成机制就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应。文章从经典传播学理论迁移出发,剖析了 RAG 闭环迭代与多智能体交互两大实证场景,拆解了四大技术根源(预训练统计偏好、历史上下文锚定、角色设定固化、RLHF 对齐放大),并提出技术-机制-研究三维治理方案。
|
||||
|
||||
## 核心主张
|
||||
|
||||
- LLM 沉默螺旋是**所有主流大模型的通用系统性问题**(GPT、Llama、通义千问、DeepSeek 等),仅存在效应强弱差异
|
||||
- 无需人类心理动机,纯统计语言生成机制即可自发形成
|
||||
- AI 沉默螺旋比人类社会更隐蔽、迭代更快、压制更强
|
||||
- 小模型、中文模型、RLHF 对齐后模型的沉默螺旋效应更显著
|
||||
|
||||
## 关键实验发现
|
||||
|
||||
1. **RAG 闭环**:5 轮迭代后人类原创内容占比从 50% 暴跌至 15% 以下,搜索引擎算法天然偏好 AI 生成文本
|
||||
2. **多智能体交互**:历史上下文 + 角色设定叠加时,主流观点占比突破 80%,小众观点被完全压制
|
||||
3. **模型差异**:小参数模型 > 大参数模型;中文模型 > 英文模型
|
||||
|
||||
## 参考文献
|
||||
|
||||
[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
|
||||
[2] arXiv 2025. Spiral of Silence in Large Language Model Agents
|
||||
[3] Noelle-Neumann E. The Spiral of Silence: Public Opinion—Our Social Skin, 1984.
|
||||
[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
|
||||
[5] Knowledge-Based Systems 2026. Quantifying and mitigating the spiral of silence in recommender systems
|
||||
[6] 周葆华. 网络舆论过程与动态演化:基于计算传播研究的分析[J]. 西北师大学报, 2019.
|
||||
63
raw/articles/memtensor-memos-agent-memory-2026.md
Normal file
63
raw/articles/memtensor-memos-agent-memory-2026.md
Normal file
@@ -0,0 +1,63 @@
|
||||
---
|
||||
title: "MemOS:Agent 记忆系统从效率工具到生存关键"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: article-raw
|
||||
source: https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||
speaker: 熊飞宇
|
||||
company: 记忆张量(MemTensor)
|
||||
publisher: DataFun
|
||||
---
|
||||
|
||||
# MemOS:Agent 记忆系统从效率工具到生存关键
|
||||
|
||||
**分享嘉宾**:熊飞宇,记忆张量(上海)科技有限公司创始人兼CEO,上海算法创新研究院大模型中心负责人
|
||||
**出品社区**:DataFun
|
||||
|
||||
## 核心观点
|
||||
|
||||
记忆(Memory)正在成为 AI Agent 最大的短板。ChatGPT 上线个人记忆功能 + OpenClaw 连续型 Agent 出现后,行业形成共识:记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。
|
||||
|
||||
## 内容概要
|
||||
|
||||
### 1. 记忆演进:从效率工具到生死关键
|
||||
- ChatGPT 记忆功能:个性化理解是 AGI 时代的关键
|
||||
- OpenClaw 出现:缺乏良好记忆系统,长程 Agent 任务无法顺利执行
|
||||
- 从 single-session → multi-session/multi-user/multi-agent/multi-apps,复杂度指数增长
|
||||
|
||||
### 2. 两条技术路径
|
||||
- **模型驱动**:Memorizing Transformers 等架构创新,成本极高,失败风险大
|
||||
- **应用驱动**:Prompt/Agent 流模拟记忆(Mem0, Zep),轻量但结合不紧密
|
||||
- **MemTensor 做法**:融合两条路径——模型驱动决定上限,应用驱动决定下限
|
||||
|
||||
### 3. MemOS 五层架构
|
||||
- 记忆存储层:MemCube(最小记忆单元)+ MemStore(可交易记忆市场)
|
||||
- 记忆治理层:权限管理、生命周期、水印、隐私
|
||||
- 记忆调度层:核心——明文记忆、激活记忆、参数记忆三层协同
|
||||
- 编解码层 + 应用层
|
||||
|
||||
### 4. 三层记忆协同
|
||||
- **明文记忆**(Explicit):Prompt/Agent 流处理,业界主流
|
||||
- **激活记忆**(Activation):KV Cache 管理,优化缓存命中率和 token 消耗
|
||||
- **参数记忆**(Parameter):行业 know-how 通过后训练注入大模型
|
||||
|
||||
### 5. 平台规模
|
||||
- GitHub 8.5K Star,社区 1.2 万+ 活跃用户
|
||||
- 云服务单月调用量 2500 万+,月涨幅 100-200%
|
||||
- 单次请求节省 45-72% token
|
||||
|
||||
### 6. MemOS 增强 OpenClaw(六大维度)
|
||||
- 存储类型、检索(多路召回/时间衰减/去重)、进化(Mem2Skill)、可视化、协作(Hub)
|
||||
- 三级去重漏斗:SHA-256 → 向量余弦相似度 → LLM Judge
|
||||
- 平均压缩比 75%+,token 消耗降低近 50%
|
||||
- 核心创新 Mem2Skill:记忆不止于被搜到,而是内化为能力
|
||||
|
||||
### 7. ClawForce 企业产品
|
||||
- 解决五痛点:部署难、经验散、响应遗漏、场景受限、数据不可追溯
|
||||
- 五层设计:智能中枢 + 记忆层 + Skill 引擎 + 事件监听 + 工具链接
|
||||
- 三重安全:事前隔离 → 事中脱敏加密 → 事后审计
|
||||
- 场景:研发全链路自动化、电商 7×24 监控、公文写作(-85% 耗时)、销售(客户触达翻倍)
|
||||
|
||||
### 8. 一体机方案
|
||||
- NVIDIA DGX 一体机(128G 显存 + 内存共享)
|
||||
- 中国电信国产算力方案
|
||||
64
raw/articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
64
raw/articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
@@ -0,0 +1,64 @@
|
||||
---
|
||||
title: "Michael I. Jordan 论 AI 的集体主义经济学(MLST 访谈)"
|
||||
author: Michael I. Jordan (受访), Tim Scarfe (主持)
|
||||
source: 机器之心编译, MLST (Machine Learning Street Talk)
|
||||
date: 2026
|
||||
url: https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
|
||||
original: https://www.youtube.com/watch?v=AREWYbVtX64
|
||||
paper: https://arxiv.org/pdf/2507.06268
|
||||
type: article
|
||||
tags:
|
||||
- michael-jordan
|
||||
- ai-economics
|
||||
- collectivist-ai
|
||||
- uncertainty
|
||||
- agi-critique
|
||||
---
|
||||
|
||||
## 摘要
|
||||
|
||||
Michael I. Jordan(统计机器学习奠基人,门下走出 Andrew Ng、Yoshua Bengio 等)在 MLST 访谈中围绕论文《AI 的集体主义经济学视角》展开深度对话。核心论点:当前 AI 叙事被个体认知隐喻主导(大脑即计算机),忽略了智能的社会性、经济性和不确定性;需要引入经济学与社会科学构建完整的智能系统框架;AGI 是公关词,超级智能 vs 人类灭绝是虚假二元——两极之间有无数的积极可能性。
|
||||
|
||||
## Michael I. Jordan 背景
|
||||
|
||||
- 加州大学伯克利分校 EECS + 统计系杰出教授,Inria 巴黎研究员
|
||||
- 2016 年《科学》杂志「全球最具影响力计算机科学家」
|
||||
- 学生:Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等
|
||||
- 领域:图模型、变分推断、贝叶斯非参数方法
|
||||
|
||||
## 核心观点
|
||||
|
||||
### 1. AGI 是公关词
|
||||
|
||||
「AGI 只是个公关词。它是一种扭曲。」AI 术语回归(伴随 LLM 兴起)对研究路径和商业模式产生扭曲效应。真正的机器学习传统(决策树、逻辑回归、供应链预测)一直存在且影响更大,但因为没有"人类可读输出"而被忽视。
|
||||
|
||||
### 2. AI 需要经济学——集体主义框架
|
||||
|
||||
主流 AI 思维的根本缺陷:**将智能窄化为个体认知**(大脑隐喻 → 神经元 → 梯度下降),忽略了人是社会动物。框架落在一个三角形上:
|
||||
- [[collectivist-ai|CS + 统计学 + 经济学]]
|
||||
|
||||
「只有计算加优化,你就只能得到语言模型。把统计和经济思维加进来,才开始有完整的系统性思考。」
|
||||
|
||||
### 3. 停止人类化机器
|
||||
|
||||
不要问"它是否理解"——要问:能不能降低不确定性、能不能让工程系统建立在它之上、能不能让计划成为可能。[[anthropomorphization-critique|人类化机器]]系统性地转移了注意力,让人忘记真正重要的工程问题:失效条件、误差范围、与真实数据的结合、谁来承担出错的后果。
|
||||
|
||||
### 4. 基础模型在知识边界最危险
|
||||
|
||||
[[foundation-model-frontier-bias|基础模型前沿偏倚]]:科学家感兴趣的是知识边界上的新问题,而基础模型恰恰在那里训练数据最稀少、偏倚最大。AlphaFold 案例——量子涨落预测的置信区间极窄但完全偏离真实值。解决方案:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注数据与大量模型预测。
|
||||
|
||||
### 5. 超级智能 vs 人类灭绝是虚假二元
|
||||
|
||||
「那种思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种程度的现实脱节是非常罕见的。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有无数积极的事情可以做。
|
||||
|
||||
## Jordan 的不确定性三分法
|
||||
|
||||
[[uncertainty-taxonomy|不确定性分类法]](超越经典 epistemic/aleatoric 二分):
|
||||
1. **采样不确定性**——数据是否足够?但在社会语境中需按纳什均衡处理(鸭子比喻)
|
||||
2. **信息不对称**——结构性不透明,不会消失(经济学范畴)
|
||||
3. **数据时效性(providence)**——数据的时间元数据应定量纳入不确定性计算
|
||||
|
||||
## 参考文献
|
||||
|
||||
- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268.
|
||||
- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64
|
||||
62
raw/articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
62
raw/articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
@@ -0,0 +1,62 @@
|
||||
---
|
||||
title: "Six Choices Every AI Engineer Has to Make (and Nobody Teaches)"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: article-raw
|
||||
source: https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||
wechat: https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
|
||||
translator: 陈超
|
||||
publisher: 数据派THU
|
||||
---
|
||||
|
||||
# Six Choices Every AI Engineer Has to Make (and Nobody Teaches)
|
||||
|
||||
**作者**:Sara Nobrega
|
||||
**翻译**:陈超(北京大学应用心理硕士)
|
||||
**发布**:数据派THU(DatapiTHU)
|
||||
**原文**:Towards Data Science
|
||||
|
||||
## 核心主题
|
||||
|
||||
AI 生产中 6 种关键权衡,都有最新研究支持。
|
||||
|
||||
## 6 种权衡
|
||||
|
||||
### 1. 构建 vs 购买(Build vs Buy)
|
||||
- 三个选择:调用 API、微调开源模型、自建托管
|
||||
- 日请求 < 10 万 → API(GPT-4o Mini)
|
||||
- 日请求 > 100 万 → 自建(但注意:人力占成本的 70-80%,GPU 只占 20-30%)
|
||||
- 团队平均超出 LLM 预算 340%,主因是缺少使用跟踪和成本归属
|
||||
|
||||
### 2. 模型复杂度 vs 可维护性
|
||||
- CACE 原理:Change Anything Changes Everything (Sculley et al., 2015)
|
||||
- 数据依赖比代码依赖更昂贵
|
||||
- 为 2% 精度提升选择更复杂模型 → 支付 18 个月调试税
|
||||
|
||||
### 3. 数据数量 vs 数据质量
|
||||
- 超过噪声阈值,更多低质量数据会降低性能
|
||||
- "数据沼泽"问题:存储便宜 → 什么都存 → 清理成本爆炸
|
||||
- 医疗 AI:专家标注小数据集 > 不可靠标注大数据集
|
||||
|
||||
### 4. 吞吐量 vs 延迟(批处理 vs 实时)
|
||||
- 批处理:按时生成预测,低成本,简单,预测可能过时
|
||||
- 实时:按需,毫秒级,昂贵,24/7 运维
|
||||
- 大多数业务问题不需要亚秒级预测
|
||||
|
||||
### 5. 提示词工程 vs 微调
|
||||
- 提示词工程:快、便宜、灵活,但脆弱
|
||||
- 微调:昂贵(GPT-4o 客户支持约 $1万 + 6 周),但规模化可靠
|
||||
- DSPy 提示优化在部分基准上超微调 6-19 个百分点
|
||||
- 混合模式兴起:微调解决风格/基调 + RAG 作事实基础
|
||||
|
||||
### 6. 自动化 vs 人类监督(HITL)
|
||||
- 完全人工审查无法规模化
|
||||
- 选择性 HITL:只在边缘案例、低置信度、高风险决策时触发人工
|
||||
- AI 处理规模/速度/模式识别,人类处理不可逆性
|
||||
- 医疗/金融/法律领域,HITL 通常是合规要求
|
||||
|
||||
## 核心原则
|
||||
|
||||
> 在生产中,决策的成本很少在决策做出的地方产生回报。
|
||||
|
||||
复杂度的代价延迟偿付——更复杂的模型在 6 个月后增加维护成本,实时系统的 24/7 基础设施支撑长期代价更高,大规模脏数据在重训练周期上付出代价。
|
||||
Reference in New Issue
Block a user