20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,89 @@
---
title: "Atlas Agent 记忆系统架构2026"
created: 2026-06-24
updated: 2026-06-24
type: article
tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation"]
sources:
- "https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA"
---
# Atlas Agent 记忆系统架构
> 基于 noamschwartz/atlas-memory-demo 的深度工程实践解析。核心主张Agent 记忆不是 KV 存储问题,是多索引信息检索问题。
## 问题
`chat_history.append()` 把三种不同生命周期的信息塞进同一个数组——稳定事实、操作流程、时序事件——这是 Agent 永远在"忘记"的根因。真正的挑战是在查询瞬间穿过噪音找到对的那几条。
## 核心架构:[[atlas-memory-system|三索引 + 公共]]
[[agent-memory-taxonomy|四种记忆类型]],各自独立的索引、字段和衰减策略:
| 索引 | 存储内容 | 衰减源 | 写入频率 | 更新策略 |
|------|---------|--------|---------|---------|
| episodic | 原始消息+时间戳 | timestamp | 每回合 | 只写不改 |
| semantic | 提炼后稳定事实 | last_used_at | consolidation | supersession 链 |
| procedural | 多步操作流程 | 豁免 (1.0) | consolidation | 计数器更新 |
| catalog | 公共共享知识 | timestamp | 手动 | 脚本覆盖 |
## 检索管线:[[hybrid-recall-pipeline|混合召回]]
```
用户消息 → Verbatim Pre-Recall不经 LLM 改写)
→ BM25 词法 + Dense 语义 双通路并行
→ RRF 融合 (rank_constant=30)
→ Cross-encoder 重排序 (top-80 → top-K)
→ 返回reranker 失败时降级 RRF 顺序)
```
### 关键参数
- **RECALL_OVER_FETCH_K=80** — consolidation 产生近重复 doc候选池不足会挤掉 gold doc
- **rank_constant=30** — 比默认 60 小,排名靠前的结果保持更强信号权重
- **DECAY_SCALE=1825d** — 演示默认,客服应收紧至 60-180d
### Ablation 数据 (168 QA, 3 persona, ~250 docs/user)
| 配置 | R@10 |
|------|------|
| Full | **0.89** |
| Dense-only | 0.845 |
| BM25-only | 0.708 |
| No-Reranker | -0.238 |
dense 是主力,但 BM25 单腿 0.708 说明词法腿不可省略。reranker 最大单点贡献,但只在候选池足够宽时有用。
## [[verbatim-pre-recall|Verbatim Pre-Recall]]
`messages.append(user_msg)` 和 LLM 调用之间,用用户原话(不经改写)跑一次 recall。LLM 会把 "postgres v15.3 + pgvector 0.5.1" 泛化成 "PostgreSQL 数据库"——精确 token 丢失BM25 词法匹配报废。Verbatim 绕过改写层,把最原始的 token 直接给 BM25。
Ablation 证实:额外 query expansionLLM paraphrase反而降低性能——BM25 已捕获精确 tokendense 已捕获语义改写。
## [[memory-consolidation|Consolidation写后提炼]]
每回合结束后从最近 30 条 episodic 事件中提取稳定事实和操作流程。一次 LLM 调用同时输出三类结果new_facts、new_procedures、procedural_updates。Production 建议改为后台日批模式——积累一天后在夜间统一跑,成本减半。
## [[soft-supersession|Soft-Supersession]]
非破坏性矛盾处理:用户说"搬家了"→ 创建新 doc + 标记旧 doc (superseded_by) + 召回时过滤旧版。链式追溯支持任意长度,旧记录永不删除(审计需要)。
## [[gbrain-memory|与 GBrain 的对比]]
| 维度 | Atlas (ES) | GBrain (Markdown+Git) |
|------|-----------|----------------------|
| 存储 | ES 搜索引擎 | Markdown 文件 + Git |
| 多租户 | ES DLS集群层 | 应用层 auth |
| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
| 衰减 | [[per-index-time-decay|Per-index gauss]] | 无显式衰减 |
| 透明度 | 仅 API | 直接打开文件 |
个人助理 → GBrain人可读信任优先多租户产品 → AtlasES 原生隔离)。
## 三个通用设计原则
1. **衰减曲线是领域性决策** — 先定义信息有效周期,再定衰减参数
2. **BM25 + vector 互补,不可二选一** — BM25 抓精确术语dense 抓语义意图
3. **记忆需要后台提炼 + 矛盾处理** — 瓶颈从来不在数据库引擎,在分型逻辑和召回架构
## 来源
[原始存档](raw/articles/atlas-agent-memory-architecture-2026.md)

View File

@@ -0,0 +1,62 @@
---
title: "金融行业大模型落地实践林金曙2026"
created: 2026-06-24
updated: 2026-06-24
type: article
tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"]
sources:
- "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg"
---
# 金融行业大模型落地实践
> 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。
## 背景
金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化Skills、金融大模型插件化、面向大模型友好的数据层[[aidb]])。
## 核心方案
### 长文档检索:[[pageindex]] + [[agentic-rag]]
金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。
反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。
### 审核工程:[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]]
"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事:
1. **在哪里看** — 限定章节范围而非全文
2. **看什么** — 用业务语言(如"注册资本")而非系统拼音缩写
3. **怎么判** — 将 SOP 写成可执行判断条件
选型教训Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B4×H800约 60 万一次性投入)后规则砍半,准确率 +45pp。结论小模型省下的算力钱远不够覆盖人力成本。
### [[context-engineering|上下文工程]]
Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。
模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。
## Agent 工程
金融 Agent 需操作业务系统读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。
三件事须同时成立:
- 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
- 工具侧:[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入
- 资源侧:[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化
每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。
## 核心洞见
1. **不卷织布速,卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent
2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木
3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束
4. **弃大脑之争,筑神经之基** — 不训练大模型,专注数据底座、接口标准、知识体系
## 来源
[原始存档](raw/articles/financial-llm-practice-2026.md)

View File

@@ -0,0 +1,84 @@
---
title: "LLM 沉默螺旋:算法催生的数字从众"
created: 2025-04-15
updated: 2026-06-21
type: article
tags:
- spiral-of-silence
- llm
- rag
- multi-agent
- content-ecology
sources:
- data派THU
- https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
---
# LLM 沉默螺旋:算法催生的数字从众
> 来源:[原始存档](raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md) | 数据派THU | 作者:李媛媛 | 2026
## 核心问题
大语言模型在 RAG 检索迭代、多智能体交互等闭环场景中,**无需人类心理动机,仅靠纯统计语言生成机制,就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应**。这是所有主流大模型的通用系统性问题。
## 理论迁移:从人类到 AI
经典 [[spiral-of-silence|沉默的螺旋]]Noelle-Neumann, 1974依赖三个心理机制孤立恐惧、准统计感官、螺旋式循环。但 LLM 版本属于**算法驱动的沉默螺旋**——无需心理,纯技术机制即可触发。
## 两大实证场景
### 1. RAG 闭环AI 正在"杀死"人类原创内容
[[rag-closed-loop|RAG 闭环迭代]]模式下AI 生成→搜索引擎索引→检索复用→再次生成的循环导致:
- 仅 5 轮迭代后,人类原创内容占比从 50% 暴跌至 15% 以下
- 搜索引擎算法天然偏好 AI 生成文本
- 形成"AI 自我复制、人类原创失语、小众真相沉没"的单向信息固化
相关概念:[[rag|RAG]]、[[content-homogenization|内容同质化]]
### 2. 多智能体交互AI 对话如何自发极化
[[multi-agent-spiral|多智能体螺旋]]实验arXiv 2025覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2
- 历史上下文 + 角色设定叠加时,主流观点占比突破 80%
- 小模型效应远强于大模型;中文模型强于英文模型
- 仅靠对话历史就能持续重复主流观点
相关概念:[[multi-agent-orchestration|多智能体编排]]、[[opinion-polarization|观点极化]]
## 四大技术根源
1. **[[pretraining-statistical-bias|预训练统计偏好]]**(底层基础):主流观点在训练数据中占绝对优势,模型天然倾向于高概率内容
2. **[[context-anchoring|历史上下文锚定]]**(核心驱动):自回归生成机制让模型持续贴合对话历史,形成正向闭环
3. **[[role-setting-entrenchment|角色设定固化]]**(催化加速):固定立场放大观点对立,压制小众输出
4. **[[rlhf-alignment-amplification|RLHF 对齐放大]]**(固化诱因):安全去偏压低了 token 预测熵值,压缩创作空间
与 [[rlhf|RLHF]] 的标准理解不同,此处强调的是**对齐训练作为沉默螺旋放大器的意外副作用**。
## 四大危害
- [[information-cocoons|信息茧房]] + 观点垄断:人类原创、批判性思考持续消失
- 错误信息闭环扩散AI 偏差内容强化传播,小众真相被边缘化
- 社会偏见固化放大:性别、地域偏见通过螺旋效应持续放大
- 知识创新被抑制:前沿小众观点、颠覆性创新思路被系统压制
## 治理方案
- **技术层**:优化采样策略(高 [[temperature-sampling|温度采样]]、历史去锚定、RAG 检索排序均衡、分层去偏训练
- **机制层**:建立 [[content-diversity-decay|内容多样性衰减]]监测系统、内容来源透明标注
- **研究层**:统一量化评估标准与测试数据集、长周期模拟实验
## 研究空白
- 无统一的沉默螺旋强度量化指标
- 缺乏互联网级长周期信息迭代演化研究
- 多模态 AI 沉默螺旋机制完全空白
- 轻量化治理技术尚未成熟
## 参考文献
[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
[2] arXiv 2025. Spiral of Silence in Large Language Model Agents
[3] Noelle-Neumann E. The Spiral of Silence, 1984.
[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
[5] KBS 2026. Quantifying and mitigating the spiral of silence in recommender systems

View File

@@ -0,0 +1,81 @@
---
title: "MemOSAgent 记忆基础设施"
created: 2026-06-19
updated: 2026-06-19
type: article
tags: [agent-memory, memos, memtensor, memory-system, openclaw, clawforce]
sources:
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
---
# MemOSAgent 记忆基础设施
> 熊飞宇(记忆张量 CEO技术分享 | DataFun | 2026
## 核心断言
> **记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。**
ChatGPT 个人记忆 + OpenClaw 连续型 Agent 推动行业共识转变:记忆从"降低 token 消耗"演进为"Agent 能否活下来"的生死问题。
## 两条路线的融合
| | 模型驱动 | 应用驱动 |
|---|---|---|
| 方式 | 基础模型架构创新 | Prompt/Agent 流模拟 |
| 代表 | Memorizing Transformers | Mem0, Zep |
| 优势 | 上限高 | 落地快 |
| 劣势 | 成本极高 | 与基模耦合弱 |
MemTensor 的策略:**模型驱动决定上限,应用驱动决定下限,从系统层面融合。**
## MemOS 五层架构
```
应用层 + 编解码层
记忆调度层 ← 核心:三层记忆协同
记忆治理层(权限/生命周期/水印/隐私)
记忆存储层MemCube + MemStore
```
### [[layered-memory-architecture|三层记忆协同]]
| 层级 | 内容 | 载体 | 角色 |
|------|------|------|------|
| **明文记忆** | Prompt/Agent 流 | 自然语言 | 事实、对话上下文 |
| **激活记忆** | KV Cache 管理 | GPU 缓存 | 降低成本、提升命中率 |
| **参数记忆** | 行业 know-how | 后训练权重 | 增强领域认知 |
## 核心创新
### [[memory-dedup-pipeline|三级去重漏斗]]
SHA-256 精确去重 → 向量余弦相似度 → LLM Judge 矛盾检测与智能合并
→ 平均压缩比 **75%+**
### [[mem2skill|Mem2Skill]]
从对话碎片中提取 → 结构化 → 参数化技能。核心:**记忆不止于被搜到,而是内化为能力。** 如 K8s OOM 排查从 2 小时 → 10 分钟。
## 关键数据
- GitHub **8.5K Star**,社区 1.2 万+ 活跃用户
- 云服务单月调用 **2500 万+** 次,月涨幅 100-200%
- 单次请求节省 **45-72%** token
- 接入后LLM Judge 评分↑、上下文成本 **-30%**、交互轮次 **-50%**、token 消耗 **-50%**
## [[clawforce|ClawForce 企业方案]]
五层设计 + 三重安全(事前隔离→事中脱敏→事后审计),解决企业 AI Agent 从"能用"到"敢用"的五个痛点。已在研发、电商、公文写作、销售等场景落地。
## 概念网络
- [[agent-memory-system|Agent 记忆系统]] — 为何记忆是 Agent 的生死关键
- [[layered-memory-architecture|三层记忆架构]] — 明文/激活/参数分层协同
- [[model-driven-vs-app-driven-memory|两路线融合]] — 模型驱动 + 应用驱动
- [[memory-governance|记忆治理]] — 全生命周期管理
- [[agent-memory-lifecycle|记忆生命周期]] — 抽取→组织→检索→更新→共享
- [[memcube|MemCube]] — 最小可打包记忆单元
来源:[原始存档](raw/articles/memtensor-memos-agent-memory-2026.md)

View File

@@ -0,0 +1,68 @@
---
title: "Michael I. JordanAI 的集体主义经济学与虚假的 AGI 二元论"
created: 2026-06-21
updated: 2026-06-21
type: article
tags:
- michael-jordan
- ai-economics
- collectivist-ai
- uncertainty
- agi-critique
sources:
- 机器之心
- MLST
- https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
---
# Michael I. JordanAI 的集体主义经济学与虚假的 AGI 二元论
> 来源:[原始存档](raw/articles/michael-jordan-mlst-collectivist-ai-2026.md) | 机器之心编译 | MLST 访谈 | 2026
## 人物
**Michael I. Jordan**——统计机器学习奠基人UC Berkeley EECS+统计系杰出教授。门下走出 Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等一整代 ML 核心建设者。2016 年《科学》杂志「全球最具影响力计算机科学家」。
## 五大核心论点
### 1. AGI 是公关词
「AGI 是个公关词,是一种扭曲,尤其让年轻人困惑。」真正的 ML 传统(供应链、金融、物流预测)一直比"AI"影响更大但因输出不是人类可读语言而被忽视。LLM 只是换了个输出格式,背后的 ML 传统一直都在。参见 [[anthropomorphization-critique|人类化机器批判]]。
### 2. AI 需要经济学:集体主义框架
[[collectivist-ai|集体主义 AI 框架]]:当前 AI 的根本缺陷是将智能窄化为个体认知。人类是社会动物,智识来自聚合——聚合观点形成文化。完整框架需要 **CS算法/抽象)+ 统计学(推断/不确定性)+ 经济学(激励机制/博弈均衡)** 三个支柱。
「只有计算加优化,你就只能得到语言模型。」
### 3. 基础模型在知识边界最危险
[[foundation-model-frontier-bias|基础模型前沿偏倚]]科学家问的是知识边界上的新问题——恰恰是训练数据最稀少的地方。AlphaFold 案例:量子涨落预测的置信区间极窄但完全偏离真实值。模型答错却不说。解法:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注 + 大量模型预测。
### 4. 不确定性的三分法
[[uncertainty-taxonomy|Jordan 不确定性分类法]],超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分:
| 类型 | 本质 | 示例 |
|------|------|------|
| 采样不确定性 | 数据是否足够 | 但需在种群语境中按纳什均衡处理 |
| 信息不对称 | 结构性不透明,永不消失 | 专家知道但不会全告诉你 |
| 数据时效性 | 时间维度的元数据 | 十年前的医疗数据应自动打折 |
LLM 对自身不确定性一无所知——它只是模仿了互联网上人类表达确定性的语气。
### 5. 超级智能 vs 人类灭绝是虚假二元
「思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种现实脱节非常罕见。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有**无数积极的可能性**。
## 金句
- 「现在这个领域有什么?只有非常聪明、会编程、有很多直觉的人——我从没感受到任何真正智识深度的东西。」
- 「别问它是否理解。问:它能不能降低不确定性,能不能让工程系统建立在它之上。」
- 「可怜的 LLM不确定性三件事一件都不会做。」
- 「AI 是关于帮助信息流动,让人类做出他们真正想做的正确决策。」
## 参考文献
- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268
- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64

View File

@@ -0,0 +1,52 @@
---
title: "AI 工程师的 6 种生产权衡"
created: 2026-06-19
updated: 2026-06-19
type: article
tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops]
sources:
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
- https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
---
# AI 工程师的 6 种生产权衡
> 原文:*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega
> 翻译:陈超 | 来源数据派THU
## 核心问题
大学课程教你怎么让模型变精确。但几乎没人教你后续的决策:什么时候完全自动化?什么时候提示词不够?批处理和实时怎么选?这些问题在工作第一周就会出现。
## 核心原则
> **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本,实时系统需要 24/7 基础设施支撑,大规模脏数据在重训练周期上付出代价。
## 6 种权衡
### 1. [[build-vs-buy-llm|构建 vs 购买]]
日请求 < 10 API日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力,不是 GPU。团队平均超预算 340%。
### 2. [[cace-principle|模型复杂度 vs 可维护性]]
CACE 原理:改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它?
### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]]
超过噪声阈值,更多数据会降低性能。医疗 AI 最典型:专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。
### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]]
大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理。
### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]]
提示词快、便宜、灵活,但脆弱。微调昂贵($1 万 + 6 周),但规模化可靠。混合模式(微调风格 + RAG 事实)日益普及。
### 6. [[human-in-the-loop|自动化 vs 人类监督]]
完全人工审查无法规模化。选择性 HITL边缘案例、低置信度、高风险决策才触发人工。AI 处理规模,人类处理不可逆性。
## 关键概念网络
- [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览
- [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵
- [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工
- [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本
来源:[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md)