20260625:很多新内容
This commit is contained in:
89
articles/atlas-agent-memory-architecture-2026.md
Normal file
89
articles/atlas-agent-memory-architecture-2026.md
Normal file
@@ -0,0 +1,89 @@
|
||||
---
|
||||
title: "Atlas Agent 记忆系统架构(2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: article
|
||||
tags: ["agent-memory", "elasticsearch", "hybrid-retrieval", "consolidation"]
|
||||
sources:
|
||||
- "https://mp.weixin.qq.com/s/fypjVWJBQg_MZV9OMfPpIA"
|
||||
---
|
||||
|
||||
# Atlas Agent 记忆系统架构
|
||||
|
||||
> 基于 noamschwartz/atlas-memory-demo 的深度工程实践解析。核心主张:Agent 记忆不是 KV 存储问题,是多索引信息检索问题。
|
||||
|
||||
## 问题
|
||||
|
||||
`chat_history.append()` 把三种不同生命周期的信息塞进同一个数组——稳定事实、操作流程、时序事件——这是 Agent 永远在"忘记"的根因。真正的挑战是在查询瞬间穿过噪音找到对的那几条。
|
||||
|
||||
## 核心架构:[[atlas-memory-system|三索引 + 公共]]
|
||||
|
||||
[[agent-memory-taxonomy|四种记忆类型]],各自独立的索引、字段和衰减策略:
|
||||
|
||||
| 索引 | 存储内容 | 衰减源 | 写入频率 | 更新策略 |
|
||||
|------|---------|--------|---------|---------|
|
||||
| episodic | 原始消息+时间戳 | timestamp | 每回合 | 只写不改 |
|
||||
| semantic | 提炼后稳定事实 | last_used_at | consolidation | supersession 链 |
|
||||
| procedural | 多步操作流程 | 豁免 (1.0) | consolidation | 计数器更新 |
|
||||
| catalog | 公共共享知识 | timestamp | 手动 | 脚本覆盖 |
|
||||
|
||||
## 检索管线:[[hybrid-recall-pipeline|混合召回]]
|
||||
|
||||
```
|
||||
用户消息 → Verbatim Pre-Recall(不经 LLM 改写)
|
||||
→ BM25 词法 + Dense 语义 双通路并行
|
||||
→ RRF 融合 (rank_constant=30)
|
||||
→ Cross-encoder 重排序 (top-80 → top-K)
|
||||
→ 返回(reranker 失败时降级 RRF 顺序)
|
||||
```
|
||||
|
||||
### 关键参数
|
||||
- **RECALL_OVER_FETCH_K=80** — consolidation 产生近重复 doc,候选池不足会挤掉 gold doc
|
||||
- **rank_constant=30** — 比默认 60 小,排名靠前的结果保持更强信号权重
|
||||
- **DECAY_SCALE=1825d** — 演示默认,客服应收紧至 60-180d
|
||||
|
||||
### Ablation 数据 (168 QA, 3 persona, ~250 docs/user)
|
||||
|
||||
| 配置 | R@10 |
|
||||
|------|------|
|
||||
| Full | **0.89** |
|
||||
| Dense-only | 0.845 |
|
||||
| BM25-only | 0.708 |
|
||||
| No-Reranker | -0.238 |
|
||||
|
||||
dense 是主力,但 BM25 单腿 0.708 说明词法腿不可省略。reranker 最大单点贡献,但只在候选池足够宽时有用。
|
||||
|
||||
## [[verbatim-pre-recall|Verbatim Pre-Recall]]
|
||||
|
||||
在 `messages.append(user_msg)` 和 LLM 调用之间,用用户原话(不经改写)跑一次 recall。LLM 会把 "postgres v15.3 + pgvector 0.5.1" 泛化成 "PostgreSQL 数据库"——精确 token 丢失,BM25 词法匹配报废。Verbatim 绕过改写层,把最原始的 token 直接给 BM25。
|
||||
|
||||
Ablation 证实:额外 query expansion(LLM paraphrase)反而降低性能——BM25 已捕获精确 token,dense 已捕获语义改写。
|
||||
|
||||
## [[memory-consolidation|Consolidation(写后提炼)]]
|
||||
|
||||
每回合结束后从最近 30 条 episodic 事件中提取稳定事实和操作流程。一次 LLM 调用同时输出三类结果:new_facts、new_procedures、procedural_updates。Production 建议改为后台日批模式——积累一天后在夜间统一跑,成本减半。
|
||||
|
||||
## [[soft-supersession|Soft-Supersession]]
|
||||
|
||||
非破坏性矛盾处理:用户说"搬家了"→ 创建新 doc + 标记旧 doc (superseded_by) + 召回时过滤旧版。链式追溯支持任意长度,旧记录永不删除(审计需要)。
|
||||
|
||||
## [[gbrain-memory|与 GBrain 的对比]]
|
||||
|
||||
| 维度 | Atlas (ES) | GBrain (Markdown+Git) |
|
||||
|------|-----------|----------------------|
|
||||
| 存储 | ES 搜索引擎 | Markdown 文件 + Git |
|
||||
| 多租户 | ES DLS(集群层) | 应用层 auth |
|
||||
| 矛盾处理 | Soft-Supersession 链 | Git 版本历史 |
|
||||
| 衰减 | [[per-index-time-decay|Per-index gauss]] | 无显式衰减 |
|
||||
| 透明度 | 仅 API | 直接打开文件 |
|
||||
|
||||
个人助理 → GBrain(人可读信任优先);多租户产品 → Atlas(ES 原生隔离)。
|
||||
|
||||
## 三个通用设计原则
|
||||
|
||||
1. **衰减曲线是领域性决策** — 先定义信息有效周期,再定衰减参数
|
||||
2. **BM25 + vector 互补,不可二选一** — BM25 抓精确术语,dense 抓语义意图
|
||||
3. **记忆需要后台提炼 + 矛盾处理** — 瓶颈从来不在数据库引擎,在分型逻辑和召回架构
|
||||
|
||||
## 来源
|
||||
[原始存档](raw/articles/atlas-agent-memory-architecture-2026.md)
|
||||
62
articles/financial-llm-practice-2026.md
Normal file
62
articles/financial-llm-practice-2026.md
Normal file
@@ -0,0 +1,62 @@
|
||||
---
|
||||
title: "金融行业大模型落地实践(林金曙,2026)"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: article
|
||||
tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"]
|
||||
sources:
|
||||
- "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg"
|
||||
---
|
||||
|
||||
# 金融行业大模型落地实践
|
||||
|
||||
> 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。
|
||||
|
||||
## 背景
|
||||
|
||||
金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化(Skills)、金融大模型插件化、面向大模型友好的数据层([[aidb]])。
|
||||
|
||||
## 核心方案
|
||||
|
||||
### 长文档检索:[[pageindex]] + [[agentic-rag]]
|
||||
|
||||
金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。
|
||||
|
||||
反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。
|
||||
|
||||
### 审核工程:[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]]
|
||||
|
||||
"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事:
|
||||
1. **在哪里看** — 限定章节范围而非全文
|
||||
2. **看什么** — 用业务语言(如"注册资本")而非系统拼音缩写
|
||||
3. **怎么判** — 将 SOP 写成可执行判断条件
|
||||
|
||||
选型教训:Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B(4×H800,约 60 万一次性投入)后规则砍半,准确率 +45pp。结论:小模型省下的算力钱远不够覆盖人力成本。
|
||||
|
||||
### [[context-engineering|上下文工程]]
|
||||
|
||||
Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。
|
||||
|
||||
模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。
|
||||
|
||||
## Agent 工程
|
||||
|
||||
金融 Agent 需操作业务系统:读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。
|
||||
|
||||
三件事须同时成立:
|
||||
- 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
|
||||
- 工具侧:[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入
|
||||
- 资源侧:[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化
|
||||
|
||||
每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。
|
||||
|
||||
## 核心洞见
|
||||
|
||||
1. **不卷织布速,卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent
|
||||
2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木
|
||||
3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束
|
||||
4. **弃大脑之争,筑神经之基** — 不训练大模型,专注数据底座、接口标准、知识体系
|
||||
|
||||
## 来源
|
||||
|
||||
[原始存档](raw/articles/financial-llm-practice-2026.md)
|
||||
84
articles/llm-spiral-of-silence-2026.md
Normal file
84
articles/llm-spiral-of-silence-2026.md
Normal file
@@ -0,0 +1,84 @@
|
||||
---
|
||||
title: "LLM 沉默螺旋:算法催生的数字从众"
|
||||
created: 2025-04-15
|
||||
updated: 2026-06-21
|
||||
type: article
|
||||
tags:
|
||||
- spiral-of-silence
|
||||
- llm
|
||||
- rag
|
||||
- multi-agent
|
||||
- content-ecology
|
||||
sources:
|
||||
- data派THU
|
||||
- https://mp.weixin.qq.com/s/ZKrx4BzmiOUBsfPVY9YHyw
|
||||
---
|
||||
|
||||
# LLM 沉默螺旋:算法催生的数字从众
|
||||
|
||||
> 来源:[原始存档](raw/articles/liyuanyuan-llm-spiral-of-silence-2026.md) | 数据派THU | 作者:李媛媛 | 2026
|
||||
|
||||
## 核心问题
|
||||
|
||||
大语言模型在 RAG 检索迭代、多智能体交互等闭环场景中,**无需人类心理动机,仅靠纯统计语言生成机制,就能自发形成观点从众、小众真相失语、内容高度同质化的"沉默螺旋"效应**。这是所有主流大模型的通用系统性问题。
|
||||
|
||||
## 理论迁移:从人类到 AI
|
||||
|
||||
经典 [[spiral-of-silence|沉默的螺旋]](Noelle-Neumann, 1974)依赖三个心理机制:孤立恐惧、准统计感官、螺旋式循环。但 LLM 版本属于**算法驱动的沉默螺旋**——无需心理,纯技术机制即可触发。
|
||||
|
||||
## 两大实证场景
|
||||
|
||||
### 1. RAG 闭环:AI 正在"杀死"人类原创内容
|
||||
|
||||
[[rag-closed-loop|RAG 闭环迭代]]模式下,AI 生成→搜索引擎索引→检索复用→再次生成的循环导致:
|
||||
- 仅 5 轮迭代后,人类原创内容占比从 50% 暴跌至 15% 以下
|
||||
- 搜索引擎算法天然偏好 AI 生成文本
|
||||
- 形成"AI 自我复制、人类原创失语、小众真相沉没"的单向信息固化
|
||||
|
||||
相关概念:[[rag|RAG]]、[[content-homogenization|内容同质化]]
|
||||
|
||||
### 2. 多智能体交互:AI 对话如何自发极化
|
||||
|
||||
[[multi-agent-spiral|多智能体螺旋]]实验(arXiv 2025)覆盖 GPT-4o-mini、Llama3.1、Mistral、Qwen2.5、DeepSeek-V2:
|
||||
- 历史上下文 + 角色设定叠加时,主流观点占比突破 80%
|
||||
- 小模型效应远强于大模型;中文模型强于英文模型
|
||||
- 仅靠对话历史就能持续重复主流观点
|
||||
|
||||
相关概念:[[multi-agent-orchestration|多智能体编排]]、[[opinion-polarization|观点极化]]
|
||||
|
||||
## 四大技术根源
|
||||
|
||||
1. **[[pretraining-statistical-bias|预训练统计偏好]]**(底层基础):主流观点在训练数据中占绝对优势,模型天然倾向于高概率内容
|
||||
2. **[[context-anchoring|历史上下文锚定]]**(核心驱动):自回归生成机制让模型持续贴合对话历史,形成正向闭环
|
||||
3. **[[role-setting-entrenchment|角色设定固化]]**(催化加速):固定立场放大观点对立,压制小众输出
|
||||
4. **[[rlhf-alignment-amplification|RLHF 对齐放大]]**(固化诱因):安全去偏压低了 token 预测熵值,压缩创作空间
|
||||
|
||||
与 [[rlhf|RLHF]] 的标准理解不同,此处强调的是**对齐训练作为沉默螺旋放大器的意外副作用**。
|
||||
|
||||
## 四大危害
|
||||
|
||||
- [[information-cocoons|信息茧房]] + 观点垄断:人类原创、批判性思考持续消失
|
||||
- 错误信息闭环扩散:AI 偏差内容强化传播,小众真相被边缘化
|
||||
- 社会偏见固化放大:性别、地域偏见通过螺旋效应持续放大
|
||||
- 知识创新被抑制:前沿小众观点、颠覆性创新思路被系统压制
|
||||
|
||||
## 治理方案
|
||||
|
||||
- **技术层**:优化采样策略(高 [[temperature-sampling|温度采样]])、历史去锚定、RAG 检索排序均衡、分层去偏训练
|
||||
- **机制层**:建立 [[content-diversity-decay|内容多样性衰减]]监测系统、内容来源透明标注
|
||||
- **研究层**:统一量化评估标准与测试数据集、长周期模拟实验
|
||||
|
||||
## 研究空白
|
||||
|
||||
- 无统一的沉默螺旋强度量化指标
|
||||
- 缺乏互联网级长周期信息迭代演化研究
|
||||
- 多模态 AI 沉默螺旋机制完全空白
|
||||
- 轻量化治理技术尚未成熟
|
||||
|
||||
## 参考文献
|
||||
|
||||
[1] ACL 2024. Spiral of Silence: How is Large Language Model Killing Information Retrieval?
|
||||
[2] arXiv 2025. Spiral of Silence in Large Language Model Agents
|
||||
[3] Noelle-Neumann E. The Spiral of Silence, 1984.
|
||||
[4] arXiv 2024. Creativity Has Left the Chat: The Price of Debiasing Language Models
|
||||
[5] KBS 2026. Quantifying and mitigating the spiral of silence in recommender systems
|
||||
81
articles/memtensor-memos-agent-memory-2026.md
Normal file
81
articles/memtensor-memos-agent-memory-2026.md
Normal file
@@ -0,0 +1,81 @@
|
||||
---
|
||||
title: "MemOS:Agent 记忆基础设施"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: article
|
||||
tags: [agent-memory, memos, memtensor, memory-system, openclaw, clawforce]
|
||||
sources:
|
||||
- https://mp.weixin.qq.com/s/5Wo91nzstNtCIV9chnuQmw
|
||||
---
|
||||
|
||||
# MemOS:Agent 记忆基础设施
|
||||
|
||||
> 熊飞宇(记忆张量 CEO)技术分享 | DataFun | 2026
|
||||
|
||||
## 核心断言
|
||||
|
||||
> **记忆不再是锦上添花,而是 Agent 能否持续进化的核心要素。**
|
||||
|
||||
ChatGPT 个人记忆 + OpenClaw 连续型 Agent 推动行业共识转变:记忆从"降低 token 消耗"演进为"Agent 能否活下来"的生死问题。
|
||||
|
||||
## 两条路线的融合
|
||||
|
||||
| | 模型驱动 | 应用驱动 |
|
||||
|---|---|---|
|
||||
| 方式 | 基础模型架构创新 | Prompt/Agent 流模拟 |
|
||||
| 代表 | Memorizing Transformers | Mem0, Zep |
|
||||
| 优势 | 上限高 | 落地快 |
|
||||
| 劣势 | 成本极高 | 与基模耦合弱 |
|
||||
|
||||
MemTensor 的策略:**模型驱动决定上限,应用驱动决定下限,从系统层面融合。**
|
||||
|
||||
## MemOS 五层架构
|
||||
|
||||
```
|
||||
应用层 + 编解码层
|
||||
↑
|
||||
记忆调度层 ← 核心:三层记忆协同
|
||||
↑
|
||||
记忆治理层(权限/生命周期/水印/隐私)
|
||||
↑
|
||||
记忆存储层(MemCube + MemStore)
|
||||
```
|
||||
|
||||
### [[layered-memory-architecture|三层记忆协同]]
|
||||
|
||||
| 层级 | 内容 | 载体 | 角色 |
|
||||
|------|------|------|------|
|
||||
| **明文记忆** | Prompt/Agent 流 | 自然语言 | 事实、对话上下文 |
|
||||
| **激活记忆** | KV Cache 管理 | GPU 缓存 | 降低成本、提升命中率 |
|
||||
| **参数记忆** | 行业 know-how | 后训练权重 | 增强领域认知 |
|
||||
|
||||
## 核心创新
|
||||
|
||||
### [[memory-dedup-pipeline|三级去重漏斗]]
|
||||
SHA-256 精确去重 → 向量余弦相似度 → LLM Judge 矛盾检测与智能合并
|
||||
→ 平均压缩比 **75%+**
|
||||
|
||||
### [[mem2skill|Mem2Skill]]
|
||||
从对话碎片中提取 → 结构化 → 参数化技能。核心:**记忆不止于被搜到,而是内化为能力。** 如 K8s OOM 排查从 2 小时 → 10 分钟。
|
||||
|
||||
## 关键数据
|
||||
|
||||
- GitHub **8.5K Star**,社区 1.2 万+ 活跃用户
|
||||
- 云服务单月调用 **2500 万+** 次,月涨幅 100-200%
|
||||
- 单次请求节省 **45-72%** token
|
||||
- 接入后:LLM Judge 评分↑、上下文成本 **-30%**、交互轮次 **-50%**、token 消耗 **-50%**
|
||||
|
||||
## [[clawforce|ClawForce 企业方案]]
|
||||
|
||||
五层设计 + 三重安全(事前隔离→事中脱敏→事后审计),解决企业 AI Agent 从"能用"到"敢用"的五个痛点。已在研发、电商、公文写作、销售等场景落地。
|
||||
|
||||
## 概念网络
|
||||
|
||||
- [[agent-memory-system|Agent 记忆系统]] — 为何记忆是 Agent 的生死关键
|
||||
- [[layered-memory-architecture|三层记忆架构]] — 明文/激活/参数分层协同
|
||||
- [[model-driven-vs-app-driven-memory|两路线融合]] — 模型驱动 + 应用驱动
|
||||
- [[memory-governance|记忆治理]] — 全生命周期管理
|
||||
- [[agent-memory-lifecycle|记忆生命周期]] — 抽取→组织→检索→更新→共享
|
||||
- [[memcube|MemCube]] — 最小可打包记忆单元
|
||||
|
||||
来源:[原始存档](raw/articles/memtensor-memos-agent-memory-2026.md)
|
||||
68
articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
68
articles/michael-jordan-mlst-collectivist-ai-2026.md
Normal file
@@ -0,0 +1,68 @@
|
||||
---
|
||||
title: "Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论"
|
||||
created: 2026-06-21
|
||||
updated: 2026-06-21
|
||||
type: article
|
||||
tags:
|
||||
- michael-jordan
|
||||
- ai-economics
|
||||
- collectivist-ai
|
||||
- uncertainty
|
||||
- agi-critique
|
||||
sources:
|
||||
- 机器之心
|
||||
- MLST
|
||||
- https://mp.weixin.qq.com/s/VEo23R0yst6wjdyzVicYUQ
|
||||
---
|
||||
|
||||
# Michael I. Jordan:AI 的集体主义经济学与虚假的 AGI 二元论
|
||||
|
||||
> 来源:[原始存档](raw/articles/michael-jordan-mlst-collectivist-ai-2026.md) | 机器之心编译 | MLST 访谈 | 2026
|
||||
|
||||
## 人物
|
||||
|
||||
**Michael I. Jordan**——统计机器学习奠基人,UC Berkeley EECS+统计系杰出教授。门下走出 Andrew Ng、Yoshua Bengio、Zoubin Ghahramani、Eric Xing、David Blei 等一整代 ML 核心建设者。2016 年《科学》杂志「全球最具影响力计算机科学家」。
|
||||
|
||||
## 五大核心论点
|
||||
|
||||
### 1. AGI 是公关词
|
||||
|
||||
「AGI 是个公关词,是一种扭曲,尤其让年轻人困惑。」真正的 ML 传统(供应链、金融、物流预测)一直比"AI"影响更大,但因输出不是人类可读语言而被忽视。LLM 只是换了个输出格式,背后的 ML 传统一直都在。参见 [[anthropomorphization-critique|人类化机器批判]]。
|
||||
|
||||
### 2. AI 需要经济学:集体主义框架
|
||||
|
||||
[[collectivist-ai|集体主义 AI 框架]]:当前 AI 的根本缺陷是将智能窄化为个体认知。人类是社会动物,智识来自聚合——聚合观点形成文化。完整框架需要 **CS(算法/抽象)+ 统计学(推断/不确定性)+ 经济学(激励机制/博弈均衡)** 三个支柱。
|
||||
|
||||
「只有计算加优化,你就只能得到语言模型。」
|
||||
|
||||
### 3. 基础模型在知识边界最危险
|
||||
|
||||
[[foundation-model-frontier-bias|基础模型前沿偏倚]]:科学家问的是知识边界上的新问题——恰恰是训练数据最稀少的地方。AlphaFold 案例:量子涨落预测的置信区间极窄但完全偏离真实值。模型答错却不说。解法:[[prediction-driven-inference|预测驱动推断]]——混合少量真实标注 + 大量模型预测。
|
||||
|
||||
### 4. 不确定性的三分法
|
||||
|
||||
[[uncertainty-taxonomy|Jordan 不确定性分类法]],超越经典 [[epistemic-uncertainty|认知不确定性]]/[[aleatoric-uncertainty|偶然不确定性]] 二分:
|
||||
|
||||
| 类型 | 本质 | 示例 |
|
||||
|------|------|------|
|
||||
| 采样不确定性 | 数据是否足够 | 但需在种群语境中按纳什均衡处理 |
|
||||
| 信息不对称 | 结构性不透明,永不消失 | 专家知道但不会全告诉你 |
|
||||
| 数据时效性 | 时间维度的元数据 | 十年前的医疗数据应自动打折 |
|
||||
|
||||
LLM 对自身不确定性一无所知——它只是模仿了互联网上人类表达确定性的语气。
|
||||
|
||||
### 5. 超级智能 vs 人类灭绝是虚假二元
|
||||
|
||||
「思想领袖分成两队,一队冲向乌托邦,一队冲向末日——在人类历史上这种现实脱节非常罕见。」年轻人缺少"靠做出真正有用的东西让世界变好一点点"的榜样。两极之间有**无数积极的可能性**。
|
||||
|
||||
## 金句
|
||||
|
||||
- 「现在这个领域有什么?只有非常聪明、会编程、有很多直觉的人——我从没感受到任何真正智识深度的东西。」
|
||||
- 「别问它是否理解。问:它能不能降低不确定性,能不能让工程系统建立在它之上。」
|
||||
- 「可怜的 LLM,不确定性三件事一件都不会做。」
|
||||
- 「AI 是关于帮助信息流动,让人类做出他们真正想做的正确决策。」
|
||||
|
||||
## 参考文献
|
||||
|
||||
- Jordan, M.I. *A Collectivist, Economic Perspective on AI*. arXiv:2507.06268
|
||||
- MLST 访谈: https://www.youtube.com/watch?v=AREWYbVtX64
|
||||
52
articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
52
articles/nobrega-ai-production-tradeoffs-2026.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "AI 工程师的 6 种生产权衡"
|
||||
created: 2026-06-19
|
||||
updated: 2026-06-19
|
||||
type: article
|
||||
tags: [ai-engineering, production-tradeoffs, prompt-engineering, fine-tuning, hitl, mlops]
|
||||
sources:
|
||||
- https://towardsdatascience.com/six-choices-every-ai-engineer-has-to-make-and-nobody-teaches/
|
||||
- https://mp.weixin.qq.com/s/GESoyR0qpxP4fPtHZjonKA
|
||||
---
|
||||
|
||||
# AI 工程师的 6 种生产权衡
|
||||
|
||||
> 原文:*Six Choices Every AI Engineer Has to Make (and Nobody Teaches)* — Sara Nobrega
|
||||
> 翻译:陈超 | 来源:数据派THU
|
||||
|
||||
## 核心问题
|
||||
|
||||
大学课程教你怎么让模型变精确。但几乎没人教你后续的决策:什么时候完全自动化?什么时候提示词不够?批处理和实时怎么选?这些问题在工作第一周就会出现。
|
||||
|
||||
## 核心原则
|
||||
|
||||
> **决策的成本很少在决策做出的地方产生回报。** — 更复杂的模型在 6 个月后增加维护成本,实时系统需要 24/7 基础设施支撑,大规模脏数据在重训练周期上付出代价。
|
||||
|
||||
## 6 种权衡
|
||||
|
||||
### 1. [[build-vs-buy-llm|构建 vs 购买]]
|
||||
日请求 < 10 万 → API。日请求 > 100 万 → 自建。但 70-80% 的自建成本是人力,不是 GPU。团队平均超预算 340%。
|
||||
|
||||
### 2. [[cace-principle|模型复杂度 vs 可维护性]]
|
||||
CACE 原理:改变任何事物都会改变一切。为 2% 精度选复杂模型的代价是 18 个月的调试税。一年后谁拥有它?
|
||||
|
||||
### 3. [[data-quality-vs-quantity|数据数量 vs 数据质量]]
|
||||
超过噪声阈值,更多数据会降低性能。医疗 AI 最典型:专家标注小数据集 > 不可靠标注大数据集。避免"数据沼泽"。
|
||||
|
||||
### 4. [[batch-vs-real-time-inference|吞吐量 vs 延迟]]
|
||||
大多数业务问题不需要亚秒级预测。如果用户不会注意到预测是 5 分钟前还是 5 毫秒前,用批处理。
|
||||
|
||||
### 5. [[prompt-engineering-vs-fine-tuning|提示词工程 vs 微调]]
|
||||
提示词快、便宜、灵活,但脆弱。微调昂贵($1 万 + 6 周),但规模化可靠。混合模式(微调风格 + RAG 事实)日益普及。
|
||||
|
||||
### 6. [[human-in-the-loop|自动化 vs 人类监督]]
|
||||
完全人工审查无法规模化。选择性 HITL:边缘案例、低置信度、高风险决策才触发人工。AI 处理规模,人类处理不可逆性。
|
||||
|
||||
## 关键概念网络
|
||||
|
||||
- [[ai-production-tradeoffs|AI 生产权衡]] — 六大维度的总览
|
||||
- [[ml-technical-debt|ML 技术债务]] — 数据依赖比代码依赖更昂贵
|
||||
- [[selective-hitl|选择性 HITL]] — 只有在最需要时引入人工
|
||||
- [[data-swamp|数据沼泽]] — 存储便宜带来的隐性成本
|
||||
|
||||
来源:[原始存档](raw/articles/nobrega-ai-production-tradeoffs-2026.md)
|
||||
Reference in New Issue
Block a user