20260429:一些新东西

2026-04-29 16:28:13 +08:00
parent 0b1535dfaf
commit 56c4d3ef7c
70 changed files with 2798 additions and 3 deletions
--- a/raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md
+++ b/raw/articles/shenfei-crawl4ai-open-source-web-crawler-2024.md
@@ -0,0 +1,77 @@
+# Crawl4AI：赋能AI用户的开源智能网页爬虫与数据提取工具
+
+**来源**: 知乎专栏  
+**作者**: 沈飞  
+**链接**: https://zhuanlan.zhihu.com/p/717965307  
+**获取日期**: 2024年（文章发布时间）  
+**文章类型**: 技术介绍 / 工具推荐  
+
+## 文章摘要
+
+Crawl4AI 是一个专为大型语言模型（LLM）和 AI 应用设计的开源网页爬虫与数据提取工具。它能够自动将网页内容转换为结构化的 Markdown 格式，简化 RAG（检索增强生成）和模型微调所需的数据获取流程。
+
+## 核心特性
+
+### 1. 智能内容提取
+- **自动转换**: 将网页内容自动转换为结构化 Markdown 格式
+- **多种提取方式**: 支持 JSON CSS 提取、JSON XPath 提取、LLM 提取
+- **数据获取简化**: 专门为 RAG 和微调场景优化数据获取流程
+
+### 2. 技术架构
+- **协议支持**: 支持 HTTP(S) 协议
+- **合规性**: 遵守 robots.txt 规则
+- **开源协议**: Apache 2.0 许可证
+
+### 3. 配置灵活性
+- **自定义 User-Agent**: 支持自定义请求头标识
+- **代理设置**: 支持通过代理服务器访问
+- **会话管理**: 支持会话状态管理
+
+### 4. 缓存机制
+- **多种缓存模式**:
+  - ENABLED（默认）: 启用缓存
+  - DISABLED: 禁用缓存
+  - READ_ONLY: 只读模式
+  - WRITE_ONLY: 只写模式
+  - BYPASS: 绕过缓存
+- **缓存管理命令**:
+  - `aclear_cache()`: 清除缓存
+  - `aflush_cache()`: 刷新缓存
+
+## 应用场景
+
+### 1. RAG 数据准备
+- 自动抓取和格式化网页内容用于知识库构建
+- 支持大规模数据采集和预处理
+
+### 2. 模型微调
+- 获取高质量训练数据
+- 支持特定领域内容抓取
+
+### 3. AI 应用开发
+- 为 AI 代理提供实时数据获取能力
+- 支持自动化信息检索流程
+
+## 技术亮点
+
+1. **LLM 友好**: 专为大型语言模型应用设计，输出格式直接可用
+2. **易于集成**: 简单的 API 设计，便于嵌入现有工作流
+3. **开源生态**: Apache 2.0 许可证，支持社区贡献和二次开发
+4. **灵活配置**: 丰富的配置选项适应不同场景需求
+
+## 评价与意义
+
+Crawl4AI 代表了 AI 时代数据获取工具的发展方向：
+- **从通用到专用**: 专为 AI/LLM 工作流优化
+- **从原始到结构化**: 自动转换为 AI 可用的格式
+- **从复杂到简单**: 降低数据获取的技术门槛
+
+## 相关资源
+
+- **知乎原文**: https://zhuanlan.zhihu.com/p/717965307
+- **项目信息**: Crawl4AI 开源项目
+- **许可证**: Apache 2.0
+
+---
+*创建时间: 2026-04-22*  
+*Wiki 集成: 已完成*