GitHub 热榜GitHub Trending · 日·7 天前

Crawl4AI：面向大语言模型的开源网页爬虫与数据提取工具

原标题：unclecode/crawl4ai

Python★ 66,702 stars+210 今日

速览

Crawl4AI 是一个专为大语言模型优化的开源爬虫框架，支持异步抓取、智能内容提取及Markdown/JSON格式化输出。它内置了浏览器自动化和AI预处理能力，能高效处理动态网页，并将非结构化网页内容转化为LLM友好的数据格式，适用于RAG数据准备、AI Agent信息获取及大规模网络数据采集场景。

AI 深度解读

这是什么

Crawl4AI 是目前 GitHub 上最热门、星标数超过 6.6 万的开源 Web 爬虫项目（主语言 Python）。它不仅仅是一个传统的网页抓取工具，而是一个专为 LLM（大语言模型） 和 RAG（检索增强生成） 场景设计的现代化数据提取引擎。

Crawl4AI 的核心理念是将混乱的互联网数据转化为干净、结构化且对 LLM 友好的 Markdown 格式。它通过异步浏览器池、智能缓存和自适应爬取策略，实现了极高的提取速度和成本控制，旨在成为构建 AI Agent 和数据管道的基础设施。

解决的问题

在 AI 应用开发中，开发者长期面临以下痛点，Crawl4AI 针对性地提供了解决方案：

数据清洗成本高：传统爬虫获取的是原始 HTML，包含大量广告、导航栏和无关脚本，难以直接用于 LLM 训练或 RAG 索引。Crawl4AI 内置了智能过滤算法（如 BM25 和启发式过滤），能自动去除噪音，生成“Fit Markdown”。
反爬虫机制日益复杂：现代网站普遍采用 Cloudflare、Bot Detection 等高级反爬手段。Crawl4AI 提供了三层反检测机制，支持代理升级、Shadow DOM 展平以及模拟真实用户行为（Stealth Mode），大幅降低被封禁的风险。
现有方案昂贵且封闭：许多商业 API 服务需要付费订阅、API Token 且存在速率限制。Crawl4AI 坚持开源免费，允许开发者本地部署，拥有完全的数据所有权，且无需依赖第三方密钥即可运行核心功能。
动态内容渲染困难：对于依赖 JavaScript 渲染的单页应用（SPA）或无限滚动页面，传统 HTTP 请求无法获取内容。Crawl4AI 基于 Playwright，支持完整的浏览器渲染、JS 执行和懒加载处理。

核心功能

Crawl4AI 的功能模块覆盖了从浏览器控制到数据输出的全流程：

1. 智能 Markdown 生成

Clean Markdown：生成结构清晰、格式准确的 Markdown，保留标题、表格、代码块等语义结构。
Fit Markdown：基于启发式算法过滤无关内容，提取核心信息，专为 AI 处理优化。
引用与参考：自动将页面链接转换为编号引用列表，方便 LLM 溯源。
自定义策略：支持用户编写自定义策略来调整 Markdown 生成逻辑。

2. 结构化数据提取

LLM 驱动提取：支持接入各种开源或闭源 LLM，通过自然语言指令提取结构化数据。
多粒度分块：提供基于主题、正则表达式或句子的分块策略，适配不同粒度的数据处理需求。
语义相似度检索：利用余弦相似度算法，根据用户查询精准定位相关内容片段。
CSS/XPath 提取：支持快速基于 Schema 定义的结构化 JSON 提取，无需调用 LLM 即可获取固定格式数据。

3. 高级浏览器集成

托管浏览器与远程控制：支持使用用户自有浏览器（避免指纹检测）或通过 Chrome DevTools Protocol (CDP) 进行远程大规模控制。
会话管理：支持保存浏览器状态（Cookie、登录态），实现多步骤复杂交互爬取。
代理与反检测：无缝集成代理服务器，支持修改 Headers、User-Agent，具备隐身模式（Stealth Mode）。
多浏览器支持：兼容 Chromium、Firefox 和 WebKit。

4. 深度爬取与内容捕获

动态内容处理：执行 JavaScript，等待异步加载，处理懒加载图片。
全页扫描：模拟滚动行为以捕获无限滚动页面的所有内容。
多媒体提取：支持提取图片、音频、视频及响应式图片格式（srcset/picture）。
IFrame 内容提取：能够深入提取嵌入 iframe 中的内容。
截图与元数据：支持爬取过程中截图调试，并提取页面结构化元数据。

5. 部署与运维

Docker 化部署：提供优化的 Docker 镜像和 FastAPI 服务器，一键部署。
API 网关：内置 JWT 认证，支持 API 化工作流。
云原生架构：针对大规模生产环境优化，支持主流云平台部署。

亮点 / 与同类相比

独特优势：

极速发现：v0.8.0 引入的 prefetch=True 模式，使 URL 发现速度提升 5-10 倍。
断点续爬：支持 resume_state 和回调函数，适合长时间运行的深度爬取任务。
安全更新：针对 PyPI 供应链攻击，迅速替换依赖库（如 litellm），保障用户安全。

适合谁用 / 上手

适合人群

AI/LLM 应用开发者：需要高质量、清洗后的网页数据构建 RAG 知识库或训练数据。
数据科学家：需要从互联网大规模获取非结构化数据并进行结构化处理。
初创公司与企业：希望降低数据获取成本，避免 API 依赖，同时需要灵活控制爬取策略。
研究人员：需要爬取学术网站、新闻门户等，并保留引用关系和元数据。

快速上手指南

1. 安装

# 安装最新版
pip install -U crawl4ai

# 安装预发布版本
pip install crawl4ai --pre

# 运行安装后配置
crawl4ai-setup

# 验证安装
crawl4ai-doctor

2. 浏览器依赖 如果遇到浏览器相关问题，手动安装 Playwright 依赖：

python -m playwright install --with-deps chromium

3. Python 代码示例

import asyncio
from crawl4ai import *

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.nbcnews.com/business",
        )
        print(result.markdown)

if __name__ == "__main__":
    asyncio.run(main())

4. 命令行界面 (CLI) Crawl4AI 也提供了强大的 CLI 工具：

# 基础爬取并输出 Markdown
crwl https://www.nbcnews.com/business -o markdown

# 深度爬取，BFS 策略，最多 10 页
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10

# 使用 LLM 提取特定信息
crwl https://www.example.com/products -q "Extract all product prices"

Crawl4AI 凭借其开源、高效和对 AI 场景的深度优化，已成为构建下一代数据管道的首选工具之一。

查看原文 →github.com