The Website Specification
AI 深度解读
The Website Specification:一份面向人类与 AI 代理的通用网站技术规范
背景
在当前的 Web 开发生态中,虽然前端框架层出不穷(如 Next.js、Astro、Hugo 等),CMS 系统林立(如 WordPress、Drupal、TYPO3 等),但关于“一个体面的网站究竟应该具备哪些基本技术特征”却缺乏一份统一、权威且跨平台的参考标准。开发者往往陷入具体实现细节的争论,而忽视了底层的技术共识。
《The Website Specification》(网站规范)正是在此背景下诞生的一份开源文档。它不仅仅是一份技术清单,更是一份旨在连接人类开发者与 AI 智能代理(AI Agents)的桥梁。该规范由社区公开构建,旨在为所有类型的网站提供一份平台无关(Platform-agnostic)的技术基准,从基础的 HTML 标签到现代化的 llms.txt 文件,从 WCAG 无障碍标准到 .well-known/security.txt 安全配置,力求覆盖现代 Web 体验的核心维度。
核心内容
该规范将网站应具备的技术特性划分为十大类别,共计 128 项具体指标。每一项指标都严格对应广泛接受的标准(如 WHATWG、W3C、IETF RFCs、WCAG、MDN 等),确保其权威性与客观性,而非基于个人偏好。
以下是这十大核心领域的详细解读:
1. 基础 (Foundations)
- 数量:14 项
- 内容:涵盖每个页面必不可少的 HTML、
<head>元素及文档基础结构。这是 Web 存在的基石,确保浏览器能正确解析和渲染页面。
2. 搜索引擎优化 (SEO)
- 数量:13 项
- 内容:聚焦于搜索可见性。包括
robots.txt配置、站点地图(Sitemaps)、规范链接(Canonicals)以及结构化数据(Structured Data)。这些元素帮助搜索引擎理解并索引网站内容。
3. 无障碍性 (Accessibility)
- 数量:20 项
- 内容:遵循 WCAG(Web Content Accessibility Guidelines)对齐规则。确保网站对具有不同能力的人群(如视障、听障用户)友好,体现 Web 的包容性。
4. 安全性 (Security)
- 数量:12 项
- 内容:涉及 HTTP 头、传输层安全及各类安全策略。旨在保护访问者免受常见网络威胁,如 XSS、点击劫持等,确保数据传输的安全与隐私。
5. 已知 URI (Well-Known URIs)
- 数量:9 项
- 内容:定义在
/.well-known/路径下的标准且公认的路径。例如/.well-known/security.txt,用于公开安全联系人信息,增强网站的可信度与透明度。
6. 代理就绪性 (Agent Readiness)
- 数量:18 项
- 内容:这是该规范最具前瞻性的部分。它关注如何让网站对 AI 代理(AI Agents)和爬虫更具可读性。包括支持
llms.txt等新型元数据格式,使大语言模型能更高效地提取和利用网站信息。
7. 性能 (Performance)
- 数量:19 项
- 内容:涵盖 Core Web Vitals(核心网页指标)、缓存策略、图片优化、字体加载及网络行为。高性能是用户体验的关键,直接影响加载速度与交互流畅度。
8. 隐私 (Privacy)
- 数量:6 项
- 内容:涉及用户同意机制、隐私信号(Privacy Signals)及对访客选择的尊重。在数据保护法规日益严格的今天,合规的隐私处理至关重要。
9. 韧性 (Resilience)
- 数量:5 项
- 内容:关注优雅失败(Graceful failure)。包括自定义错误页面、离线支持及重定向策略。确保在网站部分组件失效或网络不稳定时,用户仍能获得良好的体验。
10. 国际化 (Internationalisation)
- 数量:12 项
- 内容:涵盖语言、区域设置(Locale)、文本方向及翻译内容。确保网站能正确服务于全球不同语言和文化背景的用户。
规范的使用方式与特性
- 标准而非观点:每一项建议都链接回其来源标准(WHATWG, W3C, IETF 等),确保客观性。
- 平台无关:无论使用 WordPress、Drupal、Next.js 还是纯 HTML,该规范均适用。实现方式应遵循规范,而非反之。
- 公开构建:所有页面均提供 GitHub 编辑链接,欢迎 PR(Pull Request),并在每页注明来源。
- 面向 AI 代理的查询支持:
- 整个规范作为一个只读、无需认证的 MCP(Model Context Protocol)服务器提供。
- 发布了一个 Agent Skill,教导兼容的 AI 代理何时以及如何使用该规范。
- 支持通过
/llms.txt或Accept: text/markdown获取每页的 Markdown 格式内容,便于 AI 解析。
关键要点
- 跨平台通用性:规范不绑定任何特定技术栈(如 React、Vue 或 WordPress),适用于所有 Web 实现方式。
- 双重视角:既服务于人类开发者(提供审计清单和学习资源),也服务于 AI 代理(提供结构化数据、MCP 接口和
llms.txt支持)。 - 标准化背书:所有建议均基于 WHATWG、W3C、IETF、WCAG 等权威组织发布的标准,避免主观臆断。
- 开源协作:项目完全公开,鼓励社区通过 GitHub PR 进行贡献和纠错,来源标注清晰。
- 实用工具链:
- 审计:通过“是/否”清单快速检查网站合规性。
- 学习:点击任意条目可查看其定义、重要性及实施指南。
- 改进:发现错误或遗漏可提交 PR,但需提供来源证明。
- AI 原生集成:特别强调
Agent Readiness类别,并通过 MCP 服务器和 Agent Skill 降低 AI 代理获取和理解网站规范的门槛。
意义与影响
《The Website Specification》的出现标志着 Web 标准从“人类可读”向“人机共读”的重要演进。
首先,它统一了最佳实践的基准。在碎片化的 Web 开发环境中,它为开发者提供了一份清晰的“及格线”和“优秀线”,减少了因缺乏共识而导致的重复造轮子或低级错误。
其次,它推动了 Web 的 AI 就绪性。随着 AI 代理逐渐深入互联网,网站如何向 AI 提供结构化、可信赖的信息成为新课题。该规范通过引入 llms.txt 和专门的“代理就绪性”类别,为网站适应 AI 时代的需求提供了具体路径。
最后,它强化了 Web 的开放性与韧性。通过强调无障碍、隐私、安全性和韧性,该规范重申了 Web 作为公共基础设施的社会责任。它不仅是一份技术文档,更是一种倡导:无论技术如何变迁,一个体面的网站应当始终尊重用户、保护隐私、并具备高度的可访问性与安全性。
对于开发者而言,这是一份值得纳入日常开发流程的检查清单;对于 AI 研究者而言,这是一个理解如何结构化获取 Web 知识的宝贵资源库。
