AI 资讯Hacker News·4 天前

The Website Specification

AI 深度解读

The Website Specification：一份面向人类与 AI 代理的通用网站技术规范

背景

在当前的 Web 开发生态中，虽然前端框架层出不穷（如 Next.js、Astro、Hugo 等），CMS 系统林立（如 WordPress、Drupal、TYPO3 等），但关于“一个体面的网站究竟应该具备哪些基本技术特征”却缺乏一份统一、权威且跨平台的参考标准。开发者往往陷入具体实现细节的争论，而忽视了底层的技术共识。

《The Website Specification》（网站规范）正是在此背景下诞生的一份开源文档。它不仅仅是一份技术清单，更是一份旨在连接人类开发者与 AI 智能代理（AI Agents）的桥梁。该规范由社区公开构建，旨在为所有类型的网站提供一份平台无关（Platform-agnostic）的技术基准，从基础的 HTML 标签到现代化的 llms.txt 文件，从 WCAG 无障碍标准到 .well-known/security.txt 安全配置，力求覆盖现代 Web 体验的核心维度。

核心内容

该规范将网站应具备的技术特性划分为十大类别，共计 128 项具体指标。每一项指标都严格对应广泛接受的标准（如 WHATWG、W3C、IETF RFCs、WCAG、MDN 等），确保其权威性与客观性，而非基于个人偏好。

以下是这十大核心领域的详细解读：

1. 基础 (Foundations)

数量：14 项
内容：涵盖每个页面必不可少的 HTML、<head> 元素及文档基础结构。这是 Web 存在的基石，确保浏览器能正确解析和渲染页面。

2. 搜索引擎优化 (SEO)

数量：13 项
内容：聚焦于搜索可见性。包括 robots.txt 配置、站点地图（Sitemaps）、规范链接（Canonicals）以及结构化数据（Structured Data）。这些元素帮助搜索引擎理解并索引网站内容。

3. 无障碍性 (Accessibility)

数量：20 项
内容：遵循 WCAG（Web Content Accessibility Guidelines）对齐规则。确保网站对具有不同能力的人群（如视障、听障用户）友好，体现 Web 的包容性。

4. 安全性 (Security)

数量：12 项
内容：涉及 HTTP 头、传输层安全及各类安全策略。旨在保护访问者免受常见网络威胁，如 XSS、点击劫持等，确保数据传输的安全与隐私。

5. 已知 URI (Well-Known URIs)

数量：9 项
内容：定义在 /.well-known/ 路径下的标准且公认的路径。例如 /.well-known/security.txt，用于公开安全联系人信息，增强网站的可信度与透明度。

6. 代理就绪性 (Agent Readiness)

数量：18 项
内容：这是该规范最具前瞻性的部分。它关注如何让网站对 AI 代理（AI Agents）和爬虫更具可读性。包括支持 llms.txt 等新型元数据格式，使大语言模型能更高效地提取和利用网站信息。

7. 性能 (Performance)

数量：19 项
内容：涵盖 Core Web Vitals（核心网页指标）、缓存策略、图片优化、字体加载及网络行为。高性能是用户体验的关键，直接影响加载速度与交互流畅度。

8. 隐私 (Privacy)

数量：6 项
内容：涉及用户同意机制、隐私信号（Privacy Signals）及对访客选择的尊重。在数据保护法规日益严格的今天，合规的隐私处理至关重要。

9. 韧性 (Resilience)

数量：5 项
内容：关注优雅失败（Graceful failure）。包括自定义错误页面、离线支持及重定向策略。确保在网站部分组件失效或网络不稳定时，用户仍能获得良好的体验。

10. 国际化 (Internationalisation)

数量：12 项
内容：涵盖语言、区域设置（Locale）、文本方向及翻译内容。确保网站能正确服务于全球不同语言和文化背景的用户。

规范的使用方式与特性

标准而非观点：每一项建议都链接回其来源标准（WHATWG, W3C, IETF 等），确保客观性。
平台无关：无论使用 WordPress、Drupal、Next.js 还是纯 HTML，该规范均适用。实现方式应遵循规范，而非反之。
公开构建：所有页面均提供 GitHub 编辑链接，欢迎 PR（Pull Request），并在每页注明来源。
面向 AI 代理的查询支持：
- 整个规范作为一个只读、无需认证的 MCP（Model Context Protocol）服务器提供。
- 发布了一个 Agent Skill，教导兼容的 AI 代理何时以及如何使用该规范。
- 支持通过 /llms.txt 或 Accept: text/markdown 获取每页的 Markdown 格式内容，便于 AI 解析。

关键要点

跨平台通用性：规范不绑定任何特定技术栈（如 React、Vue 或 WordPress），适用于所有 Web 实现方式。
双重视角：既服务于人类开发者（提供审计清单和学习资源），也服务于 AI 代理（提供结构化数据、MCP 接口和 llms.txt 支持）。
标准化背书：所有建议均基于 WHATWG、W3C、IETF、WCAG 等权威组织发布的标准，避免主观臆断。
开源协作：项目完全公开，鼓励社区通过 GitHub PR 进行贡献和纠错，来源标注清晰。
实用工具链：
- 审计：通过“是/否”清单快速检查网站合规性。
- 学习：点击任意条目可查看其定义、重要性及实施指南。
- 改进：发现错误或遗漏可提交 PR，但需提供来源证明。
AI 原生集成：特别强调 Agent Readiness 类别，并通过 MCP 服务器和 Agent Skill 降低 AI 代理获取和理解网站规范的门槛。

意义与影响

《The Website Specification》的出现标志着 Web 标准从“人类可读”向“人机共读”的重要演进。

首先，它统一了最佳实践的基准。在碎片化的 Web 开发环境中，它为开发者提供了一份清晰的“及格线”和“优秀线”，减少了因缺乏共识而导致的重复造轮子或低级错误。

其次，它推动了 Web 的 AI 就绪性。随着 AI 代理逐渐深入互联网，网站如何向 AI 提供结构化、可信赖的信息成为新课题。该规范通过引入 llms.txt 和专门的“代理就绪性”类别，为网站适应 AI 时代的需求提供了具体路径。

最后，它强化了 Web 的开放性与韧性。通过强调无障碍、隐私、安全性和韧性，该规范重申了 Web 作为公共基础设施的社会责任。它不仅是一份技术文档，更是一种倡导：无论技术如何变迁，一个体面的网站应当始终尊重用户、保护隐私、并具备高度的可访问性与安全性。

对于开发者而言，这是一份值得纳入日常开发流程的检查清单；对于 AI 研究者而言，这是一个理解如何结构化获取 Web 知识的宝贵资源库。

查看原文 →specification.website