← 返回信息流
AI 资讯Hacker News·4 天前

The Website Specification

AI 深度解读

The Website Specification:一份面向人类与 AI 代理的通用网站技术规范

背景

在当前的 Web 开发生态中,虽然前端框架层出不穷(如 Next.js、Astro、Hugo 等),CMS 系统林立(如 WordPress、Drupal、TYPO3 等),但关于“一个体面的网站究竟应该具备哪些基本技术特征”却缺乏一份统一、权威且跨平台的参考标准。开发者往往陷入具体实现细节的争论,而忽视了底层的技术共识。

《The Website Specification》(网站规范)正是在此背景下诞生的一份开源文档。它不仅仅是一份技术清单,更是一份旨在连接人类开发者与 AI 智能代理(AI Agents)的桥梁。该规范由社区公开构建,旨在为所有类型的网站提供一份平台无关(Platform-agnostic)的技术基准,从基础的 HTML 标签到现代化的 llms.txt 文件,从 WCAG 无障碍标准到 .well-known/security.txt 安全配置,力求覆盖现代 Web 体验的核心维度。

核心内容

该规范将网站应具备的技术特性划分为十大类别,共计 128 项具体指标。每一项指标都严格对应广泛接受的标准(如 WHATWG、W3C、IETF RFCs、WCAG、MDN 等),确保其权威性与客观性,而非基于个人偏好。

以下是这十大核心领域的详细解读:

1. 基础 (Foundations)

  • 数量:14 项
  • 内容:涵盖每个页面必不可少的 HTML、<head> 元素及文档基础结构。这是 Web 存在的基石,确保浏览器能正确解析和渲染页面。

2. 搜索引擎优化 (SEO)

  • 数量:13 项
  • 内容:聚焦于搜索可见性。包括 robots.txt 配置、站点地图(Sitemaps)、规范链接(Canonicals)以及结构化数据(Structured Data)。这些元素帮助搜索引擎理解并索引网站内容。

3. 无障碍性 (Accessibility)

  • 数量:20 项
  • 内容:遵循 WCAG(Web Content Accessibility Guidelines)对齐规则。确保网站对具有不同能力的人群(如视障、听障用户)友好,体现 Web 的包容性。

4. 安全性 (Security)

  • 数量:12 项
  • 内容:涉及 HTTP 头、传输层安全及各类安全策略。旨在保护访问者免受常见网络威胁,如 XSS、点击劫持等,确保数据传输的安全与隐私。

5. 已知 URI (Well-Known URIs)

  • 数量:9 项
  • 内容:定义在 /.well-known/ 路径下的标准且公认的路径。例如 /.well-known/security.txt,用于公开安全联系人信息,增强网站的可信度与透明度。

6. 代理就绪性 (Agent Readiness)

  • 数量:18 项
  • 内容:这是该规范最具前瞻性的部分。它关注如何让网站对 AI 代理(AI Agents)和爬虫更具可读性。包括支持 llms.txt 等新型元数据格式,使大语言模型能更高效地提取和利用网站信息。

7. 性能 (Performance)

  • 数量:19 项
  • 内容:涵盖 Core Web Vitals(核心网页指标)、缓存策略、图片优化、字体加载及网络行为。高性能是用户体验的关键,直接影响加载速度与交互流畅度。

8. 隐私 (Privacy)

  • 数量:6 项
  • 内容:涉及用户同意机制、隐私信号(Privacy Signals)及对访客选择的尊重。在数据保护法规日益严格的今天,合规的隐私处理至关重要。

9. 韧性 (Resilience)

  • 数量:5 项
  • 内容:关注优雅失败(Graceful failure)。包括自定义错误页面、离线支持及重定向策略。确保在网站部分组件失效或网络不稳定时,用户仍能获得良好的体验。

10. 国际化 (Internationalisation)

  • 数量:12 项
  • 内容:涵盖语言、区域设置(Locale)、文本方向及翻译内容。确保网站能正确服务于全球不同语言和文化背景的用户。

规范的使用方式与特性

  • 标准而非观点:每一项建议都链接回其来源标准(WHATWG, W3C, IETF 等),确保客观性。
  • 平台无关:无论使用 WordPress、Drupal、Next.js 还是纯 HTML,该规范均适用。实现方式应遵循规范,而非反之。
  • 公开构建:所有页面均提供 GitHub 编辑链接,欢迎 PR(Pull Request),并在每页注明来源。
  • 面向 AI 代理的查询支持
    • 整个规范作为一个只读、无需认证的 MCP(Model Context Protocol)服务器提供。
    • 发布了一个 Agent Skill,教导兼容的 AI 代理何时以及如何使用该规范。
    • 支持通过 /llms.txtAccept: text/markdown 获取每页的 Markdown 格式内容,便于 AI 解析。

关键要点

  • 跨平台通用性:规范不绑定任何特定技术栈(如 React、Vue 或 WordPress),适用于所有 Web 实现方式。
  • 双重视角:既服务于人类开发者(提供审计清单和学习资源),也服务于 AI 代理(提供结构化数据、MCP 接口和 llms.txt 支持)。
  • 标准化背书:所有建议均基于 WHATWG、W3C、IETF、WCAG 等权威组织发布的标准,避免主观臆断。
  • 开源协作:项目完全公开,鼓励社区通过 GitHub PR 进行贡献和纠错,来源标注清晰。
  • 实用工具链
    • 审计:通过“是/否”清单快速检查网站合规性。
    • 学习:点击任意条目可查看其定义、重要性及实施指南。
    • 改进:发现错误或遗漏可提交 PR,但需提供来源证明。
  • AI 原生集成:特别强调 Agent Readiness 类别,并通过 MCP 服务器和 Agent Skill 降低 AI 代理获取和理解网站规范的门槛。

意义与影响

《The Website Specification》的出现标志着 Web 标准从“人类可读”向“人机共读”的重要演进。

首先,它统一了最佳实践的基准。在碎片化的 Web 开发环境中,它为开发者提供了一份清晰的“及格线”和“优秀线”,减少了因缺乏共识而导致的重复造轮子或低级错误。

其次,它推动了 Web 的 AI 就绪性。随着 AI 代理逐渐深入互联网,网站如何向 AI 提供结构化、可信赖的信息成为新课题。该规范通过引入 llms.txt 和专门的“代理就绪性”类别,为网站适应 AI 时代的需求提供了具体路径。

最后,它强化了 Web 的开放性与韧性。通过强调无障碍、隐私、安全性和韧性,该规范重申了 Web 作为公共基础设施的社会责任。它不仅是一份技术文档,更是一种倡导:无论技术如何变迁,一个体面的网站应当始终尊重用户、保护隐私、并具备高度的可访问性与安全性。

对于开发者而言,这是一份值得纳入日常开发流程的检查清单;对于 AI 研究者而言,这是一个理解如何结构化获取 Web 知识的宝贵资源库。

查看原文 →specification.website