AI 资讯Hacker News·3 小时前

无需工程化框架即可构建AI智能体

原标题：Building agents without harness engineering

速览

文章提出了一种新的AI智能体构建方法，旨在摆脱对传统工程化框架的依赖。这种方法简化了开发流程，使智能体的创建更加灵活和高效。对于希望快速迭代和优化AI应用的团队而言，这一思路具有重要的参考价值。

AI 深度解读

构建 Agent 无需再搞“Harness 工程”：Prism 的 API 化突围

背景

在 AI Agent（智能体）开发领域，开发者往往陷入一种“重复造轮子”的困境。虽然各大模型提供商（如 OpenAI、Anthropic）和框架（如 LangChain、Vercel AI SDK）提供了基础支持，但构建一个具备生产级能力的 Agent 仍需要处理大量底层基础设施问题。

Prismvideos 最初基于 Vercel AI Agents SDK 构建了一个媒体生成 Agent，该 Agent 能够推荐模型、生成图像和视频，并分析视频内容。然而，竞争对手 Higgsfield 推出的名为 Supercomputer 的 Agent 展示了令人震惊的能力：它拥有跨会话的观察性记忆（Observational Memory）、技能（Skills）、自动化工作流、内置计算机环境以及持久化文件系统。

这一竞争态势让 Prism 团队意识到，如果继续从零构建这些通用功能，不仅耗时数周，而且无法形成差异化优势。与此同时，开源个人 Agent 项目 Hermes 在 GitHub 上获得了超过 18.5 万颗星，证明了其作为基础设施的潜力。Hermes 并非昙花一现的极客玩具，而是具备会话管理、内置工具、自我学习和自动化能力的成熟底座。

核心内容

Prism 团队决定改变策略：不再自行构建 Agent 的底层基础设施（Harness），而是直接利用 Hermes 作为基础原语（Primitive），并通过 API 将其封装为服务。

1. 架构重构：从自建到托管

Prism 删除了原有的 Agent 代码，转而启动一个基于 Hono 服务器的 EC2 实例。该服务器执行以下关键操作：

动态实例化为每个客户在 Docker 容器中创建一个独立的 Hermes Agent 实例。
反向代理：作为应用与 Hermes Gateway 之间的消息传递中介。
实时通信：通过 WebSocket 连接与每个用户的 Hermes Agent 进行通信。

2. 开发范式的转变

开发者不再需要关注记忆管理、技能加载、自动化配置或文件系统持久化等通用工程问题。他们只需关注 Prismvideos 特有的业务逻辑，并通过 API 注入以下内容：

System Prompt（系统提示词）：定义 Agent 的角色和行为。
Tools（工具）：通过 MCP（Model Context Protocol）协议提供媒体创建和模型选择工具。
Skills（技能文件）：定义如何创建用户生成内容（UGC）视频、分镜脚本和视觉效果。
Connectors（连接器）：集成 Meta Ads Manager、Google Drive、Resend 等第三方服务。

3. API 交互示例

Prism 提供了一个统一的 API 端点 /v1/deployments，允许开发者通过单次 API 调用部署完整的 Agent 环境。

请求示例：

POST /v1/deployments
Authorization: Bearer $PRISM_API_KEY
Content-Type: application/json
{
  "customer_id": "cus_123",
  "name": "Acme Creative Agent",
  "runtime": "hermes",
  "model": "anthropic/claude-sonnet-4.5",
  "system_prompt": "You are Acme's media generation agent...",
  "sandbox": {
    "enabled": true,
    "type": "docker",
    "persistent_filesystem": true
  },
  "mcp_servers": [
    {
      "name": "prism-media",
      "url": "https://api.prismvideos.com/mcp",
      "tools": ["search_models", "generate_video", ...]
    }
  ],
  "skills": [
    {
      "name": "ugc-video-creation",
      "source": "file",
      "path": ".prism/skills/ugc-video-creation/SKILL.md"
    }
  ],
  "secrets": {
    "META_ADS_TOKEN": "sec_meta_ads_token"
  },
  "features": {
    "memory": true,
    "dreaming": true,
    "automations": true,
    "steering": true,
    "filesystem_webhooks": true
  }
}

响应示例：

{
  "deployment_id": "dep_7xK9s2",
  "customer_id": "cus_123",
  "runtime": "hermes",
  "status": "ready",
  "model": "anthropic/claude-sonnet-4.5",
  "thread_id": "thr_default_8a1",
  "filesystem": {
    "workspace_path": "/workspace",
    "persistent": true
  },
  "events": {
    "transport": "sse",
    "url": "https://api.prismagents.com/v1/deployments/dep_123/events"
  }
}

开发者只需携带系统提示词、技能、工具和连接器，即可获得一个可通过 SSE（Server-Sent Events）进行聊天的 Agent 端点。

4. 行业对比：Prism vs. LangChain vs. Claude

目前，LangChain 推出了 Managed Deep Agents，Anthropic 推出了 Managed Agents。Prism 认为这些方案虽然强大，但在功能完整性上仍有不足：

LangChain Managed Deep Agents：是一个托管运行时，开发者可注入提示词、MCP 工具和子 Agent 定义。但它不暴露自动化功能，没有内置的自我学习机制，也不支持持久化目标（Persistent Goals，即文中提到的 "Ralph Wiggum loop"，指 Agent 能持续反思和迭代的能力）。
Claude Managed Agents：处于研究预览阶段，具备自我学习能力，但同样不暴露自动化功能，不支持持久化目标，且由于模型限制，无法通过 API 接受视频输入。
Prism 的优势：通过 Hermes 底层，原生支持自动化、持久化目标、自我学习（Dreaming）以及视频输入，提供了更完整的 Agent 能力栈。

关键要点

Agent 是新的基础原语：会话管理、工具集成、记忆、自我学习、自动化、持久化文件系统和容器化部署已成为任何 Agent 应用的标配，不应由每个开发者重复构建。
Hermes 作为基础设施：Hermes 是一个拥有 18.5k+ GitHub 星标的开源个人 Agent，具备会话压缩、内置工具链和自动化能力，适合作为构建上层应用的底层基座。
API 化部署简化流程：Prism 通过单一 API 调用即可部署包含沙箱、MCP 服务器、技能文件和密钥管理的完整 Agent 实例，大幅降低开发门槛。
差异化价值在于数据与偏好：AI Agent 初创公司若想致富，不应致力于开发通用的 Agent Harness（因为竞争者很快会推出功能更全面的替代品），而应专注于整合客户的专有数据并学习其偏好。
功能完整性对比：相比 LangChain 和 Claude 的托管方案，Prism 的方案在自动化、持久化目标和多媒体输入支持上更具优势。
商业策略：Prism 向拥有面向消费者聊天产品的开发者开放合作，愿意代为构建 Agent，体现了从“卖工具”到“卖能力”的服务转型。

意义与影响

这篇文章揭示了 AI Agent 开发领域的一个重要趋势：基础设施的抽象化与标准化。

降低开发门槛：通过封装复杂的底层工程（如记忆管理、沙箱部署、MCP 集成），开发者可以将精力集中在业务逻辑和用户体验上。这类似于云计算时代，开发者不再需要管理物理服务器，只需调用 API 即可获取计算资源。
加速创新迭代：当“Harness Engineering”（Harness 工程）不再是瓶颈，初创公司可以更快地验证创意。例如，Prism 提到的“每周分析表现最好的视频并生成五个变体”这样的自动化工作流，以前需要数周开发，现在只需配置技能和提示词即可实现。
竞争焦点的转移：随着通用 Agent 能力的普及，竞争将从“谁拥有更好的 Agent 框架”转向“谁

查看原文 →rajitkhanna.com