← 返回信息流
AI 资讯Hacker News·4 小时前

无需工程化框架即可构建AI智能体

原标题:Building agents without harness engineering

速览

文章提出了一种新的AI智能体构建方法,旨在摆脱对传统工程化框架的依赖。这种方法简化了开发流程,使智能体的创建更加灵活和高效。对于希望快速迭代和优化AI应用的团队而言,这一思路具有重要的参考价值。

AI 深度解读

构建 Agent 无需再搞“Harness 工程”:Prism 的 API 化突围

背景

在 AI Agent(智能体)开发领域,开发者往往陷入一种“重复造轮子”的困境。虽然各大模型提供商(如 OpenAI、Anthropic)和框架(如 LangChain、Vercel AI SDK)提供了基础支持,但构建一个具备生产级能力的 Agent 仍需要处理大量底层基础设施问题。

Prismvideos 最初基于 Vercel AI Agents SDK 构建了一个媒体生成 Agent,该 Agent 能够推荐模型、生成图像和视频,并分析视频内容。然而,竞争对手 Higgsfield 推出的名为 Supercomputer 的 Agent 展示了令人震惊的能力:它拥有跨会话的观察性记忆(Observational Memory)、技能(Skills)、自动化工作流、内置计算机环境以及持久化文件系统。

这一竞争态势让 Prism 团队意识到,如果继续从零构建这些通用功能,不仅耗时数周,而且无法形成差异化优势。与此同时,开源个人 Agent 项目 Hermes 在 GitHub 上获得了超过 18.5 万颗星,证明了其作为基础设施的潜力。Hermes 并非昙花一现的极客玩具,而是具备会话管理、内置工具、自我学习和自动化能力的成熟底座。

核心内容

Prism 团队决定改变策略:不再自行构建 Agent 的底层基础设施(Harness),而是直接利用 Hermes 作为基础原语(Primitive),并通过 API 将其封装为服务。

1. 架构重构:从自建到托管

Prism 删除了原有的 Agent 代码,转而启动一个基于 Hono 服务器的 EC2 实例。该服务器执行以下关键操作:

  • 动态实例化为每个客户在 Docker 容器中创建一个独立的 Hermes Agent 实例。
  • 反向代理:作为应用与 Hermes Gateway 之间的消息传递中介。
  • 实时通信:通过 WebSocket 连接与每个用户的 Hermes Agent 进行通信。

2. 开发范式的转变

开发者不再需要关注记忆管理、技能加载、自动化配置或文件系统持久化等通用工程问题。他们只需关注 Prismvideos 特有的业务逻辑,并通过 API 注入以下内容:

  • System Prompt(系统提示词):定义 Agent 的角色和行为。
  • Tools(工具):通过 MCP(Model Context Protocol)协议提供媒体创建和模型选择工具。
  • Skills(技能文件):定义如何创建用户生成内容(UGC)视频、分镜脚本和视觉效果。
  • Connectors(连接器):集成 Meta Ads Manager、Google Drive、Resend 等第三方服务。

3. API 交互示例

Prism 提供了一个统一的 API 端点 /v1/deployments,允许开发者通过单次 API 调用部署完整的 Agent 环境。

请求示例:

POST /v1/deployments
Authorization: Bearer $PRISM_API_KEY
Content-Type: application/json
{
  "customer_id": "cus_123",
  "name": "Acme Creative Agent",
  "runtime": "hermes",
  "model": "anthropic/claude-sonnet-4.5",
  "system_prompt": "You are Acme's media generation agent...",
  "sandbox": {
    "enabled": true,
    "type": "docker",
    "persistent_filesystem": true
  },
  "mcp_servers": [
    {
      "name": "prism-media",
      "url": "https://api.prismvideos.com/mcp",
      "tools": ["search_models", "generate_video", ...]
    }
  ],
  "skills": [
    {
      "name": "ugc-video-creation",
      "source": "file",
      "path": ".prism/skills/ugc-video-creation/SKILL.md"
    }
  ],
  "secrets": {
    "META_ADS_TOKEN": "sec_meta_ads_token"
  },
  "features": {
    "memory": true,
    "dreaming": true,
    "automations": true,
    "steering": true,
    "filesystem_webhooks": true
  }
}

响应示例:

{
  "deployment_id": "dep_7xK9s2",
  "customer_id": "cus_123",
  "runtime": "hermes",
  "status": "ready",
  "model": "anthropic/claude-sonnet-4.5",
  "thread_id": "thr_default_8a1",
  "filesystem": {
    "workspace_path": "/workspace",
    "persistent": true
  },
  "events": {
    "transport": "sse",
    "url": "https://api.prismagents.com/v1/deployments/dep_123/events"
  }
}

开发者只需携带系统提示词、技能、工具和连接器,即可获得一个可通过 SSE(Server-Sent Events)进行聊天的 Agent 端点。

4. 行业对比:Prism vs. LangChain vs. Claude

目前,LangChain 推出了 Managed Deep Agents,Anthropic 推出了 Managed Agents。Prism 认为这些方案虽然强大,但在功能完整性上仍有不足:

  • LangChain Managed Deep Agents:是一个托管运行时,开发者可注入提示词、MCP 工具和子 Agent 定义。但它不暴露自动化功能,没有内置的自我学习机制,也不支持持久化目标(Persistent Goals,即文中提到的 "Ralph Wiggum loop",指 Agent 能持续反思和迭代的能力)。
  • Claude Managed Agents:处于研究预览阶段,具备自我学习能力,但同样不暴露自动化功能,不支持持久化目标,且由于模型限制,无法通过 API 接受视频输入。
  • Prism 的优势:通过 Hermes 底层,原生支持自动化、持久化目标、自我学习(Dreaming)以及视频输入,提供了更完整的 Agent 能力栈。

关键要点

  • Agent 是新的基础原语:会话管理、工具集成、记忆、自我学习、自动化、持久化文件系统和容器化部署已成为任何 Agent 应用的标配,不应由每个开发者重复构建。
  • Hermes 作为基础设施:Hermes 是一个拥有 18.5k+ GitHub 星标的开源个人 Agent,具备会话压缩、内置工具链和自动化能力,适合作为构建上层应用的底层基座。
  • API 化部署简化流程:Prism 通过单一 API 调用即可部署包含沙箱、MCP 服务器、技能文件和密钥管理的完整 Agent 实例,大幅降低开发门槛。
  • 差异化价值在于数据与偏好:AI Agent 初创公司若想致富,不应致力于开发通用的 Agent Harness(因为竞争者很快会推出功能更全面的替代品),而应专注于整合客户的专有数据并学习其偏好。
  • 功能完整性对比:相比 LangChain 和 Claude 的托管方案,Prism 的方案在自动化、持久化目标和多媒体输入支持上更具优势。
  • 商业策略:Prism 向拥有面向消费者聊天产品的开发者开放合作,愿意代为构建 Agent,体现了从“卖工具”到“卖能力”的服务转型。

意义与影响

这篇文章揭示了 AI Agent 开发领域的一个重要趋势:基础设施的抽象化与标准化

  1. 降低开发门槛:通过封装复杂的底层工程(如记忆管理、沙箱部署、MCP 集成),开发者可以将精力集中在业务逻辑和用户体验上。这类似于云计算时代,开发者不再需要管理物理服务器,只需调用 API 即可获取计算资源。
  2. 加速创新迭代:当“Harness Engineering”(Harness 工程)不再是瓶颈,初创公司可以更快地验证创意。例如,Prism 提到的“每周分析表现最好的视频并生成五个变体”这样的自动化工作流,以前需要数周开发,现在只需配置技能和提示词即可实现。
  3. 竞争焦点的转移:随着通用 Agent 能力的普及,竞争将从“谁拥有更好的 Agent 框架”转向“谁
查看原文 →rajitkhanna.com