无需工程化框架即可构建AI智能体
速览
文章提出了一种新的AI智能体构建方法,旨在摆脱对传统工程化框架的依赖。这种方法简化了开发流程,使智能体的创建更加灵活和高效。对于希望快速迭代和优化AI应用的团队而言,这一思路具有重要的参考价值。
AI 深度解读
构建 Agent 无需再搞“Harness 工程”:Prism 的 API 化突围
背景
在 AI Agent(智能体)开发领域,开发者往往陷入一种“重复造轮子”的困境。虽然各大模型提供商(如 OpenAI、Anthropic)和框架(如 LangChain、Vercel AI SDK)提供了基础支持,但构建一个具备生产级能力的 Agent 仍需要处理大量底层基础设施问题。
Prismvideos 最初基于 Vercel AI Agents SDK 构建了一个媒体生成 Agent,该 Agent 能够推荐模型、生成图像和视频,并分析视频内容。然而,竞争对手 Higgsfield 推出的名为 Supercomputer 的 Agent 展示了令人震惊的能力:它拥有跨会话的观察性记忆(Observational Memory)、技能(Skills)、自动化工作流、内置计算机环境以及持久化文件系统。
这一竞争态势让 Prism 团队意识到,如果继续从零构建这些通用功能,不仅耗时数周,而且无法形成差异化优势。与此同时,开源个人 Agent 项目 Hermes 在 GitHub 上获得了超过 18.5 万颗星,证明了其作为基础设施的潜力。Hermes 并非昙花一现的极客玩具,而是具备会话管理、内置工具、自我学习和自动化能力的成熟底座。
核心内容
Prism 团队决定改变策略:不再自行构建 Agent 的底层基础设施(Harness),而是直接利用 Hermes 作为基础原语(Primitive),并通过 API 将其封装为服务。
1. 架构重构:从自建到托管
Prism 删除了原有的 Agent 代码,转而启动一个基于 Hono 服务器的 EC2 实例。该服务器执行以下关键操作:
- 动态实例化为每个客户在 Docker 容器中创建一个独立的 Hermes Agent 实例。
- 反向代理:作为应用与 Hermes Gateway 之间的消息传递中介。
- 实时通信:通过 WebSocket 连接与每个用户的 Hermes Agent 进行通信。
2. 开发范式的转变
开发者不再需要关注记忆管理、技能加载、自动化配置或文件系统持久化等通用工程问题。他们只需关注 Prismvideos 特有的业务逻辑,并通过 API 注入以下内容:
- System Prompt(系统提示词):定义 Agent 的角色和行为。
- Tools(工具):通过 MCP(Model Context Protocol)协议提供媒体创建和模型选择工具。
- Skills(技能文件):定义如何创建用户生成内容(UGC)视频、分镜脚本和视觉效果。
- Connectors(连接器):集成 Meta Ads Manager、Google Drive、Resend 等第三方服务。
3. API 交互示例
Prism 提供了一个统一的 API 端点 /v1/deployments,允许开发者通过单次 API 调用部署完整的 Agent 环境。
请求示例:
POST /v1/deployments
Authorization: Bearer $PRISM_API_KEY
Content-Type: application/json
{
"customer_id": "cus_123",
"name": "Acme Creative Agent",
"runtime": "hermes",
"model": "anthropic/claude-sonnet-4.5",
"system_prompt": "You are Acme's media generation agent...",
"sandbox": {
"enabled": true,
"type": "docker",
"persistent_filesystem": true
},
"mcp_servers": [
{
"name": "prism-media",
"url": "https://api.prismvideos.com/mcp",
"tools": ["search_models", "generate_video", ...]
}
],
"skills": [
{
"name": "ugc-video-creation",
"source": "file",
"path": ".prism/skills/ugc-video-creation/SKILL.md"
}
],
"secrets": {
"META_ADS_TOKEN": "sec_meta_ads_token"
},
"features": {
"memory": true,
"dreaming": true,
"automations": true,
"steering": true,
"filesystem_webhooks": true
}
}
响应示例:
{
"deployment_id": "dep_7xK9s2",
"customer_id": "cus_123",
"runtime": "hermes",
"status": "ready",
"model": "anthropic/claude-sonnet-4.5",
"thread_id": "thr_default_8a1",
"filesystem": {
"workspace_path": "/workspace",
"persistent": true
},
"events": {
"transport": "sse",
"url": "https://api.prismagents.com/v1/deployments/dep_123/events"
}
}
开发者只需携带系统提示词、技能、工具和连接器,即可获得一个可通过 SSE(Server-Sent Events)进行聊天的 Agent 端点。
4. 行业对比:Prism vs. LangChain vs. Claude
目前,LangChain 推出了 Managed Deep Agents,Anthropic 推出了 Managed Agents。Prism 认为这些方案虽然强大,但在功能完整性上仍有不足:
- LangChain Managed Deep Agents:是一个托管运行时,开发者可注入提示词、MCP 工具和子 Agent 定义。但它不暴露自动化功能,没有内置的自我学习机制,也不支持持久化目标(Persistent Goals,即文中提到的 "Ralph Wiggum loop",指 Agent 能持续反思和迭代的能力)。
- Claude Managed Agents:处于研究预览阶段,具备自我学习能力,但同样不暴露自动化功能,不支持持久化目标,且由于模型限制,无法通过 API 接受视频输入。
- Prism 的优势:通过 Hermes 底层,原生支持自动化、持久化目标、自我学习(Dreaming)以及视频输入,提供了更完整的 Agent 能力栈。
关键要点
- Agent 是新的基础原语:会话管理、工具集成、记忆、自我学习、自动化、持久化文件系统和容器化部署已成为任何 Agent 应用的标配,不应由每个开发者重复构建。
- Hermes 作为基础设施:Hermes 是一个拥有 18.5k+ GitHub 星标的开源个人 Agent,具备会话压缩、内置工具链和自动化能力,适合作为构建上层应用的底层基座。
- API 化部署简化流程:Prism 通过单一 API 调用即可部署包含沙箱、MCP 服务器、技能文件和密钥管理的完整 Agent 实例,大幅降低开发门槛。
- 差异化价值在于数据与偏好:AI Agent 初创公司若想致富,不应致力于开发通用的 Agent Harness(因为竞争者很快会推出功能更全面的替代品),而应专注于整合客户的专有数据并学习其偏好。
- 功能完整性对比:相比 LangChain 和 Claude 的托管方案,Prism 的方案在自动化、持久化目标和多媒体输入支持上更具优势。
- 商业策略:Prism 向拥有面向消费者聊天产品的开发者开放合作,愿意代为构建 Agent,体现了从“卖工具”到“卖能力”的服务转型。
意义与影响
这篇文章揭示了 AI Agent 开发领域的一个重要趋势:基础设施的抽象化与标准化。
- 降低开发门槛:通过封装复杂的底层工程(如记忆管理、沙箱部署、MCP 集成),开发者可以将精力集中在业务逻辑和用户体验上。这类似于云计算时代,开发者不再需要管理物理服务器,只需调用 API 即可获取计算资源。
- 加速创新迭代:当“Harness Engineering”(Harness 工程)不再是瓶颈,初创公司可以更快地验证创意。例如,Prism 提到的“每周分析表现最好的视频并生成五个变体”这样的自动化工作流,以前需要数周开发,现在只需配置技能和提示词即可实现。
- 竞争焦点的转移:随着通用 Agent 能力的普及,竞争将从“谁拥有更好的 Agent 框架”转向“谁
