← 返回信息流
创投信息36氪 快讯·16 小时前

京东开源JoyAI-Echo长音视频生成框架

速览

京东近日推出并开源了JoyAI-Echo长音视频生成框架,其代码与权重均已公开。该框架创新性地引入了智能“导演助理”Director Agent,并内置专用记忆库。这一机制能在多镜头生成过程中,持续保存并精准调用角色的外观特征及说话人音色信息,显著提升生成内容的连贯性与一致性。

AI 深度解读

背景

在人工智能技术从单一模态向多模态、从短内容向长内容演进的当下,视频生成领域正面临从“生成片段”到“构建叙事”的跨越。京东近期推出的 JoyAI-Echo 长音视频生成框架,正是这一趋势下的代表性开源成果。与此同时,科技行业也在经历基础设施与合规环境的双重调整:一方面,微软将 Windows 推向“Agent 工位”概念,OpenAI 推动 ChatGPT 与 Codex 合体以强化智能体能力;另一方面,金融合规领域如长桥证券针对中国境内用户的交易限制调整,反映了跨境数据与金融服务的监管常态化。这些动态共同构成了当前科技与产业环境的宏观背景。

核心内容

京东正式开源了 JoyAI-Echo 长音视频生成框架,旨在解决长视频生成中角色一致性和音频同步的技术难题。该框架的核心创新在于引入了智能“导演助理”(Director Agent)。这一智能体并非简单的控制模块,而是内置了一个专门的记忆库(Memory Bank)。在多镜头生成的复杂过程中,该记忆库能够持续保存并精准调用角色的外观特征以及说话人的音色信息。这种机制确保了在长篇幅、多场景的视频生成中,角色形象不崩坏、音色不漂移,从而实现了更高水平的连贯性与一致性。目前,JoyAI-Echo 的代码与模型权重已全部开源,供开发者社区使用。

此外,文章还提及了其他几项行业动态:

  1. 长桥证券合规调整:为落实中国证监会关于2年集中整治期的行业监管要求,长桥证券发布通知,自6月12日起,对中国境内访问的客户调整服务。调整后,仅支持卖出、平仓操作及资金转出,禁止执行股票等所有品种的新开仓、加仓交易及资金转入。
  2. AI 智能体生态发展:OpenAI 官宣 ChatGPT 与 Codex 合体,打造面向10亿用户的“超级 Agent”;微软则发布新一代 Windows 系统概念,旨在将个人电脑转变为“Agent 工位”,强化本地智能体处理能力。

关键要点

  • 技术突破:JoyAI-Echo 通过内置记忆库和 Director Agent,实现了长视频中角色外观特征与说话人音色信息的持续保存与调用,解决了长视频生成中的连贯性痛点。
  • 开源策略:京东已将 JoyAI-Echo 的代码与权重全部开源,降低了开发者进入长视频生成领域的门槛,有助于生态繁荣。
  • 合规收紧:长桥证券因应中国证监会的监管要求,自6月12日起限制中国境内用户的交易权限(仅保留卖出、平仓、转出功能),体现了跨境金融服务的合规化趋势。
  • 智能体浪潮:从 OpenAI 的 ChatGPT+Codex 合体到微软 Windows 的“Agent 工位”定位,科技巨头正加速将 AI 从工具属性向智能体(Agent)属性转变,强调自主性与持续性。

意义与影响

JoyAI-Echo 的开源标志着长视频生成技术从实验室走向工业化应用的重要一步。通过引入“导演助理”和记忆机制,该技术不仅提升了生成内容的质量,更为影视制作、广告创意及虚拟人交互提供了新的技术底座。其开源行为将进一步激发社区创新,加速多模态生成技术的迭代。

与此同时,长桥证券的合规调整反映出中国金融监管对跨境互联网平台的规范化要求日益严格,企业需在合规框架内重新设计服务流程。而在更广泛的科技层面,ChatGPT 与 Codex 的整合以及 Windows 向 Agent 模式的演进,预示着个人计算设备将具备更强的自主决策与任务执行能力,AI 将从“被动响应”转向“主动服务”,深刻改变人机交互范式与软件开发工作流。

查看原文 →36kr.com