← 返回信息流
AI 资讯The Verge AI·2 天前

实测Google Gemini Spark AI代理:表现惊艳但性价比存疑

原标题:Gemini’s new AI agent is about as good as Google’s demo

速览

Google推出的Gemini Spark是一款号称能全天候在后台自动执行多步任务的AI代理。尽管实测中其表现令人印象深刻,但作者对其带来的财务成本及潜在的隐私泄露风险持保留态度。该工具强调用户主导权,但在实际应用中仍需谨慎权衡利弊。

AI 深度解读

Gemini 的新 AI 智能体表现如何?Google 演示的真相

背景

Google 近期推出了名为 Gemini Spark 的“24/7”AI 智能体(AI Agent)。Google 将其定位为一款能够在后台自主执行多步骤任务的工具,旨在让用户将手机放下或离开电脑,由 AI 代为处理复杂工作。Google 在 Spark 官网显著位置强调,该智能体“始终受你指挥”、“由你开启”,并且“在执行重大操作前会征得你的同意”。

然而,随着公众对 AI 技术的疑虑日益增加,这种“自主性”也引发了关于隐私、成本以及实际效用性的质疑。The Verge 的记者上周获得了测试 Gemini Spark 的权限,并试图通过复现 Google I/O 大会上的演示场景,来评估其在真实家庭办公环境中的表现,以及其高昂的订阅费用和潜在的隐私风险是否物有所值。

核心内容

为了验证 Gemini Spark 的实际能力,作者参考同事 Antonio 的建议,直接复现了 Google 副总裁 Josh Woodward 在 I/O 大会上展示的演示案例,并在此基础上进行了更具挑战性的个人化测试。

1. 复现 Google I/O 演示:内部任务 vs. 个人任务

在 I/O 大会上,Woodward 演示了让 Spark 起草一封发给 Google 团队的邮件,汇总 Gemini Live 的发布情况,并使用特殊的 AI 技能模仿他的语气。由于这是 Google 内部任务,执行起来毫无悬念。

作者决定将难度升级,测试 Spark 处理个人数据的能力。他要求 Spark 起草一封发给妻子的邮件,汇总 2026 年的月度平均杂货支出。这项测试旨在考察三个关键点:

  • Spark 能否在不提供名字的情况下识别出“妻子”是谁?
  • 能否在 Google Drive 中找到文件名不含“budget”的预算表格?
  • 能否在 Gmail 中成功起草邮件?

结果令人震惊: Spark 成功找到了妻子的邮箱地址,从 2026 年的预算表格中提取了数据(包括尚未结束的 5 月不完整数据),计算了平均值,并直接在 Gmail 中起草了邮件。更令人惊讶的是,邮件正文中使用了妻子的名字(尽管邮箱地址中不包含名字),甚至包含了夫妻间特有的落款用语。

2. 复杂规划任务:街区派对(Block Party)的失败与修正

Woodward 的第二个演示是规划一个街区派对。作者尝试让 Spark 解决同样的问题,但初次尝试并不顺利:

  • Spark 生成了一个包含亲友名单的表格作为“高度逼真的参考”,列出了每个人带什么食物。
  • 它在 Gmail 草稿中提及了一个并不存在的共享报名表。
  • 它生成了一个排版丑陋的演示文稿,详细列出了关于城市许可证的信息。

然而,当作者要求 Spark 创建那个缺失的报名表,并将链接插入到已起草的邮件中时,Spark 经过几分钟的计算,成功创建了电子表格并完成了链接插入。这表明 Spark 具备自我修正和多步任务执行的能力,但初始输出的准确性仍有待提高。

3. 语音交互与多任务处理:日历与文档

Woodward 的最后一个演示涉及语音交互:让 Spark 将 CEO Sundar Pichai 的会议标记为“热粉色”,给新邻居写邀请信,并创建一份儿童学期末待办事项文档。

作者进行了类似的个人测试:

  • 在每月的妻子生日前创建日历事件,并标记为“热粉色”。
  • 起草一封给家人的邮件,发送最新一季《Taskmaster》的第一集。
  • 创建一个文档,列出为幼儿准备上幼儿园所需了解的关键事项。

作者于周五下午 3:35 开始请求。虽然 Spark 曾请求访问联系人(作者拒绝),但任务在四分钟后完成。结果如下:

  • 日历: 事件时间正确,但颜色被标记为 Google 的“火烈鸟色”(flamingo),虽非严格意义上的“热粉色”,但足够接近。
  • 邮件: Spark 抓取了直系亲属的邮箱并起草了邮件(奇怪的是漏掉了妻子)。邮件正确引用了《Taskmaster》第一集的名称,但链接指向的是预告片而非正片。邮件中使用了作者常用的非正式用语“loool”。
  • 文档: Spark 在 Drive 中创建了幼儿园准备清单,但仅作者本人可见。当作者要求赋予妻子访问权限时,Spark 表示目前无法做到。

关键要点

  • 能力惊艳但非完美: Gemini Spark 在理解上下文、跨应用操作(Drive, Gmail, Calendar)以及个性化风格模仿方面表现出色,甚至能推断出未明确说明的人际关系和习惯。然而,它在细节准确性(如链接指向、颜色定义、权限设置)上仍存在瑕疵。
  • 自主性 vs. 监控需求: 尽管 Google 宣传 Spark 可以自主运行,但作者在测试过程中发现自己不得不频繁监控 Spark 的进展或检查手机通知。如果用户需要像微观管理员工一样管理 AI,那么“自主助手”的价值就大打折扣。
  • 成本高昂且门槛限制: 目前 Spark 仅对 Google AI Ultra 计划订阅者开放,月费高达 99.99 美元,且仅限美国地区和英语用户。作者认为,鉴于其功能尚不完美,且许多任务用户手动完成虽耗时但可行,目前的价格并不具备吸引力。
  • 隐私与数据依赖: Spark 在 Google 生态系统内表现最佳,尤其依赖于开启“Personal Intelligence”功能。虽然 Google 承诺 Gemini 不会直接在开启该功能的情况下训练于用户的 Gmail 收件箱,但用户仍需信任 Google 作为数据守护者。对于注重隐私的用户而言,这种数据共享带来的风险可能超过其便利性。
  • 适用场景有限: 目前 Spark 最适合那些深度嵌入 Google 生态、拥有大量历史数据且愿意为便利性和实验性功能支付高价的早期采用者。

意义与影响

Gemini Spark 的测试结果表明,当前的 AI 智能体在“执行多步骤、跨应用任务”方面已经取得了实质性突破,能够处理从数据汇总到日程安排等复杂工作。然而,它也暴露了当前 AI 代理(AI Agent)面临的几个核心挑战:

  1. 信任与控制的平衡: 用户是否真的愿意将控制权交给 AI?如果 AI 的输出需要人工逐一审核和修正,那么其节省时间的优势将被削弱。
  2. 隐私悖论: 为了提供高度个性化的服务,AI 需要访问大量个人数据。在缺乏明确数据所有权和保护机制的情况下,用户可能因隐私担忧而拒绝使用此类高级功能。
  3. 商业模式的可持续性: 高昂的订阅费用($99.99/月)与目前尚不成熟的功能之间存在差距。Google 需要证明 Spark 能带来显著的效率提升,以说服用户为“潜在风险”和“不完全准确”的服务买单。

总体而言,Gemini Spark 展示了 AI 从“聊天机器人”向“行动代理”转型的巨大潜力,但在普及之前,Google 仍需解决准确性、隐私信任和成本效益等关键问题。对于普通用户而言,目前可能还不是全面拥抱此类高级 AI 智能体的最佳时机。

查看原文 →theverge.com