Google将保存Lens照片等搜索数据用于AI训练
速览
Google向用户发送电子邮件,宣布将保存通过搜索功能使用的图片、文件、音频和视频数据,并设立新的“搜索服务历史”设置。这些数据包括Google Lens搜索图像、实时搜索工具录音、语音搜索及翻译应用中的语音短语。用户可选择关闭此设置以阻止Google保存这些交互数据,Google表示将利用这些数据提供改进服务。
AI 深度解读
背景
Google 正在对其保存用户搜索交互数据的方式做出重大调整。这一变化通过向用户发送的电子邮件以及公司网站上的更新公告正式公布。长期以来,用户的搜索历史、视觉搜索数据以及部分语音交互数据主要被整合在“网页与应用活动”(Web & App Activity)这一设置中。然而,随着人工智能(AI)模型训练对高质量数据需求的激增,Google 决定将涉及媒体文件(图像、音频、视频)的搜索数据从原有的通用活动记录中剥离出来,建立一套新的数据收集与管理机制。这一举措旨在更精细地管理用户数据,同时为 AI 技术的迭代提供必要的燃料。
核心内容
Google 宣布将引入一项名为“搜索服务历史”(Search Services History)的新设置,用于专门保存用户在使用 Google 搜索服务时产生的媒体数据。根据 Google 网站上的更新说明,该设置涵盖的数据类型包括:
- Google Lens 照片:用户通过 Google Lens 进行视觉搜索时拍摄或上传的图片。
- Search Live 录音:使用其实时搜索工具(Search Live)时生成的录音文件。
- 语音搜索:通过语音进行的搜索查询。
- Translate 音频:用户在使用 Google Translate(翻译)功能时输入的语音短语。
Google 明确表示,收集这些数据的主要目的是“提供、开发和改进其服务”,其中特别提到了其 AI 模型。此外,如果用户开启了新的“个性化推荐”(Personalized Recommendations)设置,Google 还将利用这些数据提供个性化的建议和广告。
值得注意的是,这一新的“搜索服务历史”设置将与原有的“网页与应用活动”(Web & App Activity)选项分离。此前,搜索相关的交互记录以及保存音频录音和视觉搜索的开关都混杂在“网页与应用活动”中。现在,数据收集与个性化推荐将被拆分为两个独立的设置,赋予用户更细致的控制权。
对于已经通过“网页与应用活动”阻止 Google 保存搜索历史的用户,Google 承诺在过渡期间保持其“搜索服务历史”处于关闭状态。同时,用户的个性化偏好设置将在未来几个月内逐步推出新设置时一并迁移。
关键要点
- 新数据分类:Google 创建了独立的“搜索服务历史”(Search Services History)类别,专门用于存储图像、文件、音频和视频等媒体数据,这些数据此前可能分散在通用活动记录中。
- 涵盖范围广泛:受此影响的数据包括 Google Lens 拍摄的图像、Search Live 的实时录音、常规语音搜索以及 Google Translate 中的语音输入。
- AI 训练用途:Google 明确指出,保存这些数据不仅是为了改进搜索服务本身,还直接用于其 AI 模型的训练和优化。
- 设置独立化:数据保存功能与“个性化推荐”(Personalized Recommendations)功能解耦。用户可以选择关闭数据保存而不影响个性化推荐,反之亦然。
- 用户控制权:用户可以在新设置中手动关闭“搜索服务历史”以及其中的“保存媒体”(Save Media)选项,以阻止 Google 保存上述交互数据。
- 平滑过渡:对于已关闭历史保存的用户,系统将在过渡期自动保持相关设置关闭,确保用户隐私偏好不被意外重置。
- 实施时间表:新设置将在“未来几个月”内逐步向用户推出。
意义与影响
这一举措标志着 Google 在数据收集策略上的进一步精细化,同时也反映了 AI 时代下科技巨头对训练数据的迫切需求。
首先,数据价值的重新评估。将视觉和音频数据从通用的文本搜索历史中分离出来,意味着 Google 承认这些多模态数据具有独特的价值,特别是在训练多模态 AI 模型(如理解图像和语音的模型)方面。将这些数据单独列出,既突出了其重要性,也便于用户理解数据的具体用途。
其次,隐私透明度的提升与博弈。通过设立独立的设置选项,Google 试图在合规性和用户体验之间寻找平衡。将“数据保存”与“个性化推荐”解耦,允许用户在不牺牲广告相关性的前提下拒绝数据用于 AI 训练,这在一定程度上回应了用户对隐私的关切。然而,这也意味着用户需要更加主动地管理自己的隐私设置,否则默认情况下其数据可能被用于更广泛的 AI 开发。
最后,行业趋势的缩影。随着 LLM(大型语言模型)和生成式 AI 的发展,高质量、多样化的真实用户交互数据成为稀缺资源。Google 此举不仅是内部产品策略的调整,也是整个科技行业在数据收集、用户隐私与 AI 创新之间持续博弈的一个缩影。未来,我们可能会看到更多公司采用类似的分层数据管理策略,以在合规框架内最大化 AI 模型的训练效果。
