CNN起诉Perplexity,指控其AI工具生成“逐字”抄袭文章
速览
CNN在纽约法院起诉AI搜索引擎Perplexity,指控其AI工具生成与其新闻“逐字”相同的抄袭文章。诉讼还声称Perplexity利用爬虫绕过CNN的订阅付费墙,在未获授权或补偿的情况下抓取其原创内容。此举反映了传统媒体对AI公司数据抓取行为的法律反击。
AI 深度解读
CNN 起诉 Perplexity:AI 搜索引擎的“搬运”争议再升级
背景
随着生成式 AI 技术的爆发,大型语言模型(LLM)和 AI 搜索引擎在重塑信息获取方式的同时,也引发了关于版权、数据抓取和知识产权的激烈法律冲突。Perplexity AI 作为一家主打“答案引擎”的初创公司,凭借其实时搜索与 AI 总结相结合的功能迅速崛起,但其训练数据来源的合法性一直备受争议。
此前,包括《纽约时报》、Encyclopedia Britannica、Merriam-Webster、News Corp(《华尔街日报》母公司)以及 Amazon 和 Reddit 在内的多家知名媒体和平台均已对 Perplexity 提起了版权侵权诉讼。在此背景下,美国有线电视新闻网(CNN)也正式加入诉讼行列,指控 Perplexity 未经许可抓取其内容,并通过 AI 工具向用户免费分发受订阅墙保护的信息。
核心内容
CNN 于周四在纽约法院正式对 Perplexity 提起诉讼,指控该初创公司的 AI 工具生成了与其作品“逐字逐句”(verbatim)雷同的文章,并声称 Perplexity 向用户提供了原本锁定在 CNN 订阅墙后的付费内容。
1. 未经许可的数据抓取与规避措施 诉讼指出,Perplexity 在提供其 AI “答案”引擎以及 AI 浏览器 Comet 的过程中,无视 CNN 为识别或阻止 Perplexity 未识别爬虫(unidentified crawlers)抓取其内容所做出的努力。CNN 在诉状中强调:“人类记者进行报道、研究、写作、编辑和创作内容,而 Perplexity 在未获许可且未支付报酬的情况下窃取了这些内容。”
2. “逐字复制”的具体案例 CNN 提供了一个具体案例来佐证其指控:当用户仅输入文章标题“What’s next for Minneapolis? A shaky promise, mounting tensions and the fight for control”(明尼阿波利斯接下来会发生什么?一个摇摇欲坠的承诺、日益紧张的局势和控制权的争夺)作为提示词(prompt)时,Perplexity 的 AI 搜索工具生成了该文章“大量”的逐字复制内容。
3. 商业谈判破裂后的法律行动 诉讼还披露了双方此前曾有过合作尝试但最终失败的过程。CNN 与 Perplexity 曾于 2025 年 10 月达成一项协议,允许 CNN 的内容通过 Perplexity 的 Comet Plus 订阅服务提供。然而,由于双方在多个问题上无法达成一致,包括限制 Perplexity 在其用户回答中使用 CNN 内容的范围,该协议最终未能达成正式合约。
CNN 于 2025 年 11 月取消了该协议,并向 Perplexity 发送信函,要求其停止未经许可使用 CNN 的内容和商标。据 CNN 指控,Perplexity 对此未予回应。
4. 诉讼诉求与 Perplexity 的回应 CNN 此次诉讼旨在寻求损害赔偿,并要求法院永久禁止 Perplexity 的所谓非法行为。面对 CNN 的指控,Perplexity 发言人 Jesse Dwyer 回应称:“事实是不能被版权保护的。”(You can’t copyright facts.)
关键要点
- 指控核心:CNN 指控 Perplexity 的 AI 工具不仅未经许可抓取其新闻内容,还生成了与原文“逐字逐句”高度相似的内容,并绕过订阅墙向免费用户提供付费信息。
- 技术对抗:CNN 声称已采取措施识别并阻止 Perplexity 的爬虫,但 Perplexity 仍通过未识别的爬虫成功抓取了数据。
- 谈判破裂细节:双方曾就内容授权进行谈判,但因无法就“限制 AI 回答中 CNN 内容的使用范围”等关键条款达成一致,导致合作流产。
- 缺乏回应:在 CNN 取消合作并发出停止侵权警告信后,Perplexity 被指未做出任何回应。
- 行业诉讼潮:CNN 并非孤例,Perplexity 正面临来自《纽约时报》、News Corp、Encyclopedia Britannica、Merriam-Webster、Amazon 和 Reddit 等多方的版权侵权诉讼。
- 核心法律争议:Perplexity 的核心辩护理由基于“事实不受版权保护”这一原则,而 CNN 则强调其新闻作品的创作过程(研究、写作、编辑)具有独创性,应受版权保护。
意义与影响
1. 确立 AI 训练数据的“授权”边界 CNN 的诉讼进一步加剧了科技公司与内容创作者之间的紧张关系。如果法院支持 CNN 关于“逐字复制”和“绕过订阅墙”的指控,可能会迫使 AI 公司重新评估其数据抓取策略,并可能推动更多媒体机构要求 AI 厂商支付授权费用,从而改变目前 AI 行业普遍依赖“合理使用”(Fair Use)原则进行数据训练的现状。
2. “事实”与“表达”的法律博弈 Perplexity 发言人提出的“事实不能被版权保护”是版权法中的经典论点,但在 AI 语境下变得复杂。CNN 的诉讼策略侧重于 AI 生成的输出结果(verbatim copies)而非仅仅训练数据本身。如果 AI 模型被证明能够直接输出受版权保护的原文段落,这可能构成更直接的侵权证据,超越了单纯的数据训练争议。
3. 对 AI 搜索引擎商业模式的影响 Perplexity 的核心价值主张之一是提供经过验证的、实时的信息摘要。如果其被判定为非法抓取并分发受保护内容,其商业模式可能面临重大调整。这可能促使 Perplexity 要么彻底转向获得授权的数据源,要么在算法上大幅修改以规避生成受版权保护的原文,这可能影响其回答的准确性和完整性。
4. 行业连锁反应 随着 CNN、《纽约时报》、News Corp 等主流媒体纷纷加入诉讼,Perplexity 面临的法律风险呈指数级上升。这些案件的判决结果将为整个 AI 行业树立先例,明确 AI 公司在利用人类创作内容时的法律责任。这也可能促使其他 AI 初创公司更加谨慎地处理数据来源,或加速与内容提供商建立正式的商业合作关系。
