技术博客arXiv cs.CL·3 小时前

Probing Stylistic Appropriation using Large Language Models: An Evaluation Framework for Copyright Infringement under EU Law

AI 深度解读

背景

随着大语言模型（LLM）基于网络级语料进行训练并生成内容，其输出结果可能侵犯版权的问题日益凸显。然而，现有的技术防护措施大多聚焦于一个狭隘的维度：逐字记忆。这种技术上的局限与法律实践产生了严重的错位。欧盟版权法采用了更为宽泛的保护标准——“实质性相似”，该标准不仅保护字面表达，还延伸至风格选择、叙事结构和创意阐述等抽象层面。当前技术检测手段与法律保护范围之间的这种不匹配，造成了巨大的合规空白，使得生成式AI在欧盟法律框架下面临难以评估和控制的侵权风险。

核心内容

为填补这一空白，本文提出了PSALM框架。该框架基于LLM-as-a-judge范式，将欧盟版权法中的“实质性相似”原则操作化为可计算的评估体系，通过10个评估器对模型输出进行多维度审查。这些评估器覆盖了四个核心领域：计算重叠度、风格维度（写作风格、叙事声音）、内容维度（角色、情节、场景、世界观构建）以及法定例外情况（戏仿、模仿、引用、scènes à faire）。

研究团队将PSALM应用于在翻译的历史荷兰文学作品上微调的Llama 3.2模型，得出了三项关键发现：

首先，指令微调模型在接触特定语料之前，就已经表现出非平凡的基线风格相似性。这意味着模型在常规训练阶段可能已经习得了某些通用的文学风格特征。

其次，微调过程在所有与侵权相关的维度上引发了系统性的风格挪用。这种挪用超越了简单的逐字记忆，深入到了抽象的叙事模式层面。这表明，即使模型没有逐字复制原文，其生成内容在风格、结构和创意阐述上仍可能构成对原作的实质性相似。

最后，研究测试了Negative Preference Optimisation（负偏好优化）遗忘技术。结果显示，该技术虽然能显著降低模型输出与训练语料之间的相似性，但依然会留下可检测的残余风格模式。这意味着现有的遗忘技术无法完全消除风格层面的侵权隐患。

基于以上发现，文章得出结论：仅针对字面复制的安全

查看原文 →arxiv.org

Probing Stylistic Appropriation using Large Language Models: An Evaluation Framework for Copyright Infringement under EU Law

AI 深度解读

背景

核心内容

相关推荐