Robust Text Watermarking for Large Language Models via Dual Semantic Embeddings
AI 深度解读
背景
随着大语言模型(LLMs)生成文本能力的飞速提升,其带来的滥用风险(如虚假信息传播、学术造假等)也日益凸显。为了追溯和认证 LLM 生成的内容,文本水印技术应运而生。然而,现有的文本水印方案在面对改写和翻译等语义保留的篡改操作时,往往表现出鲁棒性不足的问题。如何在复杂的语义偏移下保持水印的可检测性,同时不损害生成文本的自然度和质量,成为当前 LLM 安全领域亟待解决的关键难题。
核心内容
本文提出了一种名为 Dual-Embedding Watermarking (DEW) 的语义水印方案,旨在通过双语义嵌入机制提升大语言模型文本水印对改写和翻译的鲁棒性。
DEW 的核心方法论借鉴了信号处理领域的思路,通过对 token 和上下文嵌入应用代数向量空间运算,推导出水印信号。这种设计使得水印信号在遭遇语义偏移时能够“优雅降级”,即不会因为文本表层结构的剧烈变化而彻底失效。
在安全性与隐蔽性方面,DEW 引入了混淆机制:通过将嵌入向量投影到由密钥作为种子生成的伪随机矩阵中,使得水印信号难以被攻击者察觉或移除。
为了验证该方案的有效性,研究者评估并利用了从底层代数推导出的相关分布,对 DEW 进行了严格的统计测试与基准测试。跨多个大语言模型的实验结果证实,DEW 在保持具有竞争力的文本质量的同时,显著提升了改写后的检测率。尤为重要的是,在翻译操作后,DEW 依然保持可检测性,而现有的其他语义水印在此场景下往往会出现显著退化。这些实验结果证明,DEW 是一种实用且鲁棒的解决方案,能够有效保护 LLM 生成文本,为负责任 AI 部署中的关键问题提供了技术支撑。
关键要点
- 双语义嵌入架构:DEW 创新性地结合了上下文嵌入与 token 级嵌入,从宏观语境与微观词汇两个层面捕捉语义信息,为水印的生成提供了更丰富的特征基础。
- 代数向量空间运算:采用信号处理方法,在向量空间中对嵌入进行代数运算生成水印信号,使水印在语义发生偏移时具备“优雅降级”的特性,而非直接崩溃。
- 密钥驱动的混淆机制:利用密钥作为种子生成伪随机矩阵,对嵌入向量进行投影以混淆水印,增强了水印的安全性和抗移除能力。
- 卓越的跨语言与抗改写鲁棒性:实验证明,DEW 在文本被改写后检测率显著提升,且在翻译后仍保持可检测性,克服了现有语义水印在翻译场景下严重退化的痛点。
- 文本质量与水印性能的平衡:在大幅提升鲁棒性的同时,DEW 并未以牺牲文本质量为代价,保持了有竞争力的文本生成水准。
意义与影响
DEW 方案的提出为 LLM 生成内容的溯源与认证提供了更为坚实的技术保障。在实际应用中,这意味着即便恶意攻击者试图通过翻译或深度改写来掩盖 AI 生成痕迹,DEW 依然能够有效识别文本来源。这不仅有助于打击 AI
