技术博客arXiv cs.CL·3 小时前

研究发现英瑞议会文本中未披露的AI生成内容逐年增加

原标题：Detecting undisclosed LLM-generated content in parliamentary texts

速览

该研究评估了英国和瑞典议会文本中未披露的大语言模型生成内容的比例。尽管缺乏明确指引，但为保持透明度，建议议员公开AI使用情况。研究通过训练可解释文本分类器，发现自2022年起，两国议会中未披露的AI使用呈稳步上升趋势。

随着大型语言模型（LLM）在内容生成领域的广泛应用，透明度与问责制已成为学术界、新闻界及公共治理领域的核心议题。在许多专业领域，如新闻写作或学术研究，通常有明确的规定要求作者必须清晰披露是否使用了 AI 工具。然而，在政治和立法领域，关于 AI 使用披露的指导原则往往较为模糊或缺失。

议会文本（如议会动议、演讲记录等）是民主政治中公众信任的基石。为了维持透明度并保留公众信任，普遍建议议员在撰写此类文本时应声明是否使用了 AI 辅助。尽管缺乏强制性的披露规范，但议会文本中 AI 内容的潜在渗透率及其对政治话语的影响，引起了研究者的关注。

本文发表在 arXiv 的计算机科学（计算与语言）板块，提交于 2026 年 6 月 12 日。研究团队旨在评估英国和瑞典议会文本中未披露的 LLM 生成内容的比例，并分析其随时间的变化趋势。

为了检测这些未披露的 AI 生成内容，研究团队采用了一种可解释的“玻璃盒”（glass-box）文本分类器。该方法的核心步骤如下：

数据准备：
- 预 LLM 时期数据：收集了 LLM 普及之前的历史议会文本作为基准。
- LLM 生成数据：利用 LLM 生成与上述历史文本风格相似的模拟文本。
模型训练：使用上述两类数据训练分类器，使其能够区分人类撰写的传统议会文本与由 LLM 生成的文本。选择“玻璃盒”模型而非传统的“黑盒”深度学习模型，旨在提高检测结果的可解释性，让研究者能够理解模型做出判断的依据。
测试应用：将训练好的分类器应用于包含近期议会文本的测试集，这些文本来自英国和瑞典的议会记录。

研究结果揭示了一个显著的趋势：

披露规范的缺失：与新闻和学术界不同，议会文本领域缺乏明确的 AI 使用披露指南，导致未披露的 AI 生成内容难以被监管。
可解释性优先：研究采用了可解释的分类器（glass-box classifier），通过对比预 LLM 时期文本和 LLM 生成文本来训练模型，确保了检测逻辑的透明度。
时间拐点明确：检测结果显示，未披露的 LLM 内容在 2022 年后开始显著增加，这与全球 LLM 技术的爆发式普及时间点相吻合。
普遍性趋势：英国和瑞典的数据均显示出不披露 AI 使用的增加，暗示议员群体正在更广泛地采用 AI 工具辅助写作，但未随之进行相应的透明度声明。

这项研究对政治传播、数字治理和 AI 伦理具有深远的影响：

政治透明度危机：如果议员大量使用 AI 生成动议或演讲却不予披露，公众将无法区分哪些观点源于议员本人的意志，哪些源于算法的生成。这直接威胁到民主政治中的问责制和公众信任。
政策制定的紧迫性：研究结果呼吁立法机构制定明确的 AI 使用披露政策。正如新闻和学术界需要声明 AI 参与一样，议会也应建立相应的规范，要求议员在提交文本时声明是否使用了 LLM。
检测技术的可行性：研究证明了利用历史文本训练可解释分类器来检测现代 AI 生成内容是可行的。这为监管机构提供了一种技术手段，用于监控和评估 AI 在政治文本中的渗透程度。
全球治理参考：由于英国和瑞典代表了不同的政治和法律传统，但都观察到了相似的趋势，这为全球其他国家的议会提供了预警：AI 对政治话语的隐形渗透正在加速，需要尽早建立应对机制。

总之，这篇论文不仅提供了一项技术检测结果，更发出了一个关于数字时代政治透明度的重要警示：随着 AI 生成内容的常态化，建立与之匹配的披露和监管框架已刻不容缓。