← 返回信息流
技术博客arXiv cs.AI·2 小时前

SemHash-LLM 多粒度语义哈希框架解决海量文档去重难题

原标题:SemHash-LLM: A Multi-Granularity Semantic Hashing Framework for Document Deduplication

速览

SemHash-LLM 是一种多粒度语义哈希框架,它统一了语义投影哈希、注意力加权 MinHash、对比边界学习和选择性 LLM 裁决。框架通过门控融合字符、令牌和文档级信号,采用级联过滤管道实现候选集高效压缩。在压缩 LLM 嵌入空间中学习紧凑二进制码,同时抑制模板污染并强调关键信息。实验表明,SemHash-LLM 在海量语料库中实现强力重复检测质量,仅需不到1%的神经验证成本,显著提升文档去重效率和准确性。

AI 深度解读

SemHash-LLM:一种多粒度语义哈希框架用于文档去重

背景

大规模文档去重任务需要在保证语义等价性的同时保持对海量语料库的高效性。现有方法难以在保持语义等价性的同时应对大规模语料中的模板污染、短文本扰动、包含关系和病毒碎片等问题,导致计算资源消耗过高或去重质量下降。SemHash-LLM 正是针对这一痛点提出的解决方案。

核心内容

SemHash-LLM 提出了一种多粒度语义哈希框架,该框架统一了语义投影哈希、注意力加权 MinHash、对比边界学习以及选择性基于 LLM 的裁决四个核心模块。

该框架通过门控融合将字符级、token 级和文档级信号相结合,并应用级联过滤流水线实现高效的候选集缩减。

语义投影哈希在蒸馏后的 LLM 嵌入空间中学习紧凑的二进制编码,实现语义等价性的保留。

注意力加权 MinHash 通过抑制模板化内容并强调信息性内容,显著提升去重质量。

自适应决策边界和不确定性估计进一步增强了模型在多种场景下的鲁棒性,包括模板污染、短文本扰动、包含关系以及病毒碎片。

在实验阶段,SemHash-LLM 实现了出色的重复检测质量,同时神经验证成本控制在 1% 以下。

关键要点

  • 多粒度语义哈希框架统一了语义投影哈希、注意力加权 MinHash、对比边界学习与选择性基于 LLM 的裁决模块;
  • 门控融合机制结合字符级、token 级和文档级信号,级联过滤流水线实现高效候选集缩减;
  • 语义投影哈希在蒸馏 LLM 嵌入空间学习紧凑二进制编码;
  • 注意力加权 MinHash 抑制模板化内容并突出信息性内容;
  • 自适应决策边界与不确定性估计提升模板污染、短文本扰动、包含关系和病毒碎片下的鲁棒性;
  • 实验结果显示强重复检测质量与低于 1% 的神经验证成本。

意义与影响

SemHash-LLM 为大规模文档去重提供了兼顾效率与质量的先进方案,有望显著降低海量语料处理中的计算负担,并广泛应用于搜索引擎、内容管理系统、数据清洗及知识图谱构建等领域。该框架的开源潜力(如代码与数据关联资源)将推动学术界和工业界在文档去重领域的进一步探索与应用。

查看原文 →arxiv.org