技术博客arXiv cs.AI·3 小时前

SemantiClean：基于预定义库的可审计行为推断框架

原标题：From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

速览

SemantiClean是一个模块化框架，旨在从电商会话数据中提取结构化语义信号，支持购买意图等可插拔推断目标。该框架摒弃单纯追求精度的做法，优先保障审计性、结构治理和零方差复现，以透明性换取边际预测增益。基于OSPI数据集，它构建了四层架构并引入反通胀机制保障信号质量，同时集成了LLM语义推断引擎。

AI 深度解读

从显式元素到隐式意图：构建可审计的行为推断预定义库

背景

在电子商务和数据分析领域，传统的机器学习模型往往采用“端到端”（End-to-End）的预测方式。这类模型虽然致力于优化准确率，但通常被视为“黑盒”，缺乏透明度。当业务需要解释“为什么”用户会产生购买行为，或者需要满足合规性审计要求时，传统模型往往显得力不从心。

此外，数据中的信号膨胀（Signal Inflation）和冗余问题长期困扰着数据科学团队。过多的特征不仅增加了计算成本，还可能导致模型过拟合或产生难以解释的偏差。因此，业界急需一种新的框架，能够在保持预测能力的同时，提供结构化的治理、可审计的决策路径以及零误差（sigma=0）的可复现性。

在此背景下，本文介绍了 SemantiClean 框架及其配套的 LLM-Integrated Semantic Inference Engine（LLM 集成语义推断引擎）。该框架旨在从电子商务会话数据中提取结构化的语义信号，并通过共享的元素库驱动可插拔的推断目标，如购买意图、客户细分和产品亲和力。

核心内容

SemantiClean 框架架构

SemantiClean 是一个模块化框架，其核心设计理念是“从显式元素到隐式意图”。它不再直接输入原始数据，而是通过一个预定义的共享元素库来组织数据信号。

四层架构体系：基于 Online Shoppers Purchasing Intention (OSPI) 数据集，框架将二十四个行为元素划分为四个层级，以构建完整的用户行为画像：
- Functional（功能层）：涉及网站基本功能的使用情况。
- Interaction（交互层）：捕捉用户与页面元素的具体互动行为。
- Systemic（系统层）：反映系统层面的指标，如页面加载时间、会话时长等。
- Contextual（上下文层）：包含时间、来源等环境上下文信息。
三大抗膨胀机制（Anti-Inflation Mechanisms）：为了防止特征冗余和偏差，框架引入了三种机制来强制信号质量：
- RedundancyGroup Contribution Caps（冗余组贡献上限）：限制同一组内冗余特征的总贡献度，避免单一信号过度主导模型。
- TieredPenaltyCalculator（分层惩罚计算器）：对偏差进行分层惩罚，确保模型不会过度依赖某些有偏见的特征。
- AdaptiveConstraintMode（自适应约束模式）：专门用于解决冷启动问题，在新用户或新数据场景下保持推断的稳定性。

LLM-集成语义推断引擎

文章重点介绍了一个完全实现的、基于大语言模型（LLM）的两阶段推断架构。

两阶段架构：该引擎在推断阶段利用完整的元素元数据（Element Metadata）。第一阶段可能涉及语义信号的提取和结构化，第二阶段则利用 LLM 的推理能力进行最终的意图推断。
可复现性与确定性：
- 确定性输出：引擎的某些部分输出是确定性的，实现了完全的可复现性（sigma=0）。
- LLM 依赖性：涉及 LLM 的结果（如 E8、E10 指标）在固定的提供商、模型和温度设置下，受控的输出可变性是被允许和记录的。这意味着虽然存在微小波动，但在严格控制的实验条件下，结果是可审计和可追踪的。
当前限制：目前的实现中，性别推断目标（Gender Inference Target）尚未功能化，因此未包含在任何定量结果中。

关键要点

审计优先于极致准确率：SemantiClean 明确牺牲了边际预测增益，以换取元素级的透明度和可辩护的决策路径。这对于需要合规审计的企业至关重要。
结构化治理：通过将行为元素组织为四层架构，框架实现了数据的结构化治理，使得每个推断结果都能追溯到具体的行为元素。
信号质量控制：通过冗余组上限、分层惩罚和自适应约束，有效解决了数据信号膨胀和偏差问题，提升了模型的鲁棒性。
LLM 增强的推断：引入 LLM 集成引擎，利用其强大的语义理解能力，结合完整的元素元数据，提升了推断的深度和准确性。
可复现性承诺：框架强调 sigma=0 的可复现性，确保在相同条件下，确定性部分的输出完全一致，增强了结果的可信度。
模块化与可插拔：框架设计支持可插拔的推断目标，如购买意图、客户细分和产品亲和力，便于根据不同业务需求灵活扩展。

意义与影响

SemantiClean 框架及其 LLM 集成引擎的提出，为电子商务数据分析提供了一种新的范式。它不仅仅是一个预测工具，更是一个可审计的行为推断基础设施。

提升决策透明度：对于金融、电商等受监管行业，能够解释模型决策过程是合规的关键。SemantiClean 通过元素级透明度和决策路径追踪，满足了这一需求。
优化数据治理：通过抗膨胀机制，框架帮助数据团队更有效地管理特征工程，减少冗余，提高数据质量。
推动 LLM 在结构化推断中的应用：展示了如何将 LLM 的语义理解能力与传统结构化数据推断相结合，为未来更复杂的语义分析任务提供了参考。
促进可复现性研究：强调 sigma=0 的可复现性，有助于建立更严谨的数据科学实践，减少因随机性导致的结果不一致问题。

总之，SemantiClean 代表了从“黑盒预测”向“白盒审计”转变的重要一步，为构建可信、透明且高效的 AI 系统提供了实用的解决方案。

查看原文 →arxiv.org