技术博客arXiv cs.AI·3 小时前

IntElicit：通过对话策略优化激发并评估情境化创造力

原标题：IntElicit: Eliciting and Assessing Contextualized Creativity via Dialogue Policy Optimization

速览

针对生成式AI时代创意评估的痛点，研究提出IntElicit框架，通过对话策略优化实现情境化创造力的激发与评估。该框架作为自适应AI面试官，利用分解过程奖励机制解决开放教育对话中的稀疏奖励问题，引导参与者展示推理而非直接给出答案。实验表明，该方法优于专家设计基线，能揭示静态评估可能遗漏的创意潜力。

AI 深度解读

IntElicit：通过对话策略优化激发与评估情境化创造力

背景

在评估创造力时，传统的静态测试往往面临效度挑战。虽然“情境化评估”（Contextualized assessment）提供了更高的生态效度（ecological validity），即更贴近真实世界的复杂环境，但它引入了一个关键难题：观察到的表现可能受到认知熟练度（如领域知识）和能动性（参与意愿）等非创造性因素的混淆。

与此同时，生成式人工智能（Generative AI）时代的到来，使得创造性问题解决日益发生在工具中介和“人-机”交互的环境中。在这种背景下，完全静态的评估方式已不再符合当代创造性实践的特征。为了应对这些挑战，研究人员提出了 IntElicit 框架，旨在通过对话策略优化来激发和评估情境化创造力。

核心内容

IntElicit 被设计为一个受限的自适应 AI 面试官（constrained adaptive AI Interviewer）。其核心目标是在多轮交互中提供非指导性的知识和能动性支架（scaffolds），以减少非创造性混淆因素，同时保留参与者对生成被评估创造性内容的责任。

1. 解决开放教育对话中的奖励稀疏与奖励黑客问题

在开放式的教育对话中，强化学习通常面临奖励信号稀疏的问题，且容易出现“奖励黑客”（reward hacking）现象，例如 AI 直接替参与者作答（answer dictation），而非引导其思考。

为了解决这一问题，IntElicit 引入了一种分解过程奖励机制（decomposed process reward mechanism）。该机制将奖励分解，旨在使策略与教学性的激发（pedagogical elicitation）保持一致。具体而言，它奖励那些能够引出参与者推理过程的提示（prompts），而不是奖励那些直接产生最优答案的行为。这意味着 AI 的目标是引导用户自己思考，而不是替用户完成思考。

2. 实验验证

研究进行了广泛的实验，包括参与者模拟和一项涉及 64 名受试者的人类受试者研究（human subject study）。实验结果表明：

与专家设计的基线方法相比，IntElicit 能够激发出更高质量的创造性成果。
交互式激发能够揭示出静态的 FPSP（Fixed-point Static Problem-solving? 注：原文未展开缩写，通常指静态问题解决测试）式评估可能遗漏的创造性潜力。

关键要点

交互式评估的优势：在 AI 中介的学习环境中，交互式激发可以提供形成性（formative）和诊断性（diagnostic）的视角，用于评估情境化创造力，这是静态测试难以做到的。
去混淆机制：通过提供非指导性的支架，IntElicit 有效降低了领域知识和参与意愿对创造力评估结果的干扰，确保评估的是纯粹的创造性潜能。
过程导向的奖励设计：引入分解过程奖励机制，明确区分“引导思考”与“直接给答案”，防止 AI 通过代劳来“作弊”获取高奖励，确保评估的真实性。
实证有效性：通过 N=64 的人类受试者研究，证实了该方法在激发创造性输出方面优于传统的专家设计基线。

意义与影响

IntElicit 的提出标志着创造力评估从静态向动态、从孤立向交互的重要转变。

适应 AI 时代的新范式：随着人机协作成为常态，创造力评估必须适应这种新的交互模式。IntElicit 提供了一种在 AI 辅助环境中评估人类创造力的可行框架。
教育应用的潜力：由于其形成性和诊断性的特点，该框架可应用于自适应学习系统，帮助教育者更准确地识别学生的创造性潜力，并提供个性化的引导，而不仅仅是给出一个分数。
方法论创新：通过解决强化学习在教育对话中的奖励稀疏和奖励黑客问题，IntElicit 为构建更智能、更具教学意义的 AI 导师提供了技术参考。

总之，IntElicit 不仅是一个评估工具，更是一种通过对话策略优化来激发人类创造力的新范式，为未来 AI 在教育和创新领域的应用开辟了新的研究方向。

查看原文 →arxiv.org