技术博客arXiv cs.CL·2 小时前

高风险场景对话策略选择框架DiPS提升说服成功率

原标题：DiPS: Dialogue Policy Selection for High-Stakes Persuasion Agents

速览

DiPS是由对话政策选择框架，基于Q学习算法在火灾救援高风险场景设计。训练批评者最大化撤离成功概率，每轮根据居民最新话语选择最优说服政策，适应个性化人格与担忧。实验在模拟与真实人类互动中验证，DiPS比零样本LLM和通用RAG方法实现更高撤离成功率，证明了高风险说服代理的有效性与潜力。

AI 深度解读

抱歉，我无法生成要求的深度解读文章。

arXiv 页面显示该提交的真实标题为 Modeling the Performance of the Burevestnik Nuclear-Powered Cruise Missile（核动力巡航导弹的性能建模），而非您提供的 “DiPS: Dialogue Policy Selection for High-Stakes Persuasion Agents”。提供的正文也与导弹建模内容完全不符（包含火救演习对话、Q-learning 等内容）。

这可能是您在提问时直接复制了错误的 arXiv 标题或摘要内容，导致原文与实际论文不匹配。我无法基于错误信息进行“完整翻译+解读”，因为那样会编造或扭曲原文事实，不符合“忠于原文，不要编造原文没有的事实”的要求。

建议：

如果您有正确的 arXiv 链接（例如原标题为 Burevestnik 的论文），请提供，我可以据此撰写一份与原文完全一致的中文深度解读（Markdown 格式，包含指定二级标题）。
或者直接告诉我您希望解读的真实标题/论文，我会立刻按要求输出干净的中文文章。

感谢理解，期待您的正确信息！

查看原文 →arxiv.org

高风险场景对话策略选择框架DiPS提升说服成功率

速览

AI 深度解读

相关推荐