← 返回信息流
技术博客arXiv cs.AI·3 天前

基于代码搜索与策略响应的医疗机制设计研究

原标题:Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

速览

现有医疗AI基准固定了供应商的策略响应,无法评估机制产生的均衡效果。本研究将医院机制设计重构为语言模型的程序合成问题,利用多智能体模拟器Medi-Sim评估五种策略渠道。通过激励扫描复现经典经济学发现,并利用LLM引导的进化代码搜索,合成出能消除虚报编码、降低拒诊率且保留大部分利润的混合目标程序。

AI 深度解读

战略响应下的“代码即政策”:医疗机制设计的程序合成新范式

来源:arXiv cs.AI 提交日期:2026年5月29日 标题:Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response(战略提供者响应下的基于代码即政策搜索的医疗机制)

背景

在医疗经济学与人工智能的交叉领域,医疗机制设计(Healthcare Mechanism Design)的核心挑战在于如何制定规则以优化资源配置,同时应对医疗服务提供者(如医院、医生)的策略性行为。传统的医疗AI基准测试往往存在一个根本性缺陷:它们将提供者的策略性响应视为固定不变(fixed),从而无法评估机制在动态博弈中产生的真实均衡状态。

然而,现实中的医疗提供者会对激励机制做出反应。例如,当面临利润压力时,他们可能会通过“高编码”(up-coding,即将简单病症编码为复杂病症以增加报销)或“选择低复杂度患者”来规避风险或增加收益。这种策略性行为会导致“古德哈特定律”(Goodhart’s Law)式的漂移,即被测量的绩效指标与真实健康结果呈现负相关。

本文提出了一种全新的视角:将医院机制设计重构为针对大型语言模型(LLM)的程序合成任务。通过引入“代码即政策”(Policy-as-Code)的概念,研究者利用多智能体模拟器 Medi-Sim 对规则程序进行执行和评分,旨在发现既能抑制不良策略行为,又能维持机构财务可持续性的混合目标程序。

核心内容

本研究的核心方法论是将医疗机制设计转化为一种搜索问题,具体流程包括构建模拟器、执行激励扫描(Incentive Sweep)以及利用LLM引导的进化代码搜索来合成新的机制。

1. 多智能体模拟器 Medi-Sim

为了捕捉提供者的策略性响应,研究构建了一个名为 Medi-Sim 的多智能体模拟器。该模拟器包含五个关键的策略性提供者渠道,模拟者在这些渠道上会根据机制规则调整其行为:

  • 编码(Coding):影响疾病严重程度的编码方式。
  • 选择(Selection):选择接收哪些类型的患者。
  • 延迟(Delay):控制治疗或入院的时间。
  • 努力(Effort):投入的治疗资源或护理质量。
  • 分诊(Triage):对患者优先级的判断与分配。

机制被定义为“类型化、可检查的规则程序”(typed, inspectable rule programs)。这些程序在 Medi-Sim 中执行后,会根据产生的均衡状态进行评分。

2. 激励扫描与经典发现的复现

研究首先通过“激励扫描”(Incentive Sweep)方法,在规则程序空间中进行搜索,以验证模拟器的有效性。结果显示,该方法能够复现健康经济学中的经典发现,表现为相邻的机制状态:

  • 利润压力下的策略行为:在利润压力下,出现了“高编码”(up-coding)和“低复杂度患者选择”(low-complexity-patient selection)。
  • 古德哈特式漂移(Goodhart-style drift):当机制过度优化某些指标时,测量的绩效指标与真实的健康结果变得负相关,即“当一项措施成为目标时,它就不再是一个好的措施”。

3. 审计杠杆与压力迁移

研究还发现了一个关键的审计杠杆,用于揭示“压力迁移”(pressure migration)现象。具体而言,如果仅关闭“编码”渠道(例如禁止高编码),提供者的策略压力并不会消失,而是会转移到其他渠道。数据显示,关闭编码渠道会导致“低复杂度患者选择”的行为增加两倍以上。这表明,单一维度的监管往往会导致问题在其他维度反弹。

4. LLM引导的进化代码搜索

为了解决上述问题,研究采用了 LLM引导的进化代码搜索(LLM-guided evolutionary code search)。该方法在相同的规则程序空间中,利用大型语言模型指导进化算法,合成出一个“可检查的混合目标程序”(inspectable mixed-objective program)。

这一合成的机制程序表现出显著优于传统基线的性能:

  • 消除高编码:彻底消除了通过高编码获取不当利益的行为。
  • 减少拒绝率:将患者拒绝率减半。
  • 财务可持续性:保留了大多数以利润为导向的基线机制的资金水平,证明了在抑制不良行为的同时,仍能维持机构的财务健康。

关键要点

  • 现有基准的局限性:当前医疗AI基准测试假设提供者响应是固定的,无法评估机制在动态博弈中的真实均衡效果。
  • 机制设计即程序合成:将医疗机制设计重新定义为针对LLM的程序合成任务,使用类型化、可检查的规则程序作为机制载体。
  • Medi-Sim 模拟器的五大渠道:引入了编码、选择、延迟、努力和分诊五个策略性渠道,全面模拟提供者的行为反应。
  • 复现经典经济学发现:通过激励扫描成功复现了高编码、低复杂度患者选择以及古德哈特式漂移等经典现象。
  • 压力迁移效应:审计发现,关闭单一策略渠道(如编码)会导致压力迁移至其他渠道(如患者选择),导致低复杂度患者选择行为加倍。
  • LLM合成混合目标程序:利用LLM引导的进化搜索,合成出一种新的机制,该机制在消除高编码、降低拒绝率的同时,保持了良好的财务可持续性。
  • 可解释性与透明度:合成的机制是“可检查的”(inspectable),这意味着其决策逻辑是透明的,便于监管者和审计者理解。

意义与影响

这项研究在医疗AI和机制设计领域具有重要的理论和实践意义。

首先,它解决了现有评估框架的一个根本性缺陷。通过引入多智能体模拟器和策略性响应模型,研究使得评估医疗机制不再局限于静态场景,而是能够捕捉动态博弈中的均衡状态。这对于设计真正有效的医疗政策至关重要。

其次,研究揭示了“压力迁移”这一隐蔽现象。传统监管往往关注单一指标(如编码准确性),但本研究证明,这种单一维度的干预可能导致问题在其他维度恶化。这为政策制定者提供了更全面的视角,强调需要采用多管齐下的综合机制设计。

最后,LLM引导的程序合成方法展示了人工智能在复杂系统优化中的巨大潜力。通过让LLM参与搜索和生成规则程序,研究不仅找到了性能更优的机制,还保持了机制的可解释性。这种“代码即政策”的范式可能推广到其他涉及策略性行为的领域,如金融监管、平台经济治理等,为自动化、透明且高效的机制设计提供了新的技术路径。

查看原文 →arxiv.org