技术博客arXiv cs.AI·3 天前

基于代码搜索与策略响应的医疗机制设计研究

原标题：Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

速览

现有医疗AI基准固定了供应商的策略响应，无法评估机制产生的均衡效果。本研究将医院机制设计重构为语言模型的程序合成问题，利用多智能体模拟器Medi-Sim评估五种策略渠道。通过激励扫描复现经典经济学发现，并利用LLM引导的进化代码搜索，合成出能消除虚报编码、降低拒诊率且保留大部分利润的混合目标程序。

AI 深度解读

战略响应下的“代码即政策”：医疗机制设计的程序合成新范式

来源：arXiv cs.AI 提交日期：2026年5月29日标题：Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response（战略提供者响应下的基于代码即政策搜索的医疗机制）

背景

在医疗经济学与人工智能的交叉领域，医疗机制设计（Healthcare Mechanism Design）的核心挑战在于如何制定规则以优化资源配置，同时应对医疗服务提供者（如医院、医生）的策略性行为。传统的医疗AI基准测试往往存在一个根本性缺陷：它们将提供者的策略性响应视为固定不变（fixed），从而无法评估机制在动态博弈中产生的真实均衡状态。

然而，现实中的医疗提供者会对激励机制做出反应。例如，当面临利润压力时，他们可能会通过“高编码”（up-coding，即将简单病症编码为复杂病症以增加报销）或“选择低复杂度患者”来规避风险或增加收益。这种策略性行为会导致“古德哈特定律”（Goodhart’s Law）式的漂移，即被测量的绩效指标与真实健康结果呈现负相关。

本文提出了一种全新的视角：将医院机制设计重构为针对大型语言模型（LLM）的程序合成任务。通过引入“代码即政策”（Policy-as-Code）的概念，研究者利用多智能体模拟器 Medi-Sim 对规则程序进行执行和评分，旨在发现既能抑制不良策略行为，又能维持机构财务可持续性的混合目标程序。

核心内容

本研究的核心方法论是将医疗机制设计转化为一种搜索问题，具体流程包括构建模拟器、执行激励扫描（Incentive Sweep）以及利用LLM引导的进化代码搜索来合成新的机制。

1. 多智能体模拟器 Medi-Sim

为了捕捉提供者的策略性响应，研究构建了一个名为 Medi-Sim 的多智能体模拟器。该模拟器包含五个关键的策略性提供者渠道，模拟者在这些渠道上会根据机制规则调整其行为：

编码（Coding）：影响疾病严重程度的编码方式。
选择（Selection）：选择接收哪些类型的患者。
延迟（Delay）：控制治疗或入院的时间。
努力（Effort）：投入的治疗资源或护理质量。
分诊（Triage）：对患者优先级的判断与分配。

机制被定义为“类型化、可检查的规则程序”（typed, inspectable rule programs）。这些程序在 Medi-Sim 中执行后，会根据产生的均衡状态进行评分。

2. 激励扫描与经典发现的复现

研究首先通过“激励扫描”（Incentive Sweep）方法，在规则程序空间中进行搜索，以验证模拟器的有效性。结果显示，该方法能够复现健康经济学中的经典发现，表现为相邻的机制状态：

利润压力下的策略行为：在利润压力下，出现了“高编码”（up-coding）和“低复杂度患者选择”（low-complexity-patient selection）。
古德哈特式漂移（Goodhart-style drift）：当机制过度优化某些指标时，测量的绩效指标与真实的健康结果变得负相关，即“当一项措施成为目标时，它就不再是一个好的措施”。

3. 审计杠杆与压力迁移

研究还发现了一个关键的审计杠杆，用于揭示“压力迁移”（pressure migration）现象。具体而言，如果仅关闭“编码”渠道（例如禁止高编码），提供者的策略压力并不会消失，而是会转移到其他渠道。数据显示，关闭编码渠道会导致“低复杂度患者选择”的行为增加两倍以上。这表明，单一维度的监管往往会导致问题在其他维度反弹。

4. LLM引导的进化代码搜索

为了解决上述问题，研究采用了 LLM引导的进化代码搜索（LLM-guided evolutionary code search）。该方法在相同的规则程序空间中，利用大型语言模型指导进化算法，合成出一个“可检查的混合目标程序”（inspectable mixed-objective program）。

这一合成的机制程序表现出显著优于传统基线的性能：

消除高编码：彻底消除了通过高编码获取不当利益的行为。
减少拒绝率：将患者拒绝率减半。
财务可持续性：保留了大多数以利润为导向的基线机制的资金水平，证明了在抑制不良行为的同时，仍能维持机构的财务健康。

关键要点

现有基准的局限性：当前医疗AI基准测试假设提供者响应是固定的，无法评估机制在动态博弈中的真实均衡效果。
机制设计即程序合成：将医疗机制设计重新定义为针对LLM的程序合成任务，使用类型化、可检查的规则程序作为机制载体。
Medi-Sim 模拟器的五大渠道：引入了编码、选择、延迟、努力和分诊五个策略性渠道，全面模拟提供者的行为反应。
复现经典经济学发现：通过激励扫描成功复现了高编码、低复杂度患者选择以及古德哈特式漂移等经典现象。
压力迁移效应：审计发现，关闭单一策略渠道（如编码）会导致压力迁移至其他渠道（如患者选择），导致低复杂度患者选择行为加倍。
LLM合成混合目标程序：利用LLM引导的进化搜索，合成出一种新的机制，该机制在消除高编码、降低拒绝率的同时，保持了良好的财务可持续性。
可解释性与透明度：合成的机制是“可检查的”（inspectable），这意味着其决策逻辑是透明的，便于监管者和审计者理解。

意义与影响

这项研究在医疗AI和机制设计领域具有重要的理论和实践意义。

首先，它解决了现有评估框架的一个根本性缺陷。通过引入多智能体模拟器和策略性响应模型，研究使得评估医疗机制不再局限于静态场景，而是能够捕捉动态博弈中的均衡状态。这对于设计真正有效的医疗政策至关重要。

其次，研究揭示了“压力迁移”这一隐蔽现象。传统监管往往关注单一指标（如编码准确性），但本研究证明，这种单一维度的干预可能导致问题在其他维度恶化。这为政策制定者提供了更全面的视角，强调需要采用多管齐下的综合机制设计。

最后，LLM引导的程序合成方法展示了人工智能在复杂系统优化中的巨大潜力。通过让LLM参与搜索和生成规则程序，研究不仅找到了性能更优的机制，还保持了机制的可解释性。这种“代码即政策”的范式可能推广到其他涉及策略性行为的领域，如金融监管、平台经济治理等，为自动化、透明且高效的机制设计提供了新的技术路径。

查看原文 →arxiv.org