技术博客arXiv cs.AI·14 小时前

基于主动推断的信念空间控制实现个性化癌症治疗

原标题：Belief-Space Control for Personalized Cancer Treatment via Active Inference

速览

该研究将癌症治疗建模为信念空间规划问题，采用主动推断方法解决部分可观测性和患者异质性挑战。通过推导期望自由能目标，该方法在测量预算限制下统一了目标导向控制和信息获取。基于AACR GENIE数据集的临床实验表明，该方法能在满足实际约束的同时实现高治疗疗效。

AI 深度解读

通过主动推理实现个性化癌症治疗的信念空间控制

背景

癌症治疗本质上是一个复杂的序列决策问题，面临着多重挑战：首先，医疗环境具有部分可观测性，医生无法直接获取患者体内肿瘤细胞的全部动态信息；其次，患者之间存在显著的异质性，同样的治疗方案对不同个体的效果差异巨大；最后，医疗资源有限，对医学检测（如活检、基因测序等）的预算存在显式约束。

传统的强化学习（Reinforcement Learning, RL）方法通常假设环境的状态转移动力学是固定不变的，或者仅通过控制状态轨迹来优化结果。然而，在癌症治疗中，治疗行为本身会永久性地改变患者的状态转移动力学。例如，化疗或免疫疗法不仅杀死癌细胞，还会改变肿瘤微环境、诱导耐药性突变或改变免疫系统反应，从而从根本上改变疾病随时间演化的方式。

现有的标准 RL 方法难以处理这种“治疗改变动力学”的特性，且往往忽略了在有限检测预算下获取信息（即减少不确定性）的价值。因此，亟需一种新的框架，能够同时处理目标导向的控制和信息获取，并在测量预算受限的情况下进行个性化决策。

核心内容

本文提出了一种基于**主动推理（Active Inference）**的信念空间控制框架，用于解决个性化癌症治疗中的序列决策问题。

1. 问题建模：信念空间规划

作者将癌症治疗建模为**信念空间规划（Belief-Space Planning）**问题。与直接控制物理状态不同，该框架控制的是智能体（医生/算法）对疾病状态的“信念”（即概率分布）。这种方法天然适合处理部分可观测环境，因为它显式地建模了不确定性。

2. 主动推理与预期自由能

核心方法论基于主动推理理论，这是一种源自贝叶斯大脑假说的统一框架。作者推导出了一个**预期自由能（Expected Free-Energy）**目标函数。该目标函数具有两个关键特性：

统一性：它将“目标导向控制”（追求治疗效果）和“信息获取”（通过检测减少不确定性）统一在一个优化目标下。
预算约束：该框架显式地纳入了医学检测的预算约束，使得算法能够在“直接治疗”和“进行检测以获取更多数据”之间做出权衡。

3. 动力学改变的处理

与传统 RL 不同，该框架承认并建模了治疗对状态转移动力学的永久性修改。这意味着未来的状态演化不仅取决于当前状态，还取决于过去施加的治疗干预。信念空间规划允许算法在考虑这种动态变化的同时，更新对患者当前健康状况的信念。

4. 临床数据验证

为了验证框架的有效性，作者使用了来自 AACR Project GENIE Biopharma Collaborative 数据集的真实临床癌症数据。GENIE 是一个大规模的癌症基因组学数据库，包含大量患者的临床和基因组数据。

实施：将上述主动推理框架应用于该数据集。
结果：实验结果显示，该方法能够在真实的测量和治疗约束下，实现患者分类与高治疗疗效的同时优化。这意味着算法不仅能识别患者的亚型（分类），还能制定出在该约束下预期效果最好的治疗序列（控制）。

关键要点

治疗即动力学改变：癌症治疗不是简单的状态转移控制，而是对疾病演化规律本身的干预。传统 RL 假设的动力学不变性在此场景下失效。
信念空间优于状态空间：在部分可观测的医疗环境中，控制“信念”（对疾病状态的概率估计）比控制“状态”更合理，因为它直接处理不确定性。
主动推理的统一视角：通过最小化预期自由能，算法自动平衡了“探索”（获取信息以降低不确定性）和“利用”（执行已知有效的治疗）。
预算感知的决策：框架内置了对医学检测预算的考量，避免了过度检测，确保在资源有限的情况下做出最优决策。
实证有效性：在 AACR GENIE 真实临床数据上的测试表明，该方法能同时实现精准的患者分层和高水平的治疗疗效，证明了其在复杂、约束条件下的实用性。

意义与影响

这项研究在计算肿瘤学和人工智能交叉领域具有重要的理论和应用意义：

方法论创新：它提供了一种超越传统强化学习的替代方案，特别适用于那些“行动改变环境规则”的复杂系统。这对于其他动态变化的医疗领域（如慢性病管理、精神健康干预）也具有借鉴意义。
个性化医疗的推进：通过整合患者异质性和动态动力学变化，该框架为实现真正的个性化治疗提供了计算基础。它不再假设“一刀切”的治疗方案，而是根据个体对治疗的动态反应进行调整。
资源优化：在医疗资源日益紧张的背景下，显式建模检测预算使得算法能够在保证疗效的同时，避免不必要的昂贵检测，提高医疗系统的整体效率。
可解释性与安全性：基于信念空间的规划通常比黑盒 RL 策略更具可解释性，因为医生可以理解算法是如何根据不确定性更新信念并做出决策的，这有助于建立临床信任。

总之，这项工作展示了主动推理在处理高度不确定、动态变化且资源受限的医疗决策问题上的巨大潜力，为未来智能辅助癌症治疗系统的发展奠定了重要基础。

查看原文 →arxiv.org