技术博客arXiv cs.AI·3 天前

FAM-Bench：面向条件感知食药推理的多模态基准

原标题：FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning

速览

现有食品AI基准主要评估菜品识别或营养估算，缺乏对健康条件适配性的测试。FAM-Bench包含2500个经专家验证的实例，涵盖13种饮食相关健康状况。该基准通过菜品适宜性评估和比较分析任务，为语言及视觉语言模型提供标准化的健康推理测试平台。

随着人工智能在食品领域的深入应用，现有的 AI 基准测试主要集中在菜肴识别、食谱理解、营养估算或通用营养问答等层面。然而，这些评估维度并未触及“食物即药物”（Food-as-Medicine, FAM）这一更深层的医疗决策需求。

在“食物即药物”的范式下，模型不仅需要知道一道菜是什么或它含有哪些营养成分，更需要具备临床推理能力：判断具体的食物选择是否适合特定的健康状况。例如，对于糖尿病患者，仅仅知道某道菜含有碳水化合物是不够的，模型还需要结合食材、烹饪方式以及患者的具体病理约束，来判断该菜品是否适宜食用。

目前，这一“健康意识决策层”在很大程度上未被测试。为填补这一空白，研究人员提出了 FAM-Bench，这是一个多模态的“食物即药物”基准测试，旨在标准化地评估语言模型和多模态模型在 grounded（基于证据的）健康推理方面的能力。

FAM-Bench 是一个包含 2500 个实例的多模态基准测试，所有实例均经过营养专家验证，覆盖了 13 种与饮食相关的健康状况。该基准测试包含两个互补的任务，要求模型整合食材证据、视觉准备线索以及临床营养约束：

菜品级别适用性评估（Dish-level suitability assessment）：在此任务中，模型需要根据菜品的图像和食材清单，判断该菜品是否适合某种特定的健康状况。这要求模型不仅识别视觉特征，还要理解食材组合对特定健康条件的影响。
对比菜品分析（Comparative dish analysis）：在此任务中，模型需要对四个候选菜品进行排名，依据是它们对特定健康状况的适用性。这要求模型具备比较推理能力，能够权衡不同菜品在营养和病理约束下的优劣。

FAM-Bench 的核心价值在于它提供了一个标准化的测试床，用于评估语言和视觉语言模型在健康意识推理方面的表现。它超越了传统的营养知识检索，强调了基于证据（grounded）的临床推理能力。

填补评估空白：现有食品 AI 基准主要关注识别和通用营养问答，缺乏对“健康意识决策”这一关键层的测试。FAM-Bench 专门针对这一缺口设计。
专家验证数据：基准包含 2500 个实例，均由营养专家验证，确保了数据在临床营养学上的准确性和可靠性。
覆盖广泛的健康状况：涵盖了 13 种与饮食相关的健康状况，使得模型能够处理多样化的临床场景。
多模态输入需求：任务要求模型同时处理图像（视觉准备线索）和文本（食材清单），模拟真实世界中用户通过拍照和描述来获取饮食建议的场景。
双重任务设计：
- 二元判断：菜品是否适合特定条件？
- 排序推理：在多个候选菜品中，哪个最适合特定条件？
强调“基于证据”的推理：模型必须整合具体的食材证据和视觉线索，而非仅依赖通用的营养知识，从而测试其 grounded reasoning（基于证据的推理）能力。

FAM-Bench 的发布标志着食品 AI 从“描述性分析”向“规范性建议”的重要转变。

推动临床级 AI 助手的发展：通过提供标准化的测试床，FAM-Bench 有助于开发更可靠、更安全的 AI 饮食助手。这些助手不仅能提供营养信息，还能根据用户的特定健康状况（如糖尿病、高血压、食物过敏等）提供个性化的饮食建议。
提升多模态模型的推理能力：该基准测试要求模型整合视觉和文本信息，并进行复杂的逻辑推理，这将推动多模态大模型在细粒度理解和因果推理方面的进步。
促进个性化医疗与营养学的结合：FAM-Bench 强调了“食物即药物”的理念，有助于将临床营养学的专业知识融入 AI 系统，为精准营养（Precision Nutrition）和个性化健康管理提供技术支撑。
建立行业基准：作为首个专注于“健康意识决策”的多模态基准，FAM-Bench 为后续研究提供了可比性的标准，有助于衡量不同模型在健康推理任务上的性能差异，促进该领域的良性竞争和技术迭代。

总之，FAM-Bench 不仅是一个测试工具，更是连接 AI 技术与临床营养实践的桥梁，为构建真正具备健康意识决策能力的 AI 系统奠定了基础。