合成对比推理助力多表问答模型性能显著提升
原标题:Synthetic Contrastive Reasoning for Multi-Table Q&A
速览
针对多表问答缺乏推理监督的问题,研究团队构建了合成对比推理追踪数据集,通过生成验证过的正负样本对,利用对比偏好优化(CPO)微调开源大模型。实验显示,该方法在Qwen3、Mistral和Llama-3.1等模型上相比传统监督微调有显著性能提升,且生成的推理轨迹具有高保真度和连贯性。
AI 深度解读
AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org
