技术博客arXiv cs.CL·3 小时前

基于方差感知评分奖励的GRPO优化大模型心脏医疗问答

原标题：Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

速览

针对大模型在医疗领域部署的隐私与成本挑战，研究利用基于RaR-Medicine的评分监督进行后训练。提出方差感知奖励框架，通过连续分析奖励函数替代传统二元聚合，提供更丰富的优化信号。实验显示，该方法使Qwen3-14B在心脏医疗问答上的准确率从0.362提升至0.502，性能接近GPT-OSS-120B。

AI 深度解读

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）

查看原文 →arxiv.org

基于方差感知评分奖励的GRPO优化大模型心脏医疗问答

速览

AI 深度解读

相关推荐