← 返回信息流
技术博客arXiv cs.CL·3 小时前

基于方差感知评分奖励的GRPO优化大模型心脏医疗问答

原标题:Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

速览

针对大模型在医疗领域部署的隐私与成本挑战,研究利用基于RaR-Medicine的评分监督进行后训练。提出方差感知奖励框架,通过连续分析奖励函数替代传统二元聚合,提供更丰富的优化信号。实验显示,该方法使Qwen3-14B在心脏医疗问答上的准确率从0.362提升至0.502,性能接近GPT-OSS-120B。

AI 深度解读

AI 正在阅读原文并生成深度解读…(首次约 20–40 秒,之后秒开)
查看原文 →arxiv.org