技术博客arXiv cs.CL·11 小时前

POLARIS：引导小模型写出高质量长故事

原标题：POLARIS: Guiding Small Models to Write Long Stories

速览

POLARIS是一种针对小模型长文创作的训练方法，结合LLM裁判奖励和人类参考注入技术。该方法在Qwen3.5-9B上验证，其表现优于基座模型且媲美更大参数模型。实验表明，该方法能有效解决小模型在长文本生成中质量下降和长度不达标的问题。

AI 正在阅读原文并生成深度解读…（首次约 20–40 秒，之后秒开）