A Three-Phase Foundation Model for Tax-Aware Personalized Portfolio Management
AI 深度解读
背景
在金融人工智能领域,基于强化学习的投资组合管理长期面临三大核心痛点:首先是“股票代码锁定”,即模型只能交易训练时见过的特定标的,缺乏泛化能力;其次是“单一目标”,现有系统往往只追求单一维度的收益,无法兼顾复杂的现实投资需求;最后是“静态用户模型”,传统方法依赖静态问卷来刻画用户,无法动态捕捉投资者真实的行为偏好与税务状况。此外,将前沿的时间序列基础模型引入金融强化学习,并在推理阶段实现低成本的个性化适配,一直是业界未充分探索的空白。
核心内容
本文提出了一种面向税务感知个性化投资组合管理的三阶段深度强化学习系统,旨在解决上述三大局限性。
第一阶段:无股票代码标识的跨资产编码器预训练 该阶段通过自监督学习在多资产语料库上预训练一个跨资产编码器,其核心特征是“无股票代码标识”,即模型不依赖特定的股票代码进行身份识别。为了增强时序特征提取能力,系统引入了一个并行的冻结分支,采用基于 T5 的时间序列基础模型 Chronos,并通过学习的门控机制将两者融合。据作者所知,这是时间序列基础模型在投资组合管理强化学习中的首次应用。该编码器通过一个 50 维的可观测元数据向量来表征资产,使得模型能够在不重新训练的情况下泛化到任何公开交易的新标的。
第二阶段:基于 MoE 与 PPO 的多目标策略微调 该阶段使用近端策略优化算法对混合专家架构的投资组合 Actor-Critic 进行微调。其奖励函数是目标条件化的,每个回合同时采样并服务于六个不同的投资目标:短期 alpha、短期收益、长期收益、资本保值、税务亏损收割,以及仅长期收益。MoE 架构为每个目标分配了专门的
查看原文 →arxiv.org
