Agent SkillLINUX DO · AI·1 小时前

DomainPostTrain：大模型微调主流技术栈全链路示例

原标题：大模型微调主流技术栈全链路示例

速览

DomainPostTrain是一个通用领域后训练管道，涵盖CPT、Fact-SFT、可选DPO及质量评估等步骤。项目支持LoRA/QLoRA适配、模型合并及GGUF/ONNX导出，适用于构建垂直领域助手。

AI 深度解读

大模型微调主流技术栈全链路示例深度解读

背景

随着大语言模型（LLM）在垂直领域的落地需求日益增长，如何高效、规范地将通用基座模型适配到特定业务场景，成为开发者面临的核心挑战。传统的微调流程往往缺乏标准化的工程实践，导致数据管理混乱、训练链路不透明、评估体系缺失等问题。

在此背景下，社区开源项目 DomainPostTrain 应运而生。该项目旨在提供一个通用的领域后训练（Post-Training）管道示例，帮助开发者将静态领域文档、事实问答样例和偏好样例组织成可复现的 LLM 后训练流程。其核心目标是通过标准化的数据结构和自动化脚本，实现从数据准备、模型适配到最终部署的全链路闭环，确保训练过程的可复现性与安全性。

核心内容

DomainPostTrain 定义了一套完整的 LLM 后训练流水线，其核心逻辑遵循 CPT → Fact-SFT → optional DPO → merge → quality eval → inference/export 的标准范式。

1. 核心能力范围

该项目涵盖了微调全生命周期的关键环节：

数据工程：支持 CPT（Continual Pre-Training，继续预训练）语料的发现、安全预检，以及必覆盖数据集的构造与覆盖率报告生成。
模型适配：
- 支持基于 PEFT（Parameter-Efficient Fine-Tuning）的 LoRA 或 QLoRA 技术进行领域继续预训练。
- 实施 Fact-SFT（事实监督微调），采用 assistant-only loss 策略，仅训练助手回答部分的 token，提升指令遵循能力。
- 提供可选的 DPO（Direct Preference Optimization，直接偏好优化）训练，输入包含完整的 prompt、chosen（优选回复）和 rejected（拒绝回复）。
模型合并与评估：支持 Adapter 合并，并在训练后执行质量评估，涵盖单条推理测试及基于 OpenAI 兼容协议的 Flask 服务部署。
模型导出：支持将合并后的 Hugging Face 模型导出为 GGUF 格式（适配 llama.cpp 等本地推理框架），以及可选的 ONNX 格式导出。

2. 项目结构与数据约定

项目采用模块化设计，主要包含 configs（配置）、data（数据）、pipeline（核心逻辑）、scripts（执行脚本）等目录。数据方面，项目严格定义了静态 Mock 数据的结构，示例领域为虚构的内部支持知识库助手 AsterHelp。

CPT 数据：存放于 data/cpt/source_documents/*.md，为源文档。
Fact-SFT 数据：存放于 data/sft/*.jsonl，每行包含 instruction 和 output。
DPO 数据：存放于 data/dpo/preference_examples.jsonl，每行包含 prompt、chosen、rejected，且要求 chosen != rejected。
质量评估数据：存放于 data/eval/quality_questions.jsonl，每行包含 category（支持 domain_knowledge、safety_boundary、base_regression）和 question。

安全警示：发布派生仓库前，严禁将私有文档、客户数据、凭据、私有 System Prompt 或受许可证限制的语料放入 data/ 目录。

3. 安装与环境配置

依赖环境：默认面向 CUDA 12.6 GPU 训练环境，requirements.txt 中包含 PyTorch CUDA wheel 索引。若环境不同，需先安装匹配的 PyTorch。
安装步骤：
- Linux/macOS：创建虚拟环境，激活后通过 pip install -r requirements.txt 安装。
- Windows PowerShell：使用 py -3.10 创建环境并安装依赖。
- ONNX 支持：若需 ONNX 导出，需额外安装 requirements-onnx.txt 及 ONNX Runtime CUDA wheel。
配置管理：默认配置文件为 configs/domain_post_training.yaml。用户需复制该文件并修改关键路径，如 corpus.input_paths、fact_sft.input_paths、dpo.input_path 以及基座模型路径 base_model_repo_id 或 base_model_name_or_path。

4. 训练流程详解

快速自检（Smoke Test）：通过 --smoke_test 参数，使用 CPU 创建一个极小的本地模型，验证配置加载、数据准备、Adapter 保存及合并链路，无需下载默认基座模型。
完整训练：运行 train_pipeline.py 脚本。主要输出包括 CPT、Fact-SFT、DPO 的 Adapter 文件，合并后的模型 outputs/merged_model/，以及各类覆盖率报告和评估报告。
阶段跳过：支持通过 --skip_cpt、--skip_sft 等参数灵活跳过特定训练阶段。

5. 验证与评估机制

项目明确区分了训练过程中的验证集和训练后的质量评估：

验证集（Validation Set）：用于训练过程中的 Loss 监控。默认 Mock 数据较小，故默认关闭验证集切分。真实项目中建议 CPT 使用独立的 held-out 文档，Fact-SFT 和 DPO 可设置 5%-10% 的验证比例。
质量评估（Quality Evaluation）：训练完成后，从 eval.question_file 读取题集，检查事实回答准确性、安全拒答能力及基础能力是否发生灾难性遗忘。

6. 模型导出与服务部署

GGUF 导出：推荐用于本地部署。合并模型后，使用 export_gguf.py 脚本，指定 llama_cpp 后端及路径进行导出。
ONNX 导出：作为可选路径，通过 export_onnx.py 脚本执行。
推理与服务：
- 单条推理：通过 run_inference.py 进行本地测试。
- API 服务：启动 serve_inference.py 提供 Flask 服务，兼容 OpenAI API 格式。支持 /v1/chat/completions、/v1/models 等标准接口，以及简单的 /generate 接口。

关键要点

全链路标准化：项目不仅提供训练代码，还涵盖了数据清洗、安全预检、多阶段微调（CPT+SFT+DPO）、模型合并、质量评估及多格式导出，形成了一套完整的工程化解决方案。
数据安全性优先：严格区分 Mock 数据与真实数据，并在文档中多次强调禁止泄露私有数据、凭据及受限语料，体现了对企业级应用安全性的重视。
灵活的训练策略：
- 支持 PEFT（LoRA/QLoRA）以降低显存占用。
- Fact-SFT 采用 assistant-only loss，避免模型学习用户 Prompt 部分，提升指令遵循精度。
- 支持 DPO 偏好优化，进一步提升模型对齐人类价值观的能力。
解耦的评估体系：将训练过程中的 Validation Loss 与训练后的 Quality Evaluation 分离，后者专注于业务层面的事实准确性、安全性及基础能力回归，更符合实际业务需求。
部署友好：原生支持 GGUF 和 ONNX 导出，无缝对接 llama.cpp 等高效推理引擎，同时提供 OpenAI 兼容的 API 服务，便于集成到现有后端系统中。
环境兼容性：详细说明了 CUDA、Python 版本及不同操作系统下的安装差异，并提供了离线安装建议，降低了部署门槛。

意义与影响

DomainPostTrain 的出现为 LLM 垂直领域落地提供了极具参考价值的工程范式。

首先，它降低了微调的技术门槛。通过将复杂的数据处理、多阶段训练和评估流程封装为可复用的 Python 脚本和配置文件，开发者无需从零搭建训练基础设施，即可快速启动领域模型的适配工作。

其次，它强调了数据质量与安全规范。在 LLM 应用中，数据是

查看原文 →linux.do