垂直模型训练手册

在构建垂直领域大模型（Vertical LLMs）时，核心挑战在于平衡领域知识的实时性、准确性与模型的推理泛化能力。本指南基于航空领域的实战经验，系统性阐述了从技术选型、基座模型微调（SFT/CPT）到强化学习（RL）对齐的全流程解决方案，旨在为开发者提供可落地的模型训练与优化框架。

第一章技术架构决策 — 数据特征与接入路径

在启动训练前，构建清晰的数据分层架构是成功的关键。需依据数据的时效性、精度要求及结构化程度，将业务数据划分为三种处理路径。

1.1 决策矩阵 (Decision Matrix)

数据特征	典型场景	推荐技术路径	核心考量
高频变更 / 实时数据	动态票价、库存状态	Function Call (API)	模型仅作为路由调度，数据不入参，保证毫秒级时效
中低频 / 半结构化数据	业务政策、法律法规	RAG（检索增强生成）	解决上下文窗口限制，利用向量检索实现知识外挂，降低幻觉
静态 / 逻辑 / 隐性知识	行业术语、固有逻辑	CPT + SFT（训练内化）	将领域知识内化为模型参数，提升理解力与推理稳定性

1.2 精度与结构化权衡

硬性约束（Hard Constraints）：对于要求 100% 准确的实体（如航班号、身份证号），严禁依赖模型生成，必须走 API / RAG 路径。
软性约束（Soft Constraints）：对于追求语义通顺、逻辑自洽的非结构化数据，通过全量微调或 LoRA 注入模型参数记忆。

第二章基线模型构建与问题诊断 (Phase I)

2.1 训练策略：多维数据增强

在初代模型构建中，避免单一维度的 QA 对。应采用 “一数多问”（One-Shot Multi-Query） 策略：

方法：针对同一条原始数据（如某航司基础信息），构建事实问答、反向推理、对比分析等多种 Prompt 形式。
目的：打破模型对特定句式的过拟合，增强语义理解的鲁棒性。

2.2 典型失效模式分析

在基线测试中，常见的两类核心问题及其成因：

多跳推理失效（Multi-hop Reasoning Failure）
- 现象：单点知识准确（知道 A 是机场），但无法聚合（列出某地所有机场）。
- 归因：训练数据缺乏逻辑链条，模型未能建立实体间的图谱关系。
事实性幻觉（Factuality Hallucination）
- 现象：格式正确，但核心实体（时间、ID）被编造。
- 归因：参数记忆混淆，模型强行生成未见过的具体数值。

第三章架构优化与知识对齐 (Phase II)

针对基线问题，引入“两阶段训练”与“实体显式注入”策略。

3.1 两阶段训练流水线 (Two-Stage Pipeline)

阶段一：领域自适应预训练（CPT - Continuous Pre-training）
- 输入：清洗后的纯文本数据（如航司手册、机场百科）。
- 目标：通过海量无监督文本，让模型学习领域内的词汇分布和基础背景，建立“领域直觉”。
阶段二：知识蒸馏与监督微调（SFT - Supervised Fine-tuning）
- 输入：高质量问答对（Instruction Tuning Data）。
- 技巧：利用强模型（如 Qwen-72B / GPT-4）进行知识蒸馏，生成包含复杂逻辑链（CoT）的合成数据，提升小模型的逻辑严密性。

3.2 词表增强与实体注册 (Vocabulary Expansion)

为解决“幻觉”问题，从 Tokenizer 层面进行干预：

操作：将领域核心实体（特定航班号、机场三字码、专有名词）显式加入 Tokenizer 词表，并初始化其 Embedding。
效果：强制模型将这些实体视为独立 Token，而非拆解为无意义的字词组合，显著强化实体间的逻辑关联记忆。

第四章进阶演进 — 强化学习与逻辑对齐 (Phase III)

当模型具备基础知识后，利用强化学习（RL）解决复杂业务场景下的决策规划问题（如多段中转航线规划）。

4.1 RLHF / RLAIF 实施路径

思维链构建（CoT Generation）：构建包含完整推理步骤（Step-by-Step）的专用数据集，教会模型“如何思考”。
奖励模型设计（Reward Modeling）：
- 合规性奖励：是否符合航司转机规则？
- 逻辑性奖励：时间衔接是否合理（如落地时间早于起飞时间）？
- 完整性奖励：方案是否包含所有必要要素？
策略优化：利用 PPO 或 DPO 算法，引导模型在满足业务约束的前提下，输出最优决策路径。

第五章最佳实践与架构原则

基于实战演进，总结出垂直领域大模型研发的 “三不原则”与边界定义。

5.1 核心原则

不要试图训练所有数据：模型不仅是知识库，更是推理引擎。参数记忆容量有限，应优先训练“逻辑”与“模式”，而非“动态数值”。
响应延迟（Latency）与规划的平衡：合理的知识前置（Pre-training）能减少 In-Context Learning 的 Context 长度，从而显著降低推理首字延迟（TTFT）。

5.2 边界界定 (The Boundary)

参数记忆（Parametric Memory）：用于存储领域通识、推理范式、语言风格。
非参数记忆（Non-Parametric Memory）：用于存储实时状态、精确数值、长尾文档（通过 RAG / Tool Use 解决）。

附录一：术语表

CPT（Continuous Pre-training）：在目标领域文本上继续无监督预训练，以增强领域语言分布与背景知识。
SFT（Supervised Fine-tuning）：用高质量指令/问答数据对模型进行监督微调，提高任务性能与指令跟随性。
RAG（Retrieval-Augmented Generation）：检索增强生成，将外部知识库/向量索引作为非参数记忆来补充模型回答。
CoT（Chain of Thought）：思维链，通过显式步骤训练模型展现推理过程，提升多跳与复杂逻辑能力。
LoRA（Low-Rank Adaptation）：低秩适配方法，通过参数高效注入实现模型微调与知识注入。
RLHF（Reinforcement Learning from Human Feedback）：基于人工反馈的强化学习方法，用于对齐模型输出偏好。
RLAIF（Reinforcement Learning from AI Feedback）：使用自动化或强模型反馈替代人工反馈的强化学习流程。
PPO / DPO：常用策略优化算法，PPO 为概率策略梯度方法，DPO 为判别式策略优化变体（用于对齐）。
Tokenizer / Embedding：分词器与词向量表示，影响实体切分与参数化记忆的颗粒度。
参数记忆（Parametric Memory）：模型参数中编码的知识。
非参数记忆（Non-Parametric Memory）：外部存储（检索、数据库、工具）用于存放实时/长尾数据。
TTFT（Time To First Token）：推理延迟的一个度量，表示生成第一个 token 的耗时。

第一章 技术架构决策 — 数据特征与接入路径