后预训练技术¶

🎯 学习目标¶

深入理解后预训练(Post-Pretraining)技术，掌握领域适应和知识注入的核心方法，学会在预训练模型基础上进行有效的领域增强。

重点面试问题预览： - 什么是后预训练？与预训练和微调有什么区别？ - 后预训练的数据配比策略是什么？ - 如何防止后预训练中的灾难性遗忘？ - 后预训练在什么场景下最有价值？

🏗️ 后预训练核心概念¶

定义与定位¶

后预训练(Post-Pretraining)是指在通用预训练模型基础上，使用特定领域数据进行继续预训练的过程，目标是在保持通用能力的同时增强特定领域的知识和能力。

训练阶段定位图
┌─────────────────────────────────────────────────────────────────┐
│                    大模型完整训练流程                             │
├─────────────────────────────────────────────────────────────────┤
│  预训练        后预训练       监督微调      强化学习对齐          │
│ Pretraining → Post-Pretraining → SFT → RLHF                    │
│                                                                 │
│ ┌─────────┐   ┌─────────────┐   ┌───────┐   ┌─────────────┐      │
│ │通用语料  │   │ 领域+通用    │   │指令对  │   │ 偏好数据     │      │
│ │CommonCrawl│  │ 医疗+Common │   │Instruct│   │ Human Pref  │      │
│ │C4, 书籍等 │   │ 法律+Books  │   │Dataset │   │ RLHF Data   │      │
│ └─────────┘   └─────────────┘   └───────┘   └─────────────┘      │
│      ▲              ▲             ▲             ▲               │
│  基础能力        领域增强       任务适应       价值对齐            │
│  语言理解        专业知识       指令遵循       人类偏好            │
└─────────────────────────────────────────────────────────────────┘

核心价值主张¶

知识注入: 向模型注入特定领域的专业知识
能力保持: 维持原有的通用语言能力
成本效益: 相比从头训练，大幅降低计算成本
灵活适应: 可针对不同领域快速定制

📊 技术原理与策略¶

数据配比黄金法则¶

基于大量实验验证的最佳实践：

class PostPretrainingDataStrategy:
    """后预训练数据策略"""

    def __init__(self, domain_data_size, general_data_size):
        self.domain_data = domain_data_size
        self.general_data = general_data_size

    def optimal_mixing_ratio(self):
        """最优数据混合比例"""

        # 黄金比例: 领域数据:通用数据 = 1:5
        recommended_ratio = {
            "领域特定数据": "16.7%",
            "通用数据": "83.3%", 
            "混合策略": "每个batch内随机混合",
            "理论依据": "平衡专业性与通用性，防止灾难性遗忘"
        }

        return recommended_ratio

    def data_preprocessing_pipeline(self, domain_corpus, general_corpus):
        """数据预处理流程"""

        # 1. 领域数据处理
        domain_processed = self.process_domain_data(domain_corpus)

        # 2. 通用数据采样
        general_sampled = self.sample_general_data(general_corpus, 
                                                  target_size=len(domain_processed) * 5)

        # 3. 数据去重
        dedup_domain = self.deduplicate_data(domain_processed)
        dedup_general = self.deduplicate_data(general_sampled)

        # 4. 质量过滤
        high_quality_domain = self.quality_filter(dedup_domain, threshold=0.8)
        high_quality_general = self.quality_filter(dedup_general, threshold=0.7)

        # 5. 混合策略
        mixed_dataset = self.create_mixed_dataset(high_quality_domain, high_quality_general)

        return mixed_dataset

    def create_mixed_dataset(self, domain_data, general_data):
        """创建混合数据集"""
        import random

        mixed_data = []

        # 确保每个batch都有适当比例的混合
        batch_size = 1000
        domain_per_batch = batch_size // 6  # ~16.7%
        general_per_batch = batch_size - domain_per_batch  # ~83.3%

        domain_idx, general_idx = 0, 0

        while domain_idx < len(domain_data) and general_idx < len(general_data):
            batch_data = []

            # 添加领域数据
            batch_data.extend(domain_data[domain_idx:domain_idx + domain_per_batch])
            domain_idx += domain_per_batch

            # 添加通用数据
            batch_data.extend(general_data[general_idx:general_idx + general_per_batch])
            general_idx += general_per_batch

            # 随机打乱batch内数据
            random.shuffle(batch_data)
            mixed_data.extend(batch_data)

        return mixed_data

# 实际应用示例
strategy = PostPretrainingDataStrategy(
    domain_data_size=1000000,  # 100万条医疗数据
    general_data_size=5000000  # 500万条通用数据
)

optimal_ratio = strategy.optimal_mixing_ratio()
print("最优混合比例:", optimal_ratio)

训练超参数配置¶

class PostPretrainingConfig:
    """后预训练配置管理"""

    def __init__(self, model_size="7B"):
        self.model_size = model_size

    def get_training_config(self):
        """获取训练配置"""

        base_config = {
            # 学习率策略
            "learning_rate": 1e-5,  # 比预训练低1-2个数量级
            "min_learning_rate": 1e-6,
            "warmup_ratio": 0.03,   # 3%的warmup
            "lr_scheduler": "cosine",

            # 训练策略
            "epochs": 1,            # 单轮训练避免过拟合
            "batch_size": self._get_batch_size(),
            "gradient_accumulation": self._get_grad_accumulation(),
            "max_grad_norm": 1.0,

            # 数据策略
            "max_seq_length": 2048,
            "data_mixture_ratio": {"domain": 0.167, "general": 0.833},

            # 正则化
            "weight_decay": 0.1,
            "dropout": 0.1,

            # 监控指标
            "eval_steps": 500,
            "save_steps": 1000,
            "logging_steps": 100
        }

        return base_config

    def _get_batch_size(self):
        """根据模型大小调整batch size"""
        size_mapping = {
            "1B": 64,
            "3B": 32, 
            "7B": 16,
            "13B": 8,
            "30B": 4,
            "70B": 2
        }
        return size_mapping.get(self.model_size, 16)

    def _get_grad_accumulation(self):
        """梯度累积步数"""
        # 确保有效batch size足够大
        target_effective_batch = 256
        actual_batch = self._get_batch_size()
        return max(1, target_effective_batch // actual_batch)

    def catastrophic_forgetting_prevention(self):
        """灾难性遗忘防止策略"""

        strategies = {
            "数据层面": {
                "通用数据混合": "保持83.3%通用数据比例",
                "数据质量": "确保领域数据质量，避免噪声数据",
                "序列长度": "使用完整序列，避免截断丢失上下文"
            },

            "训练层面": {
                "学习率": "使用较小学习率(1e-5)，温和更新",
                "训练轮次": "单轮训练，避免过度拟合领域数据",
                "梯度裁剪": "防止梯度爆炸导致的突变"
            },

            "评估层面": {
                "通用能力监控": "定期在通用基准上评估",
                "领域能力评估": "验证领域增强效果",
                "早停机制": "发现遗忘时及时停止"
            }
        }

        return strategies

# 配置示例
config = PostPretrainingConfig("7B")
training_config = config.get_training_config()
forgetting_prevention = config.catastrophic_forgetting_prevention()

print("训练配置:", training_config)
print("遗忘防止策略:", forgetting_prevention)

💻 实际实现案例¶

医疗领域后预训练示例¶

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from datasets import Dataset, concatenate_datasets
import numpy as np

class MedicalPostPretraining:
    """医疗领域后预训练实现"""

    def __init__(self, base_model_name="meta-llama/Llama-2-7b-hf"):
        self.tokenizer = AutoTokenizer.from_pretrained(base_model_name)
        self.model = AutoModelForCausalLM.from_pretrained(
            base_model_name,
            torch_dtype=torch.bfloat16,
            device_map="auto",
            load_in_8bit=True  # 内存优化
        )

        # 添加padding token
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token

    def prepare_medical_data(self, medical_texts, general_texts):
        """准备医疗领域混合数据"""

        # 1. 处理医疗文本
        medical_processed = []
        for text in medical_texts:
            if self._is_high_quality_medical(text):
                medical_processed.append({"text": text, "source": "medical"})

        # 2. 采样通用文本 (5倍医疗数据量)
        target_general_size = len(medical_processed) * 5
        general_sampled = np.random.choice(
            general_texts, 
            size=min(target_general_size, len(general_texts)),
            replace=False
        )

        general_processed = [
            {"text": text, "source": "general"} 
            for text in general_sampled
        ]

        # 3. 创建混合数据集
        all_data = medical_processed + general_processed
        np.random.shuffle(all_data)  # 随机打乱

        return Dataset.from_list(all_data)

    def _is_high_quality_medical(self, text):
        """医疗文本质量检查"""

        # 基本长度检查
        if len(text.split()) < 50 or len(text.split()) > 2000:
            return False

        # 医疗术语密度检查
        medical_terms = [
            "patient", "diagnosis", "treatment", "symptom", "disease",
            "medication", "therapy", "clinical", "medical", "health",
            "病人", "诊断", "治疗", "症状", "疾病", "药物", "临床", "医疗"
        ]

        term_count = sum(1 for term in medical_terms if term.lower() in text.lower())
        term_density = term_count / len(text.split())

        # 至少包含一定密度的医疗术语
        return term_density > 0.02

    def tokenize_function(self, examples):
        """数据tokenization"""

        # Tokenize文本
        tokenized = self.tokenizer(
            examples["text"],
            truncation=True,
            padding=False,
            max_length=2048,
            return_tensors=None
        )

        # 对于因果语言模型，labels就是input_ids
        tokenized["labels"] = tokenized["input_ids"].copy()

        return tokenized

    def create_data_collator(self):
        """创建数据整理器"""
        from transformers import DataCollatorForLanguageModeling

        return DataCollatorForLanguageModeling(
            tokenizer=self.tokenizer,
            mlm=False,  # 不使用masked language modeling
            pad_to_multiple_of=8  # 优化GPU内存对齐
        )

    def train(self, train_dataset, eval_dataset, output_dir):
        """执行后预训练"""

        # 训练配置
        training_args = TrainingArguments(
            output_dir=output_dir,

            # 基本设置
            num_train_epochs=1,
            per_device_train_batch_size=4,
            per_device_eval_batch_size=4,
            gradient_accumulation_steps=16,  # 有效batch size = 64

            # 学习率设置
            learning_rate=1e-5,
            warmup_ratio=0.03,
            lr_scheduler_type="cosine",

            # 优化设置
            bf16=True,  # 使用bfloat16
            gradient_checkpointing=True,  # 节省显存
            max_grad_norm=1.0,
            weight_decay=0.1,

            # 评估和保存
            evaluation_strategy="steps",
            eval_steps=500,
            save_steps=1000,
            save_total_limit=3,

            # 日志设置
            logging_steps=100,
            logging_dir=f"{output_dir}/logs",
            report_to="tensorboard",

            # 其他设置
            dataloader_pin_memory=True,
            remove_unused_columns=False,
        )

        # 创建训练器
        trainer = Trainer(
            model=self.model,
            args=training_args,
            train_dataset=train_dataset,
            eval_dataset=eval_dataset,
            data_collator=self.create_data_collator(),
            tokenizer=self.tokenizer,
        )

        # 开始训练
        trainer.train()

        # 保存模型
        trainer.save_model()

        return trainer

# 使用示例
def run_medical_post_pretraining():
    """运行医疗领域后预训练"""

    # 1. 准备数据 (示例数据)
    medical_texts = [
        "患者主诉胸痛3天，伴有呼吸困难。体格检查发现心率增快...",
        "The patient presents with acute myocardial infarction...",
        # ... 更多医疗文本
    ]

    general_texts = [
        "Today is a beautiful day for outdoor activities...",
        "Machine learning is transforming various industries...",
        # ... 更多通用文本
    ]

    # 2. 初始化训练器
    trainer = MedicalPostPretraining()

    # 3. 准备数据
    train_data = trainer.prepare_medical_data(medical_texts, general_texts)
    tokenized_train = train_data.map(trainer.tokenize_function, batched=True)

    # 划分训练和验证集
    train_test_split = tokenized_train.train_test_split(test_size=0.1)
    train_dataset = train_test_split["train"]
    eval_dataset = train_test_split["test"]

    # 4. 执行训练
    trained_model = trainer.train(
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        output_dir="./medical_llama_7b"
    )

    return trained_model

# 执行训练
# trained_model = run_medical_post_pretraining()

效果评估与监控¶

class PostPretrainingEvaluator:
    """后预训练效果评估器"""

    def __init__(self, base_model, finetuned_model, tokenizer):
        self.base_model = base_model
        self.finetuned_model = finetuned_model
        self.tokenizer = tokenizer

    def domain_knowledge_evaluation(self, domain_questions):
        """领域知识评估"""

        results = {
            "base_model_scores": [],
            "finetuned_model_scores": [],
            "improvements": []
        }

        for question in domain_questions:
            # 基础模型回答
            base_answer = self.generate_answer(self.base_model, question)
            base_score = self.evaluate_domain_answer(question, base_answer)

            # 微调模型回答
            ft_answer = self.generate_answer(self.finetuned_model, question)
            ft_score = self.evaluate_domain_answer(question, ft_answer)

            # 记录结果
            results["base_model_scores"].append(base_score)
            results["finetuned_model_scores"].append(ft_score)
            results["improvements"].append(ft_score - base_score)

        # 计算统计指标
        avg_improvement = np.mean(results["improvements"])
        improvement_std = np.std(results["improvements"])

        return {
            "average_improvement": avg_improvement,
            "improvement_std": improvement_std,
            "improvement_rate": np.mean(np.array(results["improvements"]) > 0),
            "detailed_results": results
        }

    def general_capability_retention(self, general_benchmarks):
        """通用能力保持评估"""

        retention_scores = {}

        for benchmark_name, benchmark_data in general_benchmarks.items():
            base_score = self.run_benchmark(self.base_model, benchmark_data)
            ft_score = self.run_benchmark(self.finetuned_model, benchmark_data)

            retention_rate = ft_score / base_score if base_score > 0 else 0

            retention_scores[benchmark_name] = {
                "base_score": base_score,
                "finetuned_score": ft_score,
                "retention_rate": retention_rate,
                "acceptable": retention_rate > 0.95  # 保持95%以上为acceptable
            }

        return retention_scores

    def catastrophic_forgetting_detection(self, test_samples):
        """灾难性遗忘检测"""

        forgetting_indicators = {
            "语法能力下降": self.test_grammar_capability(test_samples["grammar"]),
            "常识推理退化": self.test_commonsense_reasoning(test_samples["commonsense"]),
            "基础知识丢失": self.test_factual_knowledge(test_samples["facts"]),
            "逻辑推理能力": self.test_logical_reasoning(test_samples["logic"])
        }

        # 计算总体遗忘风险
        forgetting_risk = self.calculate_forgetting_risk(forgetting_indicators)

        return {
            "individual_indicators": forgetting_indicators,
            "overall_forgetting_risk": forgetting_risk,
            "risk_level": self.categorize_risk_level(forgetting_risk)
        }

    def calculate_forgetting_risk(self, indicators):
        """计算遗忘风险分数"""

        risk_weights = {
            "语法能力下降": 0.3,
            "常识推理退化": 0.3, 
            "基础知识丢失": 0.2,
            "逻辑推理能力": 0.2
        }

        total_risk = 0
        for indicator, score in indicators.items():
            # score越低风险越高
            risk = (1 - score) * risk_weights[indicator]
            total_risk += risk

        return total_risk

    def generate_evaluation_report(self, domain_eval, retention_eval, forgetting_eval):
        """生成评估报告"""

        report = {
            "后预训练效果总结": {
                "领域能力提升": f"{domain_eval['average_improvement']:.3f} (+{domain_eval['improvement_rate']*100:.1f}% cases improved)",
                "通用能力保持": f"平均保持率: {np.mean([r['retention_rate'] for r in retention_eval.values()]):.3f}",
                "遗忘风险评估": forgetting_eval['risk_level']
            },

            "详细分析": {
                "最佳提升领域": self.find_best_improvements(domain_eval),
                "需要关注的通用能力": self.find_concerning_retentions(retention_eval),
                "遗忘风险点": self.find_forgetting_risks(forgetting_eval)
            },

            "改进建议": self.generate_improvement_suggestions(
                domain_eval, retention_eval, forgetting_eval
            )
        }

        return report

# 评估使用示例
def evaluate_medical_post_pretraining(base_model, finetuned_model, tokenizer):
    """医疗领域后预训练评估"""

    evaluator = PostPretrainingEvaluator(base_model, finetuned_model, tokenizer)

    # 准备评估数据
    medical_questions = [
        "What are the symptoms of myocardial infarction?",
        "Explain the mechanism of action of ACE inhibitors",
        # ... 更多医疗问题
    ]

    general_benchmarks = {
        "common_sense": load_commonsense_qa(),
        "reading_comprehension": load_reading_comprehension(),
        "arithmetic": load_arithmetic_tasks()
    }

    forgetting_test_samples = {
        "grammar": load_grammar_tests(),
        "commonsense": load_commonsense_tests(),
        "facts": load_factual_tests(),
        "logic": load_logic_tests()
    }

    # 执行评估
    domain_results = evaluator.domain_knowledge_evaluation(medical_questions)
    retention_results = evaluator.general_capability_retention(general_benchmarks)
    forgetting_results = evaluator.catastrophic_forgetting_detection(forgetting_test_samples)

    # 生成报告
    evaluation_report = evaluator.generate_evaluation_report(
        domain_results, retention_results, forgetting_results
    )

    print("后预训练评估报告:")
    print(json.dumps(evaluation_report, indent=2, ensure_ascii=False))

    return evaluation_report

# 运行评估
# evaluation_report = evaluate_medical_post_pretraining(base_model, finetuned_model, tokenizer)

📋 最佳实践总结¶

成功要素清单¶

def post_pretraining_checklist():
    """后预训练成功要素清单"""

    return {
        "数据准备": {
            "✓ 领域数据质量": "确保数据来源权威、内容准确",
            "✓ 数据规模充足": "至少10亿token的领域数据",
            "✓ 通用数据混合": "保持1:5的领域:通用比例",
            "✓ 数据去重处理": "避免重复数据导致过拟合",
            "✓ 格式统一化": "保持与预训练阶段一致的格式"
        },

        "训练配置": {
            "✓ 学习率设置": "使用1e-5左右的较低学习率",
            "✓ 单轮训练": "避免多轮训练导致的过拟合",
            "✓ 批量大小": "确保有效批量大小足够大",
            "✓ 序列长度": "使用模型支持的最大序列长度",
            "✓ 正则化策略": "适当的dropout和weight decay"
        },

        "监控评估": {
            "✓ 领域能力跟踪": "定期评估领域特定任务表现",
            "✓ 通用能力监控": "确保通用benchmark不退化",
            "✓ 遗忘风险检测": "监控灾难性遗忘指标",
            "✓ 早停机制": "设置合理的早停条件",
            "✓ 定期checkpointing": "保存训练过程中的关键节点"
        }
    }

# 常见问题与解决方案
def common_issues_solutions():
    """常见问题与解决方案"""

    return {
        "问题1: 灾难性遗忘": {
            "症状": "通用能力显著下降，基础任务表现变差",
            "原因": "领域数据比例过高，学习率过大，训练过久",
            "解决": "降低领域数据比例，减小学习率，单轮训练"
        },

        "问题2: 领域能力提升不明显": {
            "症状": "在领域任务上表现没有明显改善",
            "原因": "领域数据质量差，数据量不足，训练不充分",
            "解决": "提高数据质量，增加数据量，适当增加训练步数"
        },

        "问题3: 训练不稳定": {
            "症状": "损失震荡，训练发散，性能忽高忽低",
            "原因": "学习率过高，批量大小不合适，数据质量问题",
            "解决": "降低学习率，调整批量大小，清洗数据"
        },

        "问题4: 资源不足": {
            "症状": "显存不够，训练时间过长",
            "原因": "模型太大，批量大小过大，序列长度过长",
            "解决": "使用量化，减小批量，梯度累积，模型并行"
        }
    }

🎯 面试问答总结¶

Q1: 什么是后预训练？与预训练和微调有什么区别？¶

A: 后预训练是在通用预训练模型基础上，使用领域特定数据进行继续预训练的过程： - 与预训练区别: 预训练使用通用语料，后预训练使用领域+通用混合数据 - 与微调区别: 微调使用任务标注数据，后预训练仍使用自监督学习 - 目标: 在保持通用能力基础上注入领域知识

Q2: 后预训练的数据配比策略是什么？¶

A: 经验验证的黄金比例是领域:通用 = 1:5 - 理论依据: 平衡领域增强与能力保持 - 实施方法: 每个batch内随机混合，确保比例稳定 - 调优空间: 可根据具体需求在1:3到1:8之间调整

Q3: 如何防止后预训练中的灾难性遗忘？¶

A: 多层面防护策略： - 数据层面: 保持足够比例的通用数据混合 - 训练层面: 使用较小学习率，单轮训练，梯度裁剪 - 监控层面: 定期评估通用基准，设置早停机制

Q4: 后预训练在什么场景下最有价值？¶

A: 最适用的三个场景： 1. 有大量领域语料 (>10亿token)且质量高 2. 领域知识密集型任务 (如医疗、法律、金融) 3. 需要保持通用能力 的专业应用

🚀 学习建议¶

理论理解: 深入理解后预训练的定位和价值
实践验证: 在小规模数据上验证配比和超参数
监控体系: 建立完整的能力评估和遗忘检测机制
领域应用: 选择具体领域深入实践

后预训练是连接通用模型与专业应用的重要桥梁，是现代LLM落地的关键技术！