MiniDeepSeek预训练

课程说明：

  同学们好呀~欢迎来到《2025大模型原理与训练》试学体验课！我是课程主讲老师，九天。本期体验课将带领各位同学手动从零到一完成miniDeepSeek大模型训练，完整介绍Ubuntu系统使用、分词器训练、大模型预训练、大模型全量指令微调，以及DPO强化学习微调完整流程！​

•
体验课内容节选自《2025大模型原理与训练》完整版付费课程​

体验课时间有限，若想深度学习大模型技术，欢迎大家报名由我和菜菜老师主讲的《2025大模型原理与实战课程》：

common.docs_name - LarkCCM_Docs_Menu_Image

62%

38%

此外，公开课全套学习资料，已上传至网盘（https://pan.baidu.com/s/1vWvvoEcHpMkKCk2Tv7C5nA?pwd=2qau）

需要更系统深入学习大模型可扫码⬆️添加助教咨询喔～

《2025大模型原理与训练》体验课

从零手动复现DeepSeek v3

Ch.2 MiniDeepSeek v3 预训练过程

【补充介绍】大模型预训练基本概念与预训练数据集创建方法​

•
大模型预训练与预训练数据集​

  在大模型训练的过程中，预训练阶段是至关重要的一步。预训练（Pre-training）是指在大规模无监督数据上进行初步模型训练，使模型能够学习到通用的语言模式、知识表征和统计特征。这一阶段不依赖于特定任务，而是通过在大规模、多样化的数据集上进行广泛的学习，帮助模型建立基础的语言理解能力。通过预训练，模型可以在后续的特定任务上（如分类、生成、翻译等）以更快的速度和更高的准确性进行微调（Fine-tuning）。​

  预训练的目标是使模型能够有效捕捉数据中的规律，学会高效的特征表示，从而为后续的任务奠定基础。这一阶段通常涉及训练深度神经网络，如Transformer架构，通过处理大规模文本数据，模型能够学会上下文依赖关系、词汇语义关系等复杂的语言特征。​

  而在选择预训练数据集时，需要特别关注以下几个关键因素：​

1.
数据规模​
预训练数据集的规模对模型的性能具有直接影响。大模型通常需要数百亿甚至上千亿个参数，这要求使用海量数据来支持模型训练。在数据量较少的情况下，模型可能无法充分学习复杂的语义关系，进而影响预训练的效果。因此，数据集的规模应足够大，以便涵盖广泛的语言模式和知识。​

2.
数据多样性​
数据集的多样性同样至关重要。预训练过程中，模型需要接触各种类型的文本内容，包括新闻、书籍、博客、技术文档等，以确保其能够广泛适应不同语言风格、领域知识和应用场景。如果数据过于单一，模型在后续应用于其他任务时，可能会表现出偏差或局限性。因此，选取多样化的数据源有助于提升模型的泛化能力。​

3.
数据质量​
数据质量直接影响模型预训练的有效性和稳定性。高质量的数据应具有较少的噪声、语法错误和不完整的句子。若数据质量较差，模型可能会学习到错误的模式或产生不合理的输出。因此，需对数据集进行预处理和清洗，以剔除错误、冗余或低质量的部分。​

4.
领域相关性​
尽管预训练通常是在通用数据集上进行，但在某些情况下，特定领域的数据可能更为重要。例如，若大模型的目标是用于医学或法律领域的应用，预训练数据集中应包含该领域的相关内容，以帮助模型建立更为准确的领域知识。这种数据的领域适配性可以在后续任务中显著提高模型的表现。​

综上所述，预训练阶段的数据集选取是大模型成功的关键环节之一，良好的数据规模、质量、多样性及领域适配性有助于提高模型的泛化能力和应用效果。同时，数据的合规性与道德责任也不容忽视。通过精心选择和处理数据集，可以为后续的任务微调提供坚实的基础。​

•
大模型预训练数据集构建方法​

  在大模型的开发中，构建高质量的预训练数据集是至关重要的一环。如果现有的公开数据集无法完全满足特定需求，研究人员或开发团队可能会选择自构预训练数据集，以便更好地适配模型的任务或领域。在构建过程中，不仅需要考虑数据的收集和处理，还应确保遵循数据的伦理、质量和多样性原则。​

构建预训练数据集的步骤

1.
确定数据来源​
数据集的质量和多样性主要取决于数据来源的选择。常见的数据来源包括：​
◦
公开数据集：如维基百科、Common Crawl等大型通用文本数据集。这类数据资源庞大且容易获取。​
◦
领域特定数据：从技术文献库、领域文献、研究论文或行业报告中收集数据，适用于特定领域（如医学、法律、金融等）模型的预训练。​
◦
网络抓取：通过网络爬虫工具从特定网站抓取数据，尤其适合于需要最新或领域特定信息的场景。需要注意遵守网站的隐私政策及数据使用协议。​
◦
自有数据：如企业内部的技术文档、客户服务记录等，这些数据能够使模型专门针对企业应用场景进行优化。​

2.
数据清洗与预处理​
收集到的原始数据往往包含很多噪声和冗余信息，如广告、格式错误、拼写错误、重复内容等。为了提高预训练的有效性，必须对数据进行清洗和预处理，主要包括：​
◦
去重处理：消除重复的文本片段，以避免模型过度学习某些特定模式。​
◦
去除噪声：如无意义的文本、HTML标签、标点符号过度堆积等。这些信息会干扰模型的训练，降低训练效果。​
◦
文本规范化：标准化文本格式，如统一的编码格式、消除特殊符号、处理数字或单位等。​
◦
句子分割与标注：确保文本中的句子分割合理，特别是对于连续文本段落的处理。根据需要，也可以对文本进行标注（如词性、句法等），以增加模型训练的多样性和丰富性。​

3.
数据分布与多样性检查​
数据集的多样性和分布平衡性是影响模型泛化能力的重要因素。应尽量确保不同领域、不同风格、不同语言或不同语境下的数据均有适当的比例，以避免模型在某些特定领域或语言风格上产生偏见。可以通过统计分析工具对数据进行分布检查，确保数据涵盖广泛的上下文和主题。​

4.
数据格式化与存储​
预训练数据通常需要转换为模型能够直接使用的格式，如标准化的纯文本文件（.txt）、序列化数据（JSON、CSV等），或者特定的分词和标注格式。确保数据的文件组织结构清晰，便于在训练时进行高效加载。​
此外，预训练数据集往往非常庞大，因此需要合理的存储策略。常见的存储方式包括分片存储、大数据存储系统（如HDFS）、云存储等，以确保在大规模训练时的数据读取速度。​

5.
数据增强（可选）​
在某些情况下，数据增强技术可以进一步提高数据集的多样性和丰富性，尤其是在数据规模不足的情况下。常见的数据增强技术包括：​
◦
同义词替换：在不改变语义的前提下，用同义词替换句子中的部分词汇。​
◦
句子顺序打乱：对文本中的句子顺序进行随机调整，增加训练数据的复杂性。​
◦
生成式增强：利用已有模型生成新的语料，通过多种生成方式扩展训练数据的规模。​

注意事项

1.
合法性与伦理合规​
在数据收集的过程中，必须遵守相关法律法规，特别是数据隐私保护和版权问题。未经授权采集的数据可能涉及法律风险，尤其是涉及个人隐私信息或受版权保护的内容时，必须确保有合法使用许可。此外，数据集中应避免包含有害或偏见性的内容，如种族、性别、文化等方面的歧视性语言。​

2.
数据平衡与去偏​
数据集中的偏见可能会导致模型输出中的偏差，例如如果训练数据集中某类文本（如某一性别、民族或职业）过度代表，模型可能会倾向于此类文本。为减少这种偏差，数据集的构建应尽量平衡不同类型的内容，确保模型学习到的知识更加中立和广泛。​

3.
数据质量控制​
数据的质量直接决定了模型预训练的效果。低质量的数据（如拼写错误、语法错误、不完整的句子等）会导致模型学习到不可靠的模式，因此需要在数据清洗阶段严格控制数据质量。此外，数据标注的准确性也是模型表现的关键，特别是在需要监督信号或标注信息时，必须确保标注的一致性和正确性。​

MiniDeepSeek预训练​

MiniDeepSeek预训练