DeepSeek R1高效微调实战入门

本节公开课，我们来探讨DeepSeek R1的一个热门技术应用方向——模型微调。本节公开课我们将  重点介绍如何使用主流微调框架unsloth，围绕DeepSeek R1 Distill 7B和8B模型进行高效微调，并详细  介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法，并在一个医学数据集上完成高效微   调实战，并最终达到问答风格优化+知识灌注目的，让模型在微调过程中掌握复杂医学问题的专业推理过 程，并提高疾病诊断的准确率。​

•
硬件要求：本节公开课最小化复现仅需7G显存、半小时运行时间即可完成，并获得微调效果。​

•
训练流程迁移：本节公开课介绍的DeepSeek R1模型的高效微调流程可以迁移至DeepSeek R1任意 蒸馏模型、任意COT数据集，甚至是进行DeepSeek R1模型高效微调。​

•
课件代码领取：公开课随课提供全部课件、代码、训练数据、模型微调前后权重等各项内容。 ​

•
课程参考资料：为了更好的辅助学习，随公开课附赠相关参考资料。​

•

体验课内容节选自《2025大模型Agent智能体开发实战》完整版付费课程

体验课时间有限，若想深度学习大模型技术，欢迎大家报名由我主讲的《2025大模型Agent智能体开发实战》：

common.docs_name - LarkCCM_Docs_Menu_Image

69%

31%

此外，公开课全套学习资料，已上传至网盘（ https://pan.baidu.com/s/1LSCc4_3V9bEofy_luy_1WA?pwd=gain ）

需要更系统深入学习大模型可扫码⬆️添加助教咨询喔～

•
公开课大纲​

DeepSeekR1高效微调实战入门

一、大模型微调技术快速入门

微调基础概念介绍​
1微调基本概念​
2全量微调与高效微调​
3全量指令微调​
4高效微调与LoRA、QLoRA​

2.高效微调的应用场景

微调与强化学习训练、模型蒸馏等概念辨析​
微调（Fine-tuning）：​
强化学习训练（ReinforcementLearning）：​
模型蒸馏（ModelDistillation）：​

主流微调工具介绍​
1unsloth​
2LLama-Factory​
3ms-SWIFT​

5.模型微调所需硬件与服务器环境搭建

二、DeepSeekR1 Distill高效微调环境准备

unsloth安装部署  ​
wandb安装与注册​
1wandb基本说明​
2wandb注册与使用 ​
DeepSeekR1模型下载​
1DeepSeekR1DistillQwen7B模型下载​
2DeepSeekR1DistillLLama8B模型下载 ​
推理模型微调数据集下载​
1DeepSeek  R1模型组回复结构与微调数据集结构要求​
2medical-o1-reasoning-SFT数据集介绍 ​

三、DeepSeek R1模型微调代码实战

一、大模型微调技术快速入门

1. unsloth

1.1 微调基本概念

所谓大模型微调，指的在已有的大规模预训练模型基础上，通过对标注数据进行训练，进一步优化   模型的表现，以适应特定任务或场景的需求。不同于RAG或者Agent技术，通过搭建工作流来优化模型表​

DeepSeek R1高效微调实战入门 ​

DeepSeek R1高效微调实战入门