分享
DeepSeek R1高效微调实战入门
输入“/”快速插入内容
DeepSeek R1高效微调实战入门
本节公开课,我们来探讨DeepSeek R1的一个热门技术应用方向——模型微调。本节公开课我们将 重点介绍如何使用主流微调框架unsloth,围绕DeepSeek R1 Distill 7B和8B模型进行高效微调,并详细 介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个医学数据集上完成高效微 调实战,并最终达到问答风格优化+知识灌注目的,让模型在微调过程中掌握复杂医学问题的专业推理过 程,并提高疾病诊断的准确率。
•
硬件要求
:本节公开课最小化复现仅需7G显存、半小时运行时间即可完成,并获得微调效果。
•
训练流程迁移:本节公开课介绍的DeepSeek R1模型的高效微调流程可以迁移至DeepSeek R1任意 蒸馏模型、任意COT数据集,甚至是进行DeepSeek R1模型高效微调。
•
课件代码领取
:公开课随课提供全部课件、代码、训练数据、模型微调前后权重等各项内容。
•
课程参考资料
:为了更好的辅助学习,随公开课附赠相关参考资料。
•
体验课内容节选自
《2025大模型Agent智能体开发实战》
完整版付费课程
体验课时间有限,若想深度学习大模型技术,欢迎大家报名由我主讲的
《2025大模型Agent智能体开发实战》
:
69%
31%
此外,公开课全套学习资料,已上传至网盘(
https://pan.baidu.com/s/1LSCc4_3V9bEofy_luy_1WA?pwd=gain
)
需要更系统深入学习大模型可扫码⬆️添加助教咨询喔~
•
公开课大纲
DeepSeekR1高效微调实战入门
一、大模型微调技术快速入门
1.微调基础概念介绍
1.1
微调基本概念
1.2
全量微调与高效微调
1.3
全量指令微调
1.4
高效微调与LoRA、QLoRA
2.高效微调的应用场景
3.微调与强化学习训练、模型蒸馏等概念辨析
1.微调(Fine-tuning)
:
2.强化学习训练(ReinforcementLearning)
:
3.模型蒸馏(ModelDistillation)
:
4.主流微调工具介绍
4.1unsloth
4.2LLama-Factory
4.3ms-SWIFT
5.模型微调所需硬件与服务器环境搭建
二、DeepSeekR1 Distill高效微调环境准备
1.unsloth安装部署
2.wandb安装与注册
2.1wandb基本说明
2.2wandb注册与使用
3.DeepSeekR1模型下载
3.1DeepSeekR1DistillQwen7B模型下载
3.2DeepSeekR1DistillLLama8B模型下载
4.推理模型微调数据集下载
4.1DeepSeek R1模型组回复结构与微调数据集结构要求
4.2medical-o1-reasoning-SFT数据集介绍
三、DeepSeek R1模型微调代码实战
一、大模型微调技术快速入门
1.
unsloth
1.1
微调基本概念
所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表