分享
DeepSeek R1高性能部署实战
输入“/”快速插入内容
DeepSeek
R1高性能部署实战
课程说明:
•
体验课内容节选自
《2025大模型Agent智能体开发实战》
完整版付费课程
体验课时间有限,若想深度学习大模型技术,欢迎大家报名由我主讲的
《2025大模型Agent智能体开发实战》
:
70%
30%
此外,公开课全套学习资料,已上传至网盘(
https://pan.baidu.com/s/1x_IkUBh6B5oNHx62Epwgrw?pwd=g2g3
)
需要更系统深入学习大模型可扫码⬆️添加助教咨询喔~
KTransformer高性能部署DeepSeek R1满血版模型
一、DeepSeek R1部署方案综述
1. DeepSeek R1高性能部署方案介绍
伴随着DeepSeek R1模型使用需求不断深化,如何才能部署更高性能的满血版DeepSeek R1模型,就成了很多应用场景下的当务之急。受限于DeepSeek R1 671B(6710亿参数)的模型规模,通常情况下部署DeepSeek R1满血版模型需要1200G左右显存(考虑百人内并发情况),需要双节点8卡A100服务器才能运行(总成本约在260万-320万左右),而哪怕是INT 4半精度下,也需要至少490G显存,需要单节点8卡A100服务器才能运行。
DeepSeek R1和DeepSeek V3都是默认BF8精度,是一种低精度的浮点数格式。BF8的全称是"Brain Floating Point",由Google提出,主要用于大规模计算任务。与常见的16位浮点数(FP16)不同,BF8采用了8位尾数和8位指数的结构,能够在保证精度的同时减少计算和内存开销。BF8的设计目标是减少计算量并保持数值稳定性,特别是在机器学习模型训练中,能在加速硬件上提供比FP32更好的性能。
在此情况下,如何以更少的成本获得尽可能好的模型性能——也就是如果进行DeepSeek R1的高性能部署,就成了重中之重。基本来说,目前的解决方案有以下三种:
1.
采用“强推理、若训练”的硬件配置
:如选择国产芯片、或者采购DeepSeek一体机、甚至是选择MacMini集群等,都是不错的选择。这些硬件模型训练性能较弱,但推理能力强悍,对于一些不需要进行模型训练和微调、只需要推理(也就是对话)的场景来说,是个非常不错的选择。例如45万左右成本,就能购买能运行DeepSeek R1满血版模型的Mac Mini集群,相比购买英伟达显卡,能够节省很大一部分成本。但劣势在于Mac M系列芯片并不适合进行模型训练和微调。