分享
Ktransformers+Unsloth联合部署方案实践
输入“/”快速插入内容
Ktransformers+Unsloth联合部署方案实践
课程说明:
•
体验课内容节选自
《2025大模型Agent智能体开发实战》
完整版付费课程
体验课时间有限,若想深度学习大模型技术,欢迎大家报名由我主讲的
《2025大模型Agent智能体开发实战》
:
70%
30%
公开课全套学习资料,已上传至网盘(
https://pan.baidu.com/s/1t989LHh0By-MQP9eCUSFTw?pwd=gbd9
)
需要更系统深入学习大模型可扫码⬆️添加助教咨询喔~
一、DeepSeek R1低成本本地部署方案介绍
1. KTransformer与Unsloth动态量化方案介绍
截至目前,DeepSeek R1模型本地部署最具性价比的方案就是清华大学团队提出的KTransformer方案和Unsloth动态量化方案,两套方案都是借助CPU+GPU混合推理,来降低GPU购买的硬件成本,并且底层CPU推理实现也都是基于llama.cpp。
•
ktransformers:
https://github.com/kvcache-ai/ktransformers
•
Unsloth:
https://github.com/unslothai/unsloth
•
llama.cpp:
https://github.com/ggml-org/llama.cpp
所不同的是,KTransformer采用了一种全新的计算流程,使得MLA/KV-Cache可以在GPU上运行,而其他模型参数则在CPU上完成计算,从而大幅加快CPU的计算速度。
这种计算流程能够大幅加快DeepSeek MoE架构算法的计算速度,根据官方给出的数据,最高能得到14tokens/s,是llama.cpp推理速度的两倍。