「视频分享」超低显卡需求，轻松部署DeepSeek-R1 Q4量化-工具盒子

视频简介

通过全新的混合架构，我们成功实现了低显卡需求下的高效推理。具体来说，模型被巧妙地分成了占用显存的部分和不占显存的部分，并将它们分别部署在GPU和CPU上，从而实现了每秒6.6个token的高效推理速度。更重要的是，这种架构首次让个人开发者能够拥有与Open AI 最新款相媲美的超强大模型，并且确保了数据的安全性。

在配置上，采用了技强四代512GB内存和一块4090 显卡，整体成本远低于I100。而且，随着开源社区的不断发展，当前支持0.2版本，未来还可能推出更多加速项目。特别感谢开源工作者们的贡献和分享，正是他们的努力让我们看到了"open"的真正价值------开放的人工智能，才是最好的人工智能。 <img alt="「视频分享」超低显卡需求，轻松部署DeepSeek-R1 Q4量化-Eswlnk Blog" decoding="async" src="http://static.51tbox.com/static/2025-02-20/col/93725c363551b7a8247e83272b580054/f7853dbcb77246ff8f68a0d106fa4333.png-esw.jpg" class="wp-image-11940"/ srcset="http://static.51tbox.com/static/2025-02-20/col/93725c363551b7a8247e83272b580054/f7853dbcb77246ff8f68a0d106fa4333.png-esw.jpg" title="「视频分享」超低显卡需求，轻松部署DeepSeek-R1 Q4量化插图1" alt="「视频分享」超低显卡需求，轻松部署DeepSeek-R1 Q4量化插图1" />

本视频简单介绍了如何在一台配置普通的服务器上运行全参数的DeepSeek-R1 671B并且以完全可用的速度运行使用Ktransformers架构，成功低成本运行DeepSeek-R1 671B Q4量化！ Ktransformers可以将FFN层交由CPU处理，大大节省了显存！！！硬件 Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡运行速度：约6-8 token/s

51工具盒子

「视频分享」超低显卡需求，轻松部署DeepSeek-R1 Q4量化

视频简介

视频内容

厉飞雨

相关推荐

最新文章

猜你喜欢

快捷分类

视频 简介

视频 内容

厉飞雨

相关推荐

最新文章

猜你喜欢

快捷分类

视频简介

视频内容