清华团队突破大模型算力难题 英伟达面临挑战
网友
2025-02-16 02:12:33
0

清华大学KVCache.AI团队联合趋境科技发布了KTransformers开源项目的重大更新,成功打破了大模型推理算力的门槛。这次更新支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。

KTransformers项目的核心在于异构计算策略。通过稀疏性利用,MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,并结合高速算子处理,使显存占用压缩至24GB。此外,项目采用了4bit量化技术,配合Marlin GPU算子,效率提升了3.87倍;CPU端通过llamafile实现多线程并行,预处理速度达到286 tokens/s。CUDA Graph加速减少了CPU/GPU通信开销,单次解码只需一次完整的CUDA Graph调用,生成速度可达14 tokens/s。

这一突破带来的影响显著。传统方案中,使用8卡A100服务器的成本超过百万,按需计费每小时数千元。而现在,单卡RTX 4090方案的整机成本约为2万元,功耗仅为80W,非常适合中小团队和个人开发者。NVIDIA RTX 4090运行DeepSeek-R1满血版的案例不仅展示了技术奇迹,也是开源精神与硬件潜能结合的典范。这证明了在AI快速发展的时代,创新往往源于对“不可能”的挑战。

相关内容

清华团队突破大模型算力难题...
清华大学KVCache.AI团队联合趋境科技发布了KTransfo...
2025-02-16 02:12:33

热门资讯

张碧晨《难哄》OST《晚点》上... 华语乐坛魅力无限,张碧晨这位实力派歌手最近为热门剧集《难哄》献唱的主题曲《晚点》迅速引发了热议。很多...
封神第二部预告片太帅了 到底什... 【封神第二部预告片太帅了】12月18日,由导演乌尔善执导的电影《封神第二部:战火西岐》发布首支“大战...
“尔滨”花式宠客2.0版来了 ... 随着这股寒潮的经过,我国北方多地迎来初雪,许多滑雪场陆续开板,又一个火热的冰雪季拉开大幕。
黄子韬徐艺洋官宣结婚 具体来龙... 【黄子韬徐艺洋官宣结婚】2024年12月2日19:19,黄子韬、徐艺洋微博同一时间发文官宣领证结婚。...
东北人暴雪后骑马出门 大家是怎... 大家好,今日关于【东北人暴雪后骑马出门】迅速上了的热搜榜,受到全网的关注度非常高。那么【东北人暴雪后...
Angelababy大秀状态 ... 据悉,11月25日晚, Angelababy杨颖惊喜现身香港时装设计师协会2024 年度大秀,在穿着...
陈晓没去参加陈妍希父亲葬礼 大... 陈晓和陈妍希的关系似乎已经到了尽头。根据陈妍希的说法,她的父亲已经离世,这对她一家来说是个巨大的打击...
女子10件旧羽绒服爆改1床羽绒... 近日,安徽蚌埠。女子用10件旧羽绒服做了一床羽绒被,成品效果惊艳。
吴京为父亲庆八十大寿 大家是怎... 近日,吴京为八旬老父精心筹备了一场盛大的生日庆典。活动现场装饰喜庆,红毯铺地,花团锦簇,气球飘扬,暖...
女子试驾错把油门当刹车 冲进4... 相信很多网友对于近日关于“女子试驾错把油门当刹车 冲进4S店”的这个话题很有兴趣想要了解的吧,因为这...