案例展示

这里有最新的公司动态,这里有最新的网站设计、移动端设计、网页相关内容与你分享!

DeepSeek代码开源第三弹:DeepGEMM代码库,V3/R1的练?

【TechWeb】2月26日新闻,在发布开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek在开源周的第三天发布开放DeepGEMM代码库。DeepSeek先容,DeepGEMM是专为简练高效的FP8通用矩阵乘法(GEMMs)而计划,它同时支撑一般的跟专家混杂(MoE)分组的GEMM运算,为V3/R1练习跟推理供给能源支撑。该库应用CUDA编写,在装置进程中无需编译,经由过程在运转时应用轻量级即时编译模块来编译全部内核。现在,DeepGEMM仅支撑英伟达Hopper架构运算,为处理FP8张量中心累加不准确的成绩,它采取了CUDA中心的两级累加(晋升)方式。该代码库计划十分简练,只有一个中心内核函数,代码量约为300行。只管其计划轻盈,DeepGEMM的机能在种种矩阵外形上与专家调优的库相婚配或超出。DeepSeek团队在H800上应用NVCC 12.8测试了DeepSeek-V3/R1推理中可能应用的全部外形(包含预添补跟解码,但不张量并行)。从测试成果来看,DeepGEMM盘算机能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。与基于CUTLASS 3.6的优化实现比拟,可提速最高可达2.7倍。别的,分组GEMM(MoE模子)中持续性规划、掩码规划下可提速多达1.2倍。别的,应用DeepGEMM须要的情况请求,包含:* 必需支撑Hopper架构的GPU,sm_90a* Python 3.8及以上* CUDA 12.3及以上(推举12.8)* PyTorch 2.1及以上* CUTLASS 3.6及以上

Copyright © 2024 188体育外围_188体育平台 版权所有

网站地图

沪ICP备32623652号-1