国产一二三四区中,精品无码人妻一区二区三区免费,亚洲欧美日本国产专区一区,欧美成人A激情

新聞資訊

DeepSeek第二炸:開源首個用于 MoE 模型訓(xùn)練通信庫

時間:2025-02-26 13:33:17   作者:際迅聯(lián)   來源:   閱讀:162   評論:0
內(nèi)容摘要:快科技2月25日消息,今天是DeepSeek開源周第二日,一早,DeepSeek如約就放出了開源代碼庫DeepEP王炸。據(jù)了解,DeepEP是首個用于 MoE 模型訓(xùn)練和推理的開源 EP 通信庫,它填補了MoE模型專用通信工具的空白,為大規(guī)模分布式AI訓(xùn)練和實時推理場景提供了更高......

快科技2月25日消息,今天是DeepSeek開源周第二日,一早,DeepSeek如約就放出了開源代碼庫DeepEP王炸。

據(jù)了解,DeepEP是首個用于 MoE 模型訓(xùn)練和推理的開源 EP 通信庫,它填補了MoE模型專用通信工具的空白,為大規(guī)模分布式AI訓(xùn)練和實時推理場景提供了更高效的底層支持。

在這里,簡單介紹一下DeepEP的技術(shù)性能特點:

1、高效通信架構(gòu)

支持優(yōu)化的全對全通信模式,實現(xiàn)節(jié)點內(nèi)和節(jié)點間的NVLink與RDMA互聯(lián),提升數(shù)據(jù)傳輸效率

2、多精度與調(diào)度優(yōu)化

原生支持FP8低精度運算調(diào)度,降低計算資源消耗。

3、重性能內(nèi)核

據(jù)介紹,高吞吐量內(nèi)核可適用于訓(xùn)練和推理預(yù)填充場景,最大化數(shù)據(jù)處理能力;

4、低延遲內(nèi)核

它針對推理解碼場景設(shè)計,采用純RDMA通信和自適應(yīng)路由技術(shù),減少延遲。

5、資源控制與重疊機制

通過靈活的GPU資源控制策略,實現(xiàn)計算與通信過程的高效重疊,避免資源閑置。

6、深度優(yōu)化場景

針對NVLink到RDMA的非對稱帶寬轉(zhuǎn)發(fā)場景進行專項優(yōu)化,提升異構(gòu)網(wǎng)絡(luò)下的傳輸性能;

此外,它還支持SM(Streaming Multiprocessors)數(shù)量動態(tài)控制,平衡不同任務(wù)(如訓(xùn)練與推理)的吞吐量需求。

DeepSeek第二炸:開源首個用于 MoE 模型訓(xùn)練通信庫

DeepSeek第二炸:開源首個用于 MoE 模型訓(xùn)練通信庫