這個還是在cuda之上,pytorch之下的中間實現,主要用8位浮點數計算以前16/32位的矩陣乘法。
另外優化了內存之間數據移動。 這個還是機遇nvidia體係的優化, 讓大家知道低精度運算一樣可靠。
新的nvidia顯卡加入了FP4的支持, 明顯會因deepseek開源獲益。
我其實覺得deekseek這個開源操作是對nvidia利好,以前一直是ASIC可以代替NVIDIA, 因為ASIC可以更加高效得實現矩陣乘法。
但是deepseek一開源,馬上可以讓nvidia效率提升,如果我負責數據中心硬件采購, 我投入ASIC之前會想想, 是我用舊的nvidia卡挖掘效率簡單還是用ASIC用固定精度實現矩陣乘法容易?如果那天又有人實現了一個完全不同的優化並且開源一個新的模型, 是不是我的ASIC就不能跑新模型?我的投資泡湯? 市場在衡量ASIC vs NVIDIA, 看看最近AVGO/MRVL vs NVDA走勢吧, 看哪個analysist 知道GPU跟ASIC實現細節吧