華為費了老大勁做的事,DS輕輕鬆鬆接近解決
所有跟帖:
•
英偉達的護城河是cuda生態,如果META可以用,別人也可以,那麽英偉達20年的努力白費了
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:28:21
•
看META工程師的post
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:34:21
•
綠色的那一段
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:41:03
•
他不說了是prompt了嗎?SIMD在Intel 剛出MMX的時候是很簡單的優化。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:45:27
•
舉個例子,Linux 計算 blas庫裏麵嵌套匯編的例子太多了,不代表blas可以輕鬆移植到其他cpu.
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:37:28
•
這些最終的匯編不是自己寫的,是AI根據標注生成的
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
16:39:04
•
Blas 庫裏麵SIMD 是最基本的匯編嵌入指令了,隻不過這年頭都不學匯編了,搞得很先進似的。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
16:42:04
•
他自己說的
-cn_abcd-
♂
(937 bytes)
()
01/29/2025 postreply
17:20:48
•
這個和gpu 指令優化沒關係。
-BeyondWind-
♂
(0 bytes)
()
01/29/2025 postreply
17:27:18
•
the bigger deepseek helping optimize code to run the smaller
-cn_abcd-
♂
(0 bytes)
()
01/29/2025 postreply
17:34:54