那是老的ML的做法。Transformer是pre-train(模型自學生成以後用訓練微調)。學習的時候需要大規模並行。
所有跟帖:
• Pre-trained Model是一直需要的,可以Freezing a layer, 不可能完全一邊學習一邊輸出的, -testmobile- ♀ (0 bytes) () 02/21/2024 postreply 08:32:06
• 實事擺在那裏。GROQ的AI隻是輸出快,智能不夠的AI有用嗎?就像挑戰iPhone的手機一大堆,但芯片低能,沒用。 -uptrend- ♂ (0 bytes) () 02/21/2024 postreply 08:36:29
• 前端和後端是兩種架構,後端的複雜邏輯很難放到GPU裏,GPU是處理簡單的並發,microservices是後端的大方向, -testmobile- ♀ (328 bytes) () 02/21/2024 postreply 08:45:15
• NVDA 的新架構, 在一個巨大的Superchip上同時提供AI 和Kubernetes 服務。 -uptrend- ♂ (0 bytes) () 02/21/2024 postreply 11:08:54