那是老的ML的做法。Transformer是pre-train(模型自學生成以後用訓練微調)。學習的時候需要大規模並行。

本文內容已被 [ uptrend ] 在 2024-02-21 08:32:06 編輯過。如有問題,請報告版主或論壇管理刪除.
請您先登陸,再發跟帖!