我的一點看法，我花了點時間學習Deepseek的training方法

來源: 當年情於 2025-01-02 09:04:15 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (688 bytes)

回答: 大家都在說deepseek，但是沒說到點子上，尤其在NVDA上由 bupu 於 2025-01-02 08:41:12

它的優化主要是engineering optimization on training pipeline and methods，所謂算法優化是誤導。

這個優化說難不難，說不難很難，主要是需要一個專注的團隊鑽進去，如果放在美國的大公司，一般來講要一年。決策者怎麽想很重要，硬件不是問題的時候，沒有決策者會幹這種傻事，速度比成本更重要。

這個優化能讓效率提高10倍，就好比各大航空公司購買燃油，現在跑同樣的航班每周跑100個，用了新方法後，隻需要1/10的燃油。

如果要維持燃油公司的原來的利潤，就需要航空公司每周跑1000個航班。

您的位置：文學城 » 論壇 » 大千股壇 » 我的一點看法，我花了點時間學習Deepseek的training方法

• 中國特色 -12qw- ♀ (0 bytes) () 01/02/2025 postreply 09:11:15

• 中國特色還沒有上路 -neillu- ♂ (882 bytes) () 01/02/2025 postreply 09:25:49

• 完全失效 -neillu- ♂ (0 bytes) () 01/02/2025 postreply 09:39:09

• link please -bupu- ♂ (0 bytes) () 01/02/2025 postreply 09:39:55