我的一點看法,我花了點時間學習Deepseek的training方法

它的優化主要是engineering optimization on training pipeline and methods,所謂算法優化是誤導。

這個優化說難不難,說不難很難,主要是需要一個專注的團隊鑽進去,如果放在美國的大公司,一般來講要一年。決策者怎麽想很重要,硬件不是問題的時候,沒有決策者會幹這種傻事,速度比成本更重要。

這個優化能讓效率提高10倍,就好比各大航空公司購買燃油,現在跑同樣的航班每周跑100個,用了新方法後,隻需要1/10的燃油。

如果要維持燃油公司的原來的利潤,就需要航空公司每周跑1000個航班。

所有跟帖: 

中國特色 -12qw- 給 12qw 發送悄悄話 12qw 的博客首頁 (0 bytes) () 01/02/2025 postreply 09:11:15

中國特色還沒有上路 -neillu- 給 neillu 發送悄悄話 (882 bytes) () 01/02/2025 postreply 09:25:49

沒問題,但是chatgpt離AGI還差十萬八千裏,deepseek更是,沒有跡象表明scaling law失效了 -bupu- 給 bupu 發送悄悄話 (48 bytes) () 01/02/2025 postreply 09:23:00

完全失效 -neillu- 給 neillu 發送悄悄話 (0 bytes) () 01/02/2025 postreply 09:39:09

link please -bupu- 給 bupu 發送悄悄話 (0 bytes) () 01/02/2025 postreply 09:39:55

現在除了斯特曼,整個AI都是這個共識啊,這半年都在議論這個 -neillu- 給 neillu 發送悄悄話 (0 bytes) () 01/02/2025 postreply 09:43:26

我了解的業界情況並非如此。所以,link please -bupu- 給 bupu 發送悄悄話 (0 bytes) () 01/02/2025 postreply 09:48:04

請您先登陸,再發跟帖!