評論:斯坦福華裔科學家 50美元訓練出媲美Deepseek模型

lue96500 發表評論於 2025-02-06 16:26:20

DeepSeek隻是開了個頭，指了個方向，後續值得期待。

ajaychen_2024 發表評論於 2025-02-06 14:00:53

如果換成了斯坦福的白人科學家，下麵的大概會盛讚人家是天才，諾貝爾獎都可以拿

supernova13 發表評論於 2025-02-06 13:30:00

@ljcn, 蒸餾法一種模型壓縮技術,當然不是DS提出的，別人也用（但有人卻以此為理由汙蔑DS抄襲！）。
DS取得突破的關鍵在於算法，其核心思想是通過一個輔助模型來加速大模型的推理，這樣，大模型不需要逐步生成每個token（字或字的一部分），而是可以批量驗證多個token，從而大幅提升推理速度。
================================
ljcn 發表評論於 2025-02-06 12:03:44
蒸餾法又不是DS團隊首先提出的？他們首先搞了500萬美元的噱頭而已。人家隻是照著這個思路去打你的臉。

AreyouOK? 發表評論於 2025-02-06 12:27:27

初始的感覺是梁shorted NVDIA by his news on Monday for the big gain. Money is the king.

GoldenEar 發表評論於 2025-02-06 12:26:24

電詐騙害人不淺！估計你是來自於台灣吧！嗬嗬嗬

-------------------------------------------------

TitaniumAtlas 發表評論於 2025-02-06 11:45:38造樓下的說法發明電詐的台灣人也得得大獎啊

GoldenEar 發表評論於 2025-02-06 12:25:25

人家DS提供了免費開源的人工智能，和電信詐騙天壤之別！別胡亂比較吧！

------------------------
TitaniumAtlas 發表評論於 2025-02-06 11:45:38造樓下的說法發明電詐的台灣人也得得大獎啊

ljcn 發表評論於 2025-02-06 12:03:44

蒸餾法又不是DS團隊首先提出的？他們首先搞了500萬美元的噱頭而已。人家隻是照著這個思路去打你的臉。

supernova13 發表評論於 2025-02-06 10:22:23
前幾天伯克利一個團隊用30美元重複了DeepSeek的算法，如果斯坦福也是使用DS的算法，那DeepSeek應該得大獎。

不好吃懶做 發表評論於 2025-02-06 11:47:37

李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名叫s1的人工智能推理模型 - 哇！！！這50元怎麽花的？

紛紛發表評論於 2025-02-06 11:00:27

複製、抄襲、蒸餾……，省錢、省時、省力。厲害了！

o88 發表評論於 2025-02-06 10:37:39

風口上誰都不甘寂寞。

supernova13 發表評論於 2025-02-06 10:22:23

前幾天伯克利一個團隊用30美元重複了DeepSeek的算法，如果斯坦福也是使用DS的算法，那DeepSeek應該得大獎。

supernova13 發表評論於 2025-02-06 10:18:38

"據澎湃新聞報道，李飛飛曾在采訪中提到，現在的AI比人類差遠了，能耗高、體積龐大，而且尚未具備情感"
這句話不太對，AI的概念大於機器人概念，所以個頭大小，是否具備情感並非目前的主要考慮，也非AI的無限潛力和附帶的危險所在。

寶刀屠龍 發表評論於 2025-02-06 09:48:57

XM25 發表評論於 2025-02-06 09:15:00
這說明最偉大的是第一個。諾貝爾獎就是獎給原創。後麵改進沒什麽好吹的。
==========
LLM隻能是OpenAI，其他都是徒子徒孫

wd01702 發表評論於 2025-02-06 09:48:08

50美元相當於一個普通碼農的時薪。是不是吹過頭了，還是對deepseek 的諷刺？你要說50美元是運算的電費還說得過去。

shamrock100 發表評論於 2025-02-06 09:40:26

參考了DS的開源算法？

XM25 發表評論於 2025-02-06 09:15:00

這說明最偉大的是第一個。諾貝爾獎就是獎給原創。後麵改進沒什麽好吹的。

bluetag 發表評論於 2025-02-06 09:13:00

這個也好，DS也好，都是跟在人家屁股後麵，頂多就是有點商業價值，但沒有技術價值，吹噓成本更是笑話，創新和模仿的成本有可比性嗎？

man008 發表評論於 2025-02-06 09:11:04

過幾天，就會有無毛跳出來說，我發條帖子就能訓練出媲美Deepseek模型了。

worley 發表評論於 2025-02-06 09:07:47

其實就是抄襲複製克隆人家ChatGPT。

創新的成本總是很高，剽竊的成本幾乎為零。
整理、驗證、購買高質量數據的成本需要幾十億美元，盜用的成本幾乎為零。

小二哥李白 發表評論於 2025-02-06 09:07:38

這些團隊所做的事情是獨立驗證DeepSeek論文裏提出的一些有關低成本高效益的Claim並且公開發表，前幾天柏克萊也有一個團隊發表了成本$30的，這是學術界Peer Review的工作，沒必要添油加醋上綱上線。

指鹿為馬 發表評論於 2025-02-06 09:01:25

我可以不用花錢，做一個deepseek的鏈接，叫deepsick，馬上取代deepseek。

文學城普通人 發表評論於 2025-02-06 08:48:43

蒸餾的成本和原始建模的成本根本就是兩碼事。想省錢就跟著別人後麵幹蒸餾好了，永遠不會領先。

同意DEI的壞處。但是樓下強調男女差別是找不到教職的原因忽略了這些男生估計是沒有什麽公認過硬的成果，即使多發表幾篇文章也實在不算什麽大的差別，麵試時候又不能最佳表現自己。國男找到教職的也多了去了，也沒有每個都是俊男。

RomanticOnly 發表評論於 2025-02-06 08:44:43

這有點離譜了吧，bestbuy裏麵隨便買個東西也不隻50吧，難不成能用計算器訓練嗎？

groogle 發表評論於 2025-02-06 08:40:41

她吃了頓飯就訓練出來了 50塊如果碰巧是喝咖啡更便宜

size0 發表評論於 2025-02-06 08:35:14

早說了，人工這塊不是中國的就是美國華裔的。希望川建國不把李飛飛定成間諜。

ca_lowhand 發表評論於 2025-02-06 08:30:00

開卷了，支持

令胡衝 發表評論於 2025-02-06 07:41:36

另外李飛飛是華人教授，也應該說話慎重。別瞎扯淡太猛。

川總信了奧特曼，說五千億我智能核爆，曼哈頓。話音未落，DeepSeek一幫小年輕說5百萬就能讓大模型智能湧現，豁然開朗。塵囂未定又來個李飛飛，說50元就行。OK，川總是文科，但你這麽甩他，他那麽大年紀，也有麵子吧？這麽忽悠不好吧

矽穀工匠 發表評論於 2025-02-06 07:32:46

李飛飛怎麽也墮落到什麽熱折騰什麽的地步。

令胡衝 發表評論於 2025-02-06 07:28:22

人間一切創新的意義全在於後麵跟風的。

因為第一次發現往往是偶然現象，運氣使然。但後麵的人就必須能重複它，搞明白為什麽如此，把它從運氣升級到理論必然和工程必然。青黴素等抗生素就是這樣的。
—————-
新桃換舊符168 發表評論於 2025-02-06 07:05:08 其實第一個chatgpt是最難的。後麵的跟風也沒什麽意義啦。女人做科研最大的問題就是缺少創新。女人大都做事細致認真。可以不斷update一個創新的idea，但是在科研領域，創新是很重要的一環。

Q22 發表評論於 2025-02-06 07:26:50

女的好混。我朋友圈裏，好幾個男生也是美國名校博士 -伯克利，哈佛，John Hopkins, 等等。申請美國大學教職好多拿不到的，（語言，口音，形象等，被白男刷掉）。同樣級別的名校博士，女的比男的好出頭，好混。

體製內 發表評論於 2025-02-06 07:25:34

她半個小時的工資都不止50美元

令胡衝 發表評論於 2025-02-06 07:20:21

50元不可能，租一個最低檔GPU虛擬機一天也要及時美元。買一個遊戲GPU也得幾百美元。不大可能。

蒸餾開源小模型是可能的。因為你可以對它Next token 預測的Softmax分布進行一些比較全麵的采樣。

但那個被蒸餾的模型都沒有表現出足夠推理功能。你蒸餾個小模型卻有，而你又沒花錢去訓練它。這怎麽可能。

李飛飛在噌熱度。雖然也是華人。

有門部關 發表評論於 2025-02-06 07:19:41

畝產萬斤不是夢。

又一個無名氏 發表評論於 2025-02-06 06:58:12

李飛飛像是淘金熱裏賣鏟子的，台灣政界裏的王金平。

老李子 發表評論於 2025-02-06 06:52:24

50元？怎麽算出來的？

touchlife 發表評論於 2025-02-06 06:51:48

中國人愛省錢的stereotype看來是沒跑了，lol

5mslj 發表評論於 2025-02-06 06:43:07

一個行業爆發的初期，大家蜂擁而至搶風口，妖魔鬼怪和各路神仙打架，讓子彈再飛一會兒吧

評論: 斯坦福華裔科學家 50美元訓練出媲美Deepseek模型