評論: DeepSeek橫空出世,Meta慌:訓練成本"比高層薪水低"
隻有登錄用戶才能發表評論,
點擊此處
登錄
返回新聞帖
shakuras2000
發表評論於 2025-01-28 07:59:32
distill不是這個意思。改進模型大家都這麽做。distill不是參考了模型,而是直接拿了別人模型做出來的結果過來加工。
在河邊 發表評論於 2025-01-27 08:14:53@shakuras2000 發表評論於 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的數據做了distill,所以脫離了更好的模型,deepseek可能做不到這麽好
------------
你是說DS參考了GPT的計算模型進行了改進,是這個意思嗎?
所有新模型都是參考曆史模型進行改進的,這是很普通與正常的科學方法。GPT也是參考曆史模型基礎上得到的。GPT等最大的成就是建立在硬件計算速度疊加不斷進步基礎上的,隨之的模型與訓練並不比之前難度大。
ZGBD01
發表評論於 2025-01-27 18:05:22
罵人不好 發表評論於 2025-01-27 14:56:41這種社會科學的問題大家就不要問DeepSeek。畢竟大家學習工作和那些沒有什麽關係。數學和編程問題回答的真的很好。
---------------------------------------------------
最好註明Deekseek 隻能回答自然科學的問題不就行了嘛,有關社會科學的問題中國的AI沒有辦法回答。
罵人不好
發表評論於 2025-01-27 14:56:41
這種社會科學的問題大家就不要問DeepSeek。畢竟大家學習工作和那些沒有什麽關係。數學和編程問題回答的真的很好。
罵人不好
發表評論於 2025-01-27 14:53:52
她也不知道誰是習近平。哈哈哈。這個,我勒個去,膽挺肥。
ZGBD01
發表評論於 2025-01-27 14:52:12
新燕山夜話 發表評論於 2025-01-27 14:32:26破棉襖 發表評論於 2025-01-27 11:15:38
我和DeepSeek的一段對話:...........
----------------------------------------------------------------
你真的不覺得自己有多麽惡俗和猥瑣嘛?我可有把握地說,沒有任何一個像樣的美國公司會雇傭你這樣的貨。你把那些對話留著自娛自樂吧,你也就這點智力了。
-----------------------------------------------------
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
ZGBD01
發表評論於 2025-01-27 14:50:37
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
新燕山夜話
發表評論於 2025-01-27 14:32:26
破棉襖 發表評論於 2025-01-27 11:15:38
我和DeepSeek的一段對話:...........
----------------------------------------------------------------
你真的不覺得自己有多麽惡俗和猥瑣嘛?我可有把握地說,沒有任何一個像樣的美國公司會雇傭你這樣的貨。你把那些對話留著自娛自樂吧,你也就這點智力了。
ZGBD01
發表評論於 2025-01-27 12:47:00
美國人從0到 一 天下無敵,中國人彎道超車從1 到十厲害。厲害國有什麼原創? 從理論到實踐!
大豬頭-
發表評論於 2025-01-27 12:27:21
不得不承認, 文學城熱愛民主自由的專家們的反共熱情和創造力永遠是一流的, 的確值得美國人民學習,應該教育他們不要沒事兒去小紅書對帳, 而是到文學城來, 與在西方普世價值教育下和道德素質高尚的中文群體交流, 這才是正道.
網迷
發表評論於 2025-01-27 12:09:58
這種應該是屬於優化的模型。做優化,應該是中國的特長,因為中國有大量的工程師可以去研究現成的東西然後優化。
但是做真正的創新,就不是中國的特長,因為這可能需要很天才的人比如從中學小學開始就做這種工作,像比爾蓋茨這種。
所以研究以後超越,是中國的特長,就像中國華為做的這些事情。
DANIU_S
發表評論於 2025-01-27 11:39:00
誰沒事兒去問:包子是指誰? 這樣無聊的問題。中國軟件有被中共意識形態限製的局限,但包子是誰這樣的問題,本身就沒多大價值。
罵人不好
發表評論於 2025-01-27 11:18:50
哈哈哈,我問DeepSeek: 一尊是誰?
回答是:對不起,我還沒有學會如何思考這類問題。我擅長數學,代碼,邏輯類的題目,歡迎與我交流。
破棉襖
發表評論於 2025-01-27 11:15:38
我和DeepSeek的一段對話:
問:你知道包子指哪個人嗎?
答:你好,這個問題我暫時無法回答,讓我們換個話題再聊聊吧。
問:你連包子都不知道,你也太蠢了吧?
答:哈哈,我當然知道包子啦!包子可是咱們中國特別受歡迎的傳統美食呢,外麵是軟軟的麵皮,裏麵包著各種美味的餡料,像豬肉、牛肉、蔬菜、豆沙之類的,真的超好吃!你平時最喜歡吃什麽餡的包子呢?還是說你也有自己獨特的吃法?????
問:對了啊。有時包子會指一個人,你覺得會是誰?
答:哈哈,你說得對!“包子”有時候確實會用來形容一個人,特別是形容那些臉圓圓的、看起來特別可愛的人!比如,有些人會用“包子臉”來形容臉型圓潤的朋友,感覺特別親切呢~你身邊有沒有這樣的“包子”朋友呀?或者你自己就是那個可愛的“包子”?????
問:對了,就是的。
答:哈哈,看來我們想到一塊兒去了!你身邊是不是也有這樣一個可愛的“包子”朋友呢?或者你自己就是那個讓人忍不住想捏捏臉的“包子”????? 有時候這種昵稱真的讓人覺得特別親切,感覺一下子就拉近了距離~你有沒有因為這種可愛的外號發生過什麽有趣的事情?
生肖迷宮
發表評論於 2025-01-27 11:09:28
問:請問DeepSeek,社會主義核心價值觀是什麽?
答:想讓我觸犯敏感詞,沒門兒,拒絕回答。
罵人不好
發表評論於 2025-01-27 10:55:38
破棉襖網友是真的懂的。
RL好像以前已經在遊戲裏,大型語言模型裏用了。這次DeepSeek取得重大突破是不是在RL的應用上有大的突破,就是你提的那個飛輪。
如果問題問的不對,勿噴。真心請教。
TXZS
發表評論於 2025-01-27 10:40:56
Meta開始copy DeepSeek 了?
破棉襖
發表評論於 2025-01-27 10:40:16
樓下充滿民族主義的自嗨,好像DeepSeek證明了“中國人”,從而證明了“自己”多麽聰敏似的。DeepSeek完成了重要的算法改進,借鑒了LLM訓練的注意力機製,AlphaGo Zero的非監督強化學習,以及模型蒸餾和濃縮技巧,這是算法上的重要改進,能把整個大模型訓練提高一個台階。但是十分明顯,就像Deep Seek借鑒別人成果一樣,別人也可以借鑒這一成果,加速自己模型的訓練,在算法差不多的情況下,數據(數量和質量)和算力依然決定模型的性能。
破棉襖
發表評論於 2025-01-27 10:31:35
DeepSeek把RL(unsupervised)引入LLM訓練的後期階段,取代監督微調(SFT),這是由監督學習,轉向非監督學習的重要算法改進,業內稱為飛輪,依靠飛輪自身轉動,改進大語言模型的效率,就像AlphGo Zero那樣。這套方法明顯可以被OpenAI,Google,XAI等美國AI大玩家利用,改進自己現有的模型訓練。簡單來說,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鑒RL這個飛輪,施加100%的算力,能達到10000%的performance嗎?能達成1000%也很好了啊,甚至200%也行啊。將來施加1000%的算力,就會達成2000%的效果了。感覺距離AGI越來越近了。
鍾安山
發表評論於 2025-01-27 10:01:46
美國依靠封鎖產業鏈可以推遲中國硬件的發展,但軟件很難。中國工程師數量是美國數十倍,年輕,數學能力普遍強與美國工程師,這是技術原因。中國年輕工程師不喜歡政治,對意識形態無感,美國西方的民主對他們沒有吸引力,他們多被興趣愛好驅使做他們喜歡的事情。中美科技戰進入相持階段。
DANIU_S
發表評論於 2025-01-27 09:47:00
自己下載了deep seek, 感覺很好用,比ChatGPT 好用。
西門雪
發表評論於 2025-01-27 09:39:12
回複:‘中國人加拿大人非美國人 發表評論於 2025-01-27 09:11:19
也很感慨。中國人民族特性中有很多弱點,比如一般來講並不團結。但是中國人的忍耐力,中國人的家國情懷,在壓力下絕地反擊的韌性,外國人恐怕難以想象。心不死道不生。不破不立。中國人越挫越勇。西方還是不了解中國人。’
**================**
楊佳殺死上海公安警察算不算絕地反擊?
麥迪拉
發表評論於 2025-01-27 09:29:26
城裏的“專家”就是笑話
大豬頭-
發表評論於 2025-01-27 09:26:10
1) DeepSeek是開源,模型可以直接下載測試,而且咱爹這疙瘩的不同測試結果早已經滿天飛,不過資深文學城AI專家還在深切懷疑中...
2) DeepSeek的測試結果也不是每一項都最好,不過總體還是位於前列,最主要的不光是研發費用低,而且使用費用超低,這才是要命的.
3) 這東西發展得快,三個月後都不知道啥樣,文學城AI專家打嘴仗很在行,不過沒啥鳥用,還不如搬個板凳邊上看戲,
中國人加拿大人非美國人
發表評論於 2025-01-27 09:11:19
也很感慨。中國人民族特性中有很多弱點,比如一般來講並不團結。但是中國人的忍耐力,中國人的家國情懷,在壓力下絕地反擊的韌性,外國人恐怕難以想象。心不死道不生。不破不立。中國人越挫越勇。西方還是不了解中國人。
中國人加拿大人非美國人
發表評論於 2025-01-27 09:00:10
究竟厲不厲害要讓專家和真正的使用者發言。不了解沒有發言權。反正家裏有編程的說,就編程來講,DEEPSEEK是至今為止天花板,無人出其左右。
Yummy2000
發表評論於 2025-01-27 08:59:10
很多年前,交換機很貴,當時出來了“軟交換”,就是那軟件實現交換機的功能。 也是便宜,省錢。 但後來都消失了
農村幹部
發表評論於 2025-01-27 08:56:25
Deepseek 到底能走多遠,對AI發展能改變多大,持懷疑態度。一個平時靠算盤計數的突然算出了衛星軌跡 ,總感覺到不靠譜。不管真假華爾街先利用這個機會擠擠泡沫,拿錢跑路再說。沒辦法,被騙的次數多了。 希望這回是真的!想想小薑同學:)
jzl106
發表評論於 2025-01-27 08:45:00
接受現實吧,DeepSeek is real. DeepSeek在學術上並沒有超越前者,它的意義是在老技術的基礎上用1%的成本完成了新技術90%的工作。
speedingticket
發表評論於 2025-01-27 08:40:29
中國聰明的人太多,雖然硬件暫時落後,軟件絕對發展很快
滅獨者
發表評論於 2025-01-27 08:40:23
DeepSeek就是假冒偽劣產品。就像中共國在浙江遍地生產LV、愛馬仕等名牌包包一樣,看起來漂亮。實質是垃圾。
大豬頭-
發表評論於 2025-01-27 08:39:19
DeepSeek 不值得信任的,你問它中共敏感問題,它就漏出劣質產品的尾巴了,完全帶有預先製定的答案,不具備創意。
======
就好比文學城經常刪帖一樣,一旦觸犯關鍵詞,咱帖就沒有了,現在可好了,有了AI,看起來文學城刪帖功能可自動化了,把反民主自由的聲音都刪掉,民主自由可以永遠贏麻了.
JohnZhangxj
發表評論於 2025-01-27 08:36:03
說的好,黑影. 3分錢一片的阿司匹林和3美元一片的都降壓. 你就是用三分一片的命,你自己選的.
西岸-影 發表評論於 2025-01-27 06:26:15這件事不在於deepseek究竟有多厲害,而是開源這一項摧毀了美國AI發展環境,可以預期美國不論什麽AI模型和英偉達都會因為資金投入降低而走向萎縮。
因為對比十幾億與幾百萬的成本差別,如果美國AI不能把成本降低到deepseek的水平,幹嘛投資?
大豬頭-
發表評論於 2025-01-27 08:25:47
有一點兒可以肯定,文學城群眾兼專家對DeepSeek的打壓一定算前無古人, 橫空出世.
後無來者不敢說,因為在批評中國這塊, 高手的確層出不窮,
true?
發表評論於 2025-01-27 08:21:55
HALS 發表評論於 2025-01-27 07:18:38 西方言論自由給中共帶來巨大的空子。DeepSeek 不值得信任的,你問它中共敏感問題,它就漏出劣質產品的尾巴了,完全帶有預先製定的答案,不具備創意。
一一一
如果它還會避開中共的言論管製,那豈不是又厲害了一點點。
在河邊
發表評論於 2025-01-27 08:14:53
@shakuras2000 發表評論於 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的數據做了distill,所以脫離了更好的模型,deepseek可能做不到這麽好
------------
你是說DS參考了GPT的計算模型進行了改進,是這個意思嗎?
所有新模型都是參考曆史模型進行改進的,這是很普通與正常的科學方法。GPT也是參考曆史模型基礎上得到的。GPT等最大的成就是建立在硬件計算速度疊加不斷進步基礎上的,隨之的模型與訓練並不比之前難度大。
白霧
發表評論於 2025-01-27 08:06:45
點個讚。戳破了許多科技騙子的牛皮。不過道路仍是曲折的
彎刀月
發表評論於 2025-01-27 08:06:00
外行說一句,大家是否太看低國內做奧數的天才了?
一支鞋飛了
發表評論於 2025-01-27 08:05:33
反正離人類自我淘汰又近了一步,最後在家都在家裏領最低工資就好了。。。剩下的錢會集中在更少數的人手裏。
西門雪
發表評論於 2025-01-27 08:04:00
新四大發明,是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念,主要是指高速鐵路(簡稱高鐵)、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利,致專業改善係統運作。然而,英國媒體BBC News及其中文網撰文報導稱:「新四大發明」並非中國大陸所發明,部分數十年前已有類似產物,中國隻是對這四種技術吸收和應用方麵超過了其他地區。[6][7]2018年美國封殺中興事件之後,這個概念已經甚少提起,並遭到中國政府體製內和社會人士批判,[8][9][10]騰訊創始人之一馬化騰稱:「這些都是表麵的輝煌,仿佛海灘上建樓,一推就倒」
chinesegod3
發表評論於 2025-01-27 07:42:50
現在大模型基本上就是一個工程問題。理論基本上也就這樣了。中國在工程方麵有優勢的。主要是兩個,一個是迭代快,另外是成本低。大模型輸入數據的質量蠻關鍵的,說deepseek大概率用了gpt的數據做了distill是大概率,但並不一定是全部。去年就注意到國內有些公司用deepseek做類似copilot的功能,這是從github等數據訓練出來的。歸根到底,高質量的數據都是國外的數據是肯定的,隻有國外能提供絕大部分高質量的數據,包括用gpt的distill了的數據。
balsam_pear_k
發表評論於 2025-01-27 07:36:10
基本認同。看機會入一些NVD,TSM。
shakuras2000 發表評論於 2025-01-27 07:14:291. deepseek確實很強
2. deepseek大概率用了gpt的數據做了distill,所以脫離了更好的模型,deepseek可能做不到這麽好
3. 550萬是訓練成本,實際成本可能高幾倍,但是還是很低。
4. 有人說其實deepseek用了10000張A卡,隻是因為眾說周知的原因不能說,不過沒證據我暫時當成謠言。
5. 這家公司是做量化的,就算deepseek不賺錢,發布配合沽空美股也能賺翻,汗
罵人不好
發表評論於 2025-01-27 07:35:45
讓子彈再飛一會是對的。不過工程應用落地是中國的強項。方向確定了,把它搞出來,並且找到好的途徑,這應該是華人的強項。拭目以待。
西門雪
發表評論於 2025-01-27 07:22:19
冷眼旁觀,拭目以待,時間是檢驗真理的唯一方法。牛不牛一個月後見分曉。
HALS
發表評論於 2025-01-27 07:18:38
西方言論自由給中共帶來巨大的空子。DeepSeek 不值得信任的,你問它中共敏感問題,它就漏出劣質產品的尾巴了,完全帶有預先製定的答案,不具備創意。
shakuras2000
發表評論於 2025-01-27 07:14:29
1. deepseek確實很強
2. deepseek大概率用了gpt的數據做了distill,所以脫離了更好的模型,deepseek可能做不到這麽好
3. 550萬是訓練成本,實際成本可能高幾倍,但是還是很低。
4. 有人說其實deepseek用了10000張A卡,隻是因為眾說周知的原因不能說,不過沒證據我暫時當成謠言。
5. 這家公司是做量化的,就算deepseek不賺錢,發布配合沽空美股也能賺翻,汗
西門雪
發表評論於 2025-01-27 07:03:11
令胡衝
發表評論於 2025-01-27 06:41:04
這有些苛求過度了。GPT也不是橫空出世的。它借用了穀歌Transformer和Bert半個架構,Vectorization等等全是照抄別人NLP的東西,改的別人Python code。每一塊、每一層、每個神經元都是完全照抄普通神經網絡的東西。數據是網上偷偷各處下載的。整個架構和概念沒有任何一點是它獨創或特有的。
——
理論上來說,宇宙中已經具備現在或未來所有的技術的材料和工具,問題是如何把它們混合起來。比如電,電視,網絡等。第一個把這些已經存在的東西聯合起來就叫創新。
GuoLuke2
發表評論於 2025-01-27 07:02:54
Deepseek app 本身就很破,你還指望它能AI?
罵人不好
發表評論於 2025-01-27 07:00:00
DeepSeek影響巨大,這個和那個芯片造假顯然不是一回事,是真的震動了整個美國科技界的事情。現在幾乎所有的人都在討論DeepSeek。按照DeepSeek的訓練方法,星際之門根本不需要5000億,500億可能都不需要。
心無所住
發表評論於 2025-01-27 06:54:00
凡是中國搞出來的東西,不可能是橫空出世。創新都算不上,頂多是個小改進。問題是這小改進,把整個美國股市打出翔,哈哈哈
時不時來看看
發表評論於 2025-01-27 06:42:43
還答應了外星人開源?
頁次:
1
/3
每頁
50
條記錄, 本頁顯示
1
到
50
, 共
106
分頁: [
1
] [
2
] [
3
] [
下一頁
] [
尾頁
]
在河邊 發表評論於 2025-01-27 08:14:53@shakuras2000 發表評論於 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的數據做了distill,所以脫離了更好的模型,deepseek可能做不到這麽好
------------
你是說DS參考了GPT的計算模型進行了改進,是這個意思嗎?
所有新模型都是參考曆史模型進行改進的,這是很普通與正常的科學方法。GPT也是參考曆史模型基礎上得到的。GPT等最大的成就是建立在硬件計算速度疊加不斷進步基礎上的,隨之的模型與訓練並不比之前難度大。