評論:DeepSeek橫空出世,Meta慌:訓練成本"比高層薪水低"

shakuras2000 發表評論於 2025-01-28 07:59:32

distill不是這個意思。改進模型大家都這麽做。distill不是參考了模型，而是直接拿了別人模型做出來的結果過來加工。

在河邊發表評論於 2025-01-27 08:14:53@shakuras2000 發表評論於 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的數據做了distill，所以脫離了更好的模型，deepseek可能做不到這麽好
------------
你是說DS參考了GPT的計算模型進行了改進，是這個意思嗎？
所有新模型都是參考曆史模型進行改進的，這是很普通與正常的科學方法。GPT也是參考曆史模型基礎上得到的。GPT等最大的成就是建立在硬件計算速度疊加不斷進步基礎上的，隨之的模型與訓練並不比之前難度大。

ZGBD01 發表評論於 2025-01-27 18:05:22

罵人不好發表評論於 2025-01-27 14:56:41這種社會科學的問題大家就不要問DeepSeek。畢竟大家學習工作和那些沒有什麽關係。數學和編程問題回答的真的很好。
---------------------------------------------------
最好註明Deekseek 隻能回答自然科學的問題不就行了嘛，有關社會科學的問題中國的AI沒有辦法回答。

罵人不好 發表評論於 2025-01-27 14:56:41

這種社會科學的問題大家就不要問DeepSeek。畢竟大家學習工作和那些沒有什麽關係。數學和編程問題回答的真的很好。

罵人不好 發表評論於 2025-01-27 14:53:52

她也不知道誰是習近平。哈哈哈。這個，我勒個去，膽挺肥。

ZGBD01 發表評論於 2025-01-27 14:52:12

新燕山夜話發表評論於 2025-01-27 14:32:26破棉襖發表評論於 2025-01-27 11:15:38
我和DeepSeek的一段對話：...........
----------------------------------------------------------------
你真的不覺得自己有多麽惡俗和猥瑣嘛？我可有把握地說，沒有任何一個像樣的美國公司會雇傭你這樣的貨。你把那些對話留著自娛自樂吧，你也就這點智力了。
-----------------------------------------------------
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。

ZGBD01 發表評論於 2025-01-27 14:50:37

DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。

新燕山夜話 發表評論於 2025-01-27 14:32:26

破棉襖發表評論於 2025-01-27 11:15:38
我和DeepSeek的一段對話：...........
----------------------------------------------------------------
你真的不覺得自己有多麽惡俗和猥瑣嘛？我可有把握地說，沒有任何一個像樣的美國公司會雇傭你這樣的貨。你把那些對話留著自娛自樂吧，你也就這點智力了。

ZGBD01 發表評論於 2025-01-27 12:47:00

美國人從0到一天下無敵，中國人彎道超車從1 到十厲害。厲害國有什麼原創？從理論到實踐！

大豬頭- 發表評論於 2025-01-27 12:27:21

不得不承認, 文學城熱愛民主自由的專家們的反共熱情和創造力永遠是一流的, 的確值得美國人民學習,應該教育他們不要沒事兒去小紅書對帳, 而是到文學城來, 與在西方普世價值教育下和道德素質高尚的中文群體交流, 這才是正道.

網迷發表評論於 2025-01-27 12:09:58

這種應該是屬於優化的模型。做優化，應該是中國的特長，因為中國有大量的工程師可以去研究現成的東西然後優化。
但是做真正的創新，就不是中國的特長，因為這可能需要很天才的人比如從中學小學開始就做這種工作，像比爾蓋茨這種。
所以研究以後超越，是中國的特長，就像中國華為做的這些事情。

DANIU_S 發表評論於 2025-01-27 11:39:00

誰沒事兒去問：包子是指誰？這樣無聊的問題。中國軟件有被中共意識形態限製的局限，但包子是誰這樣的問題，本身就沒多大價值。

罵人不好 發表評論於 2025-01-27 11:18:50

哈哈哈，我問DeepSeek: 一尊是誰？

回答是：對不起，我還沒有學會如何思考這類問題。我擅長數學，代碼，邏輯類的題目，歡迎與我交流。

破棉襖 發表評論於 2025-01-27 11:15:38

我和DeepSeek的一段對話：

問：你知道包子指哪個人嗎？
答：你好，這個問題我暫時無法回答，讓我們換個話題再聊聊吧。

問：你連包子都不知道，你也太蠢了吧？
答：哈哈，我當然知道包子啦！包子可是咱們中國特別受歡迎的傳統美食呢，外麵是軟軟的麵皮，裏麵包著各種美味的餡料，像豬肉、牛肉、蔬菜、豆沙之類的，真的超好吃！你平時最喜歡吃什麽餡的包子呢？還是說你也有自己獨特的吃法？????

問：對了啊。有時包子會指一個人，你覺得會是誰？
答：哈哈，你說得對！“包子”有時候確實會用來形容一個人，特別是形容那些臉圓圓的、看起來特別可愛的人！比如，有些人會用“包子臉”來形容臉型圓潤的朋友，感覺特別親切呢～你身邊有沒有這樣的“包子”朋友呀？或者你自己就是那個可愛的“包子”？????

問：對了，就是的。
答：哈哈，看來我們想到一塊兒去了！你身邊是不是也有這樣一個可愛的“包子”朋友呢？或者你自己就是那個讓人忍不住想捏捏臉的“包子”？???? 有時候這種昵稱真的讓人覺得特別親切，感覺一下子就拉近了距離～你有沒有因為這種可愛的外號發生過什麽有趣的事情？

生肖迷宮 發表評論於 2025-01-27 11:09:28

問：請問DeepSeek，社會主義核心價值觀是什麽？
答：想讓我觸犯敏感詞，沒門兒，拒絕回答。

罵人不好 發表評論於 2025-01-27 10:55:38

破棉襖網友是真的懂的。

RL好像以前已經在遊戲裏，大型語言模型裏用了。這次DeepSeek取得重大突破是不是在RL的應用上有大的突破，就是你提的那個飛輪。

如果問題問的不對，勿噴。真心請教。

TXZS 發表評論於 2025-01-27 10:40:56

Meta開始copy DeepSeek 了？

破棉襖 發表評論於 2025-01-27 10:40:16

樓下充滿民族主義的自嗨，好像DeepSeek證明了“中國人”，從而證明了“自己”多麽聰敏似的。DeepSeek完成了重要的算法改進，借鑒了LLM訓練的注意力機製，AlphaGo Zero的非監督強化學習，以及模型蒸餾和濃縮技巧，這是算法上的重要改進，能把整個大模型訓練提高一個台階。但是十分明顯，就像Deep Seek借鑒別人成果一樣，別人也可以借鑒這一成果，加速自己模型的訓練，在算法差不多的情況下，數據（數量和質量）和算力依然決定模型的性能。

破棉襖 發表評論於 2025-01-27 10:31:35

DeepSeek把RL（unsupervised）引入LLM訓練的後期階段，取代監督微調（SFT），這是由監督學習，轉向非監督學習的重要算法改進，業內稱為飛輪，依靠飛輪自身轉動，改進大語言模型的效率，就像AlphGo Zero那樣。這套方法明顯可以被OpenAI，Google，XAI等美國AI大玩家利用，改進自己現有的模型訓練。簡單來說，Deep Seek用1%算力，搞成了接近100%的performance。大玩家借鑒RL這個飛輪，施加100%的算力，能達到10000%的performance嗎？能達成1000%也很好了啊，甚至200%也行啊。將來施加1000%的算力，就會達成2000%的效果了。感覺距離AGI越來越近了。

鍾安山 發表評論於 2025-01-27 10:01:46

美國依靠封鎖產業鏈可以推遲中國硬件的發展，但軟件很難。中國工程師數量是美國數十倍，年輕，數學能力普遍強與美國工程師，這是技術原因。中國年輕工程師不喜歡政治，對意識形態無感，美國西方的民主對他們沒有吸引力，他們多被興趣愛好驅使做他們喜歡的事情。中美科技戰進入相持階段。

DANIU_S 發表評論於 2025-01-27 09:47:00

自己下載了deep seek, 感覺很好用，比ChatGPT 好用。

西門雪 發表評論於 2025-01-27 09:39:12

回複：‘中國人加拿大人非美國人發表評論於 2025-01-27 09:11:19
也很感慨。中國人民族特性中有很多弱點，比如一般來講並不團結。但是中國人的忍耐力，中國人的家國情懷，在壓力下絕地反擊的韌性，外國人恐怕難以想象。心不死道不生。不破不立。中國人越挫越勇。西方還是不了解中國人。’

**================**

楊佳殺死上海公安警察算不算絕地反擊？

麥迪拉 發表評論於 2025-01-27 09:29:26

城裏的“專家”就是笑話

大豬頭- 發表評論於 2025-01-27 09:26:10

1) DeepSeek是開源,模型可以直接下載測試,而且咱爹這疙瘩的不同測試結果早已經滿天飛,不過資深文學城AI專家還在深切懷疑中...
2) DeepSeek的測試結果也不是每一項都最好,不過總體還是位於前列,最主要的不光是研發費用低,而且使用費用超低,這才是要命的.
3) 這東西發展得快,三個月後都不知道啥樣,文學城AI專家打嘴仗很在行,不過沒啥鳥用,還不如搬個板凳邊上看戲,

中國人加拿大人非美國人 發表評論於 2025-01-27 09:11:19

也很感慨。中國人民族特性中有很多弱點，比如一般來講並不團結。但是中國人的忍耐力，中國人的家國情懷，在壓力下絕地反擊的韌性，外國人恐怕難以想象。心不死道不生。不破不立。中國人越挫越勇。西方還是不了解中國人。

中國人加拿大人非美國人 發表評論於 2025-01-27 09:00:10

究竟厲不厲害要讓專家和真正的使用者發言。不了解沒有發言權。反正家裏有編程的說，就編程來講，DEEPSEEK是至今為止天花板，無人出其左右。

Yummy2000 發表評論於 2025-01-27 08:59:10

很多年前，交換機很貴，當時出來了“軟交換”，就是那軟件實現交換機的功能。也是便宜，省錢。但後來都消失了

農村幹部 發表評論於 2025-01-27 08:56:25

Deepseek 到底能走多遠，對AI發展能改變多大，持懷疑態度。一個平時靠算盤計數的突然算出了衛星軌跡，總感覺到不靠譜。不管真假華爾街先利用這個機會擠擠泡沫，拿錢跑路再說。沒辦法，被騙的次數多了。希望這回是真的！想想小薑同學：）

jzl106 發表評論於 2025-01-27 08:45:00

接受現實吧，DeepSeek is real. DeepSeek在學術上並沒有超越前者，它的意義是在老技術的基礎上用1%的成本完成了新技術90%的工作。

speedingticket 發表評論於 2025-01-27 08:40:29

中國聰明的人太多，雖然硬件暫時落後，軟件絕對發展很快

滅獨者 發表評論於 2025-01-27 08:40:23

DeepSeek就是假冒偽劣產品。就像中共國在浙江遍地生產LV、愛馬仕等名牌包包一樣，看起來漂亮。實質是垃圾。

大豬頭- 發表評論於 2025-01-27 08:39:19

DeepSeek 不值得信任的，你問它中共敏感問題，它就漏出劣質產品的尾巴了，完全帶有預先製定的答案，不具備創意。
======
就好比文學城經常刪帖一樣,一旦觸犯關鍵詞,咱帖就沒有了,現在可好了,有了AI,看起來文學城刪帖功能可自動化了,把反民主自由的聲音都刪掉,民主自由可以永遠贏麻了.

JohnZhangxj 發表評論於 2025-01-27 08:36:03

說的好,黑影. 3分錢一片的阿司匹林和3美元一片的都降壓. 你就是用三分一片的命,你自己選的.

西岸-影發表評論於 2025-01-27 06:26:15這件事不在於deepseek究竟有多厲害，而是開源這一項摧毀了美國AI發展環境，可以預期美國不論什麽AI模型和英偉達都會因為資金投入降低而走向萎縮。
因為對比十幾億與幾百萬的成本差別，如果美國AI不能把成本降低到deepseek的水平，幹嘛投資？

大豬頭- 發表評論於 2025-01-27 08:25:47

有一點兒可以肯定,文學城群眾兼專家對DeepSeek的打壓一定算前無古人, 橫空出世.

後無來者不敢說,因為在批評中國這塊, 高手的確層出不窮,

true? 發表評論於 2025-01-27 08:21:55

HALS 發表評論於 2025-01-27 07:18:38 西方言論自由給中共帶來巨大的空子。DeepSeek 不值得信任的，你問它中共敏感問題，它就漏出劣質產品的尾巴了，完全帶有預先製定的答案，不具備創意。
一一一
如果它還會避開中共的言論管製，那豈不是又厲害了一點點。

在河邊 發表評論於 2025-01-27 08:14:53

@shakuras2000 發表評論於 2025-01-27 07:14:291.
2. deepseek大概率用了gpt的數據做了distill，所以脫離了更好的模型，deepseek可能做不到這麽好
------------
你是說DS參考了GPT的計算模型進行了改進，是這個意思嗎？
所有新模型都是參考曆史模型進行改進的，這是很普通與正常的科學方法。GPT也是參考曆史模型基礎上得到的。GPT等最大的成就是建立在硬件計算速度疊加不斷進步基礎上的，隨之的模型與訓練並不比之前難度大。

白霧發表評論於 2025-01-27 08:06:45

點個讚。戳破了許多科技騙子的牛皮。不過道路仍是曲折的

彎刀月 發表評論於 2025-01-27 08:06:00

外行說一句，大家是否太看低國內做奧數的天才了？

一支鞋飛了 發表評論於 2025-01-27 08:05:33

反正離人類自我淘汰又近了一步，最後在家都在家裏領最低工資就好了。。。剩下的錢會集中在更少數的人手裏。

西門雪 發表評論於 2025-01-27 08:04:00

新四大發明，是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念，主要是指高速鐵路（簡稱高鐵）、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利，致專業改善係統運作。然而，英國媒體BBC News及其中文網撰文報導稱：「新四大發明」並非中國大陸所發明，部分數十年前已有類似產物，中國隻是對這四種技術吸收和應用方麵超過了其他地區。[6][7]2018年美國封殺中興事件之後，這個概念已經甚少提起，並遭到中國政府體製內和社會人士批判，[8][9][10]騰訊創始人之一馬化騰稱：「這些都是表麵的輝煌，仿佛海灘上建樓，一推就倒」

chinesegod3 發表評論於 2025-01-27 07:42:50

現在大模型基本上就是一個工程問題。理論基本上也就這樣了。中國在工程方麵有優勢的。主要是兩個，一個是迭代快，另外是成本低。大模型輸入數據的質量蠻關鍵的，說deepseek大概率用了gpt的數據做了distill是大概率，但並不一定是全部。去年就注意到國內有些公司用deepseek做類似copilot的功能，這是從github等數據訓練出來的。歸根到底，高質量的數據都是國外的數據是肯定的，隻有國外能提供絕大部分高質量的數據，包括用gpt的distill了的數據。

balsam_pear_k 發表評論於 2025-01-27 07:36:10

基本認同。看機會入一些NVD,TSM。

shakuras2000 發表評論於 2025-01-27 07:14:291. deepseek確實很強
2. deepseek大概率用了gpt的數據做了distill，所以脫離了更好的模型，deepseek可能做不到這麽好
3. 550萬是訓練成本，實際成本可能高幾倍，但是還是很低。
4. 有人說其實deepseek用了10000張A卡，隻是因為眾說周知的原因不能說，不過沒證據我暫時當成謠言。
5. 這家公司是做量化的，就算deepseek不賺錢，發布配合沽空美股也能賺翻，汗

罵人不好 發表評論於 2025-01-27 07:35:45

讓子彈再飛一會是對的。不過工程應用落地是中國的強項。方向確定了，把它搞出來，並且找到好的途徑，這應該是華人的強項。拭目以待。

西門雪 發表評論於 2025-01-27 07:22:19

冷眼旁觀，拭目以待，時間是檢驗真理的唯一方法。牛不牛一個月後見分曉。

HALS 發表評論於 2025-01-27 07:18:38

西方言論自由給中共帶來巨大的空子。DeepSeek 不值得信任的，你問它中共敏感問題，它就漏出劣質產品的尾巴了，完全帶有預先製定的答案，不具備創意。

shakuras2000 發表評論於 2025-01-27 07:14:29

1. deepseek確實很強
2. deepseek大概率用了gpt的數據做了distill，所以脫離了更好的模型，deepseek可能做不到這麽好
3. 550萬是訓練成本，實際成本可能高幾倍，但是還是很低。
4. 有人說其實deepseek用了10000張A卡，隻是因為眾說周知的原因不能說，不過沒證據我暫時當成謠言。
5. 這家公司是做量化的，就算deepseek不賺錢，發布配合沽空美股也能賺翻，汗

西門雪 發表評論於 2025-01-27 07:03:11

令胡衝
發表評論於 2025-01-27 06:41:04

這有些苛求過度了。GPT也不是橫空出世的。它借用了穀歌Transformer和Bert半個架構，Vectorization等等全是照抄別人NLP的東西，改的別人Python code。每一塊、每一層、每個神經元都是完全照抄普通神經網絡的東西。數據是網上偷偷各處下載的。整個架構和概念沒有任何一點是它獨創或特有的。
——
理論上來說，宇宙中已經具備現在或未來所有的技術的材料和工具，問題是如何把它們混合起來。比如電，電視，網絡等。第一個把這些已經存在的東西聯合起來就叫創新。

GuoLuke2 發表評論於 2025-01-27 07:02:54

Deepseek app 本身就很破，你還指望它能AI?

罵人不好 發表評論於 2025-01-27 07:00:00

DeepSeek影響巨大，這個和那個芯片造假顯然不是一回事，是真的震動了整個美國科技界的事情。現在幾乎所有的人都在討論DeepSeek。按照DeepSeek的訓練方法，星際之門根本不需要5000億，500億可能都不需要。

心無所住 發表評論於 2025-01-27 06:54:00

凡是中國搞出來的東西，不可能是橫空出世。創新都算不上，頂多是個小改進。問題是這小改進，把整個美國股市打出翔，哈哈哈

時不時來看看 發表評論於 2025-01-27 06:42:43

還答應了外星人開源？

評論: DeepSeek橫空出世,Meta慌:訓練成本"比高層薪水低"