評論: 美國AI公司試圖破解DeepSeek破壞性創新技術
隻有登錄用戶才能發表評論,
點擊此處
登錄
返回新聞帖
心無所住
發表評論於 2025-01-28 18:59:00
美國公司再怎麽破解,也隻能偷到一點皮毛。關鍵是腦子,他們腦子不夠用,永遠落後於中國
BigP
發表評論於 2025-01-28 11:48:41
luting 發表評論於 2025-01-28 08:55:44難聽點就是美國AI公司試圖山寨DeepSeek破壞性創新技術
+1
哈哈哈哈
資本是最誠實的,五分的觀點一文不值,就是一幫臭蟲
令胡衝
發表評論於 2025-01-28 11:42:48
你可能學習了傅聰的帖子,精神可嘉,總結不錯。:)。MLA中文是多頭潛注意力,不是多層注意力,確實是DeepSeek人家自己創新。注意力機製一直在創新進化,成功的不多。難說每項創新起多大作用,但這些研究或工程創新每項平均值10M,在每次訓練中。巨大創新價值難以估量。
—————
theriver1 發表評論於 2025-01-28 10:36:17 昨晚仔細研究了一下DeepSeek-R1,終於冷靜下來了。現在基本上傾向於DeepSeek是AI拚多多的說法。因為DeepSeek算法根本就沒有什麽自己的革命性的創新!它隻不過是集成了以下一係列美國人發明(都是美國公司公開發表的論文和技術)的成熟或不太成熟的優化算法的架構模型和創新,最終達到靠壓縮整體工作量和壓榨每個任務(不讓任務閑下來)的路徑來最大限度地降低算力資源的成本:
1.MLA多層注意力架構
2.FP8混合精度訓練框架
3.DualPipe跨節點通信
4.無輔助損失的負載均衡策略
5.跨節點全對全通信內核
6.MTP技術
7.數據精篩
8.DeepSeek-R1蒸餾
其中最重要的是前兩個架構,它們都是為了壓縮工作量的,也是其與ChatGpt等美國公司大模型的最主要區別。
pcboy888
發表評論於 2025-01-28 11:42:20
“破壞性技術創新”?
城頭散仙
發表評論於 2025-01-28 11:05:42
DeepSeek 的創新是絕對真實,有意義的。很多美國AI公司的管理層拿的工資都比這家中國公司AI模型的訓練費用高出幾十倍,搞出的東西還不如中國產品,這在投資人眼裡是絕對說不過去的。。還有就是很多出來矇騙的所謂AI工程師的日子不好混了。DeepSeek 讓所有人使用AI開發,免費使用自己的AI產品的門檻一下子降到最低,動了很多很多人的奶酪,有幾個臭蟲出來酸一下,也算正常。
theriver1
發表評論於 2025-01-28 10:36:28
各種優化算法都有自己的優缺點,不同的公司采取不同的優化思路,說白了就是在性能、價格和結果上達到“符合本公司目標”的平衡。比如Deepseek-R1不同於ChatGPT的架構-FP8混合精度訓練框架,這裏的FP8就是二進製裏8個比特位,位數越多代表精度越高,ChatGPT是32位和16位,Deepseek-R1是8位,這就比ChatGPT少了一半的計算量和內存,由此帶來的精度誤差用“混合精度”來彌補(對於精度要求高的數據,先用類似四舍五入的方法快速計算,再每128個數的結果交給32位的會計程序精算),最終大大壓縮了計算量,但是精度肯定遠遠不如ChatGPT。這種方法就是DS在平衡了性價比和結果後選擇的偏向性價比的優化思路。
theriver1
發表評論於 2025-01-28 10:36:17
昨晚仔細研究了一下DeepSeek-R1,終於冷靜下來了。現在基本上傾向於DeepSeek是AI拚多多的說法。因為DeepSeek算法根本就沒有什麽自己的革命性的創新!它隻不過是集成了以下一係列美國人發明(都是美國公司公開發表的論文和技術)的成熟或不太成熟的優化算法的架構模型和創新,最終達到靠壓縮整體工作量和壓榨每個任務(不讓任務閑下來)的路徑來最大限度地降低算力資源的成本:
1.MLA多層注意力架構
2.FP8混合精度訓練框架
3.DualPipe跨節點通信
4.無輔助損失的負載均衡策略
5.跨節點全對全通信內核
6.MTP技術
7.數據精篩
8.DeepSeek-R1蒸餾
其中最重要的是前兩個架構,它們都是為了壓縮工作量的,也是其與ChatGpt等美國公司大模型的最主要區別。
theriver1
發表評論於 2025-01-28 10:35:38
對Deepseek-R1和ChatGPT4進行初步比較後感覺其對中文理解力還是滿強的。在某些方麵甚至超過ChatGPT4。在解數學題和編程能力上也很強大,已經接近ChatGPT4。但是創意生成和ChatGPT4還有很大差距,畢竟靠做題進行優化培訓的強化學習思路必然帶來“結構化思維大大高於發散型思維”這個致命缺陷!
另外,Deepseek-R1相比ChatGPT4還有個缺點-沒有多模態,也就是無法通過整合來自不同模態的數據(圖像、文字、音頻、視頻等)從而增強模型的理解能力和推理能力。其官網上之所以可以上傳有文字的圖,是因為它在傳給大模型之前就做了文字的OCR處理,直接調用API是沒有的。
還有就是Deepseek-R1對AGI(通用人工智能)基本沒啥貢獻,所以其未來對於ChatGPT5不會帶來任何威脅。
個人覺得Deepseek最大的意義在於倒逼各家把大模型的服務價格壓下來,麵對OpenAI每月200美元的服務費,Deepseek-R1簡直就是白菜價(I/O各1元人民幣/每百萬Token)
絕望小狗
發表評論於 2025-01-28 10:35:00
城裏有這麽些痛恨自己黃皮的畜生
Dwclys
發表評論於 2025-01-28 10:34:00
酸憋的偷窺
ln2020
發表評論於 2025-01-28 10:31:48
反正過段就能看到有沒有第二、三家出來?
ln2020
發表評論於 2025-01-28 10:30:25
相比傻嗬嗬的硬算,這個算法如果能夠驗證,是個偉大的進步,至少也打開了思路。希望老黃的卡能夠因此更親民一些。
tw1234
發表評論於 2025-01-28 10:09:04
其實還是0到1,還是1到9 那個更厲害,更困難!
令胡衝
發表評論於 2025-01-28 10:03:14
Deepseek並不知道GPT o1或o3內部數據Softmax準確分布,它不可能distill別人的大模型知識或推理過程。它隻能蒸餾自己的大模型,來微調其它小模型。
它用GPT來生成訓練數據,但直接distill不大可能。
——————-
chinesegod3 發表評論於 2025-01-28 09:37:14 沒必要瞎吹,DeepSeek用的蒸餾技術在矽穀很多小公司也都有做,隻是這些小公司專注於某個專門領域,而且在這些專門領域非常強了。
baijiazhuang
發表評論於 2025-01-28 09:59:17
美國AI成本估計得包括每位高管的起碼8個figureUSD薪酬, :)
技術員
發表評論於 2025-01-28 09:42:09
不愧是VOA。就不想想DeepSeek也能破解美國AI的破壞性創新技術嗎?
chinesegod3
發表評論於 2025-01-28 09:37:14
沒必要瞎吹,DeepSeek用的蒸餾技術在矽穀很多小公司也都有做,隻是這些小公司專注於某個專門領域,而且在這些專門領域非常強了。DeepSeek做成了一個MOE LLM,而且低成本。不算啥革命性的,transformer,chatgpt剛出來才是革命性的創新,現在隻是整個時間線的插曲而已。還是謙虛一點。但是大模型在中國是被隔離的,國內出頭的大模型以後有市場是真的。
羅馬軍團
發表評論於 2025-01-28 09:34:17
我剛才說 “但是不管怎麽說,對算力的要求是沒有止境的。成本的降低,帶來的從來都是索取更多的產出,而不是更少的投入,投入是不會減少的。”
這句話不完整,完整的邏輯是:產出多少跟不上不是投入決定的,而是需求決定的,隻要有需求就會刺激產出。如果現在對AI的需求飽和了,那麽算力成本的降低將會減少對硬件的投入。然而事實是需求還遠遠遠遠不能滿足,所以算力成本的降低帶來的反而會是投入的增長,因為產出的利潤變大了。
DANIU_S
發表評論於 2025-01-28 09:30:00
本城痛恨中國人的,都是些什麽人?如果是祖上真被共產黨欺負了,還有情可原,如果隻是單純地反華,討厭中國大陸人,那就沒意思啦。
羅馬軍團
發表評論於 2025-01-28 09:27:21
用生物學的觀點來看,原始的大模型是產生基因,這種子代模型在雜交的過程中可能會產生變異,從而產生新的基因,這是自我進化的基礎。
生物學上的基因變異最終要靠自然選擇來淘汰不適應的變異,保留適應性更強的基因,那麽AI這裏也必須有一個選擇和淘汰機製,合乎邏輯的淘汰機製是用戶的選擇和反饋。這種方法的確是一條道路,但是產生的機製還需要更多探索。
但是不管怎麽說,對算力的要求是沒有止境的。成本的降低,帶來的從來都是索取更多的產出,而不是更少的投入,投入是不會減少的。
DANIU_S
發表評論於 2025-01-28 09:26:00
科學領域主要有一點兒進步,就應該鼓勵,起碼比拍馬屁、說得天花亂墜的印度人強。
彎刀月
發表評論於 2025-01-28 09:19:00
在真正技術麵前,阿三嘴皮子不好使了?
羅馬軍團
發表評論於 2025-01-28 09:17:26
worley 發表評論於 2025-01-28 09:06:36
因為deepseek直接盜取(蒸餾)了chatgpt的數據進行學習。給出的答案往往跟chatgpt o1一樣。
美國公司當然不能直接盜取chatgpt數據,但是現在可以直接使用deepseek,反正盜取數據的不是我。
-
倒不能說盜取,大模型產生的數據本身並沒有版權,至少目前沒有。
但是,用現有大模型產生的數據去訓練自己的大模型,這本質上還是copy/paste,成本當然低。但它隻能模仿和跟隨,而不能超越。然而這種方法還是有意義的,就和生物學上的子代一樣,現在deepseek做的是類似細胞克隆,或者說單性繁殖。最好的方式是雜交,也就是用幾個大模型給的數據來產生子代,這樣的後代更強壯,具有突破前代自我進化的可能。但是前提是需要許多獨立的大模型做親本,獨立的大模型越多越好。原始的數據訓練是基礎,這不可能繞過。
閑聊幾句
發表評論於 2025-01-28 09:14:00
source code 開源,training 模型的數據也開源?不會吧?
BDPLX
發表評論於 2025-01-28 09:09:10
到底有多少水分,還很難說,
不能全信花街的,
讓子彈飛一會兒
worley
發表評論於 2025-01-28 09:06:36
因為deepseek直接盜取(蒸餾)了chatgpt的數據進行學習。給出的答案往往跟chatgpt o1一樣。
美國公司當然不能直接盜取chatgpt數據,但是現在可以直接使用deepseek,反正盜取數據的不是我。
Yummy2000
發表評論於 2025-01-28 09:05:56
梁文峰是玩資本的,應該是為上市做準備。 有點技術,但不是顛覆性的。 年後上市,可以收割一把韭菜。
.....................................................
夢想天空 發表評論於 2025-01-28 09:01:55梁文峰的本職工作是做基金的,DeepSeek對他來說就是一個副業,所以他不可能投資幾十個億去搞這個。估計他自己也沒想到一批剛畢業的博士碩士研究生竟然還真給做出來了。
不得不說,現在國內的這幫孩子是真聰明,而且國內的高等教育水平也越來越好。
夢想天空
發表評論於 2025-01-28 09:01:55
梁文峰的本職工作是做基金的,DeepSeek對他來說就是一個副業,所以他不可能投資幾十個億去搞這個。估計他自己也沒想到一批剛畢業的博士碩士研究生竟然還真給做出來了。
不得不說,現在國內的這幫孩子是真聰明,而且國內的高等教育水平也越來越好。
luting
發表評論於 2025-01-28 08:55:44
難聽點就是美國AI公司試圖山寨DeepSeek破壞性創新技術
王豬豬
發表評論於 2025-01-28 08:51:56
軟件產業做到彎道超車還是相對容易的。美國在軟件方麵不能押注太多。這東西一開源,字典上最美的詞也不好使了。
goldeyeball1
發表評論於 2025-01-28 08:47:15
矽穀那些AI蠢材,花掉了上萬億,結果被一個100多人,僅僅用幾百萬美元就打得滿地找牙,還有臉出來對人家評頭論足,真是莫大的恥辱!
頁次:
1
/1
每頁
50
條記錄, 本頁顯示
1
到
31
, 共
31
分頁: [
1
]