評論:DeekSeek靠“蒸餾”火出圈：到底是創新還是剽竊？

ceocto 發表評論於 2025-01-31 18:20:47

糖醋鯉魚發表評論於 2025-01-31 07:25:10DS所謂的蒸餾技術就是通過反向工程找出openai訓練模型技術上的劣勢並加以調整和改善，然後把新的算法開源了。如果DS把這些新算法當作閉源代碼開發產品也許會有糾紛。現在這些算法開源了每個人都可以下載部署並開發自己訓練模型，這就讓openai沒法去訴訟了。這也是DS聰明的地方，而且間接向別人展示了自己公司的實力。很聰明的做法，唯一不爽的就是那些市場上的所謂大咖ai公司了包括ai芯片製造公司例如英偉達。

=========

公開的代碼跟DS網站上的產品不同（v3），R1的都很差，你去試試，現在好多公司Host了。

見不得不平事 發表評論於 2025-01-31 08:49:07

DeepSeek開發了一種高效低成本的蒸餾方法。其高效低成本部分震驚了美國業界。而其蒸餾所用數據模型及相關訓練資料則違反了相關規則。因此它既有創新也有違規。現在美國業界處於一種難堪的地位，一方麵要譴責它違規使用別人的成果，另一方麵還要研究學習它的算法以提高自己的蒸餾水平。DS用別人的成果作為自己模型訓練的基礎屬於在華人中經常會見到但會被別人所不屑的“取巧”。另一方麵，它開創的高效低成本的蒸餾方法又會加速AI發展，對社會的進步起到推動作用。這就是事物的兩麵性。任何片麵的一家之言都是不足取的。

糖醋鯉魚 發表評論於 2025-01-31 07:25:10

DS所謂的蒸餾技術就是通過反向工程找出openai訓練模型技術上的劣勢並加以調整和改善，然後把新的算法開源了。如果DS把這些新算法當作閉源代碼開發產品也許會有糾紛。現在這些算法開源了每個人都可以下載部署並開發自己訓練模型，這就讓openai沒法去訴訟了。這也是DS聰明的地方，而且間接向別人展示了自己公司的實力。很聰明的做法，唯一不爽的就是那些市場上的所謂大咖ai公司了包括ai芯片製造公司例如英偉達。

TXZS 發表評論於 2025-01-31 06:44:07

whatever！反正物美價廉！愛用不用，愛咋咋地！

矽穀工匠 發表評論於 2025-01-31 05:18:37

中國站在巨人的脖子上砍巨人腳脖子。

矽穀工匠 發表評論於 2025-01-31 05:17:46

愛迪生每天接一個專利官司。

會當淩絕頂1 發表評論於 2025-01-31 01:53:38

網友評論、網友文字如下。

問題的關鍵是，在如此短的時間裏，如此低成本，DeepSeek是怎麽做到的？

業內普遍認為：DeepSeek的迅速崛起，皆因不光彩地違規非法蒸餾、偷竊數據、盜用、“山寨”、“整合”他人的模型所致。

彭博社28日報道，微軟和OpenAI正在調查與DeepSeek有關的人，他們在2024年秋天就發現，有人用不正當的手段通過OpenAI的API輸出了大量數據，他們或與DeepSeek有關。

英國的金融時報也於28日報道，OpenAI表示，他們已掌握了證據，證明DeepSeek涉嫌利用所謂的“蒸餾”（distillation）技術盜用其數據進行開發。

對此，業外人士不免感到困惑，因為開發人員是可以通過付費購買許可證的方式，來使用API將OpenAI的專有AI模型集成進自己的應用程序中，這難道不合法？

況且，OpenAI不是鼓勵用戶大量使用它的模型和數據嗎？

既如此，何來不正當、非法、違規和盜用一說呢？

問題的核心在於：你是怎麽利用這些資源的。

OpenAI在開放自己的數據和應用時，並不是無條件開源的，它是有明確的限製條款的。

換句話說，OpenAI的開放前提是說：你可以使用我的訓練數據，在我的訓練模型基礎上，來開發完成你所需要的各類應用，而非是以構建自己的訓練模型為目的，達到未來與我競爭的目的。

而所謂的“蒸餾”技術，正是利用像OpenAI這樣的功能強大的大模型，以及通過長期投入所積累而成的大數據，來訓練屬於自己的較小模型，通過“蒸餾”濃縮的方式，在自己的模型上，以更低的成本、更短的時間取得更好的效能。

這在OpenAI的開放限製條款中，明顯是違法的。

這，或許才是DeepSeek之所以能夠在短時間內，以極低的成本達到可與OpenAI比肩的真正原因。

更進一步，美國人認為，有關中國實體企業在通過“蒸餾”技術訓練自己模型的同時，還竊取了大量數據，而這些數據有可能對美國的安全構成威脅。所以不少人對於這種潛在的侵權行為，以及所帶來的安全問題深表擔憂。

也許有人會爭辯，你憑什麽說DeepSeek是盜用、抄襲？有證據嗎？有！大量證據！

DeepSeek的很多回答，與人們向OpenAI提問所得到的回答一模一樣！也就是說，DeepSeek真正的原始數據來源，就是OpenAI的數據庫。

僅僅改變提問方式就使得抄襲者原形畢現，可不可以抄襲得高明一點，不要這麽赤裸裸！

據說胡錫進也看不下去了，不惜站出來洗地，意思是孔乙己的那句話：竊書者不能算是偷。

結果成了越描越黑，這等於承認了偷的行為。

說到這種行為，美國人有治嗎？

答案是：好像沒有。

如果像類似DeepSeek這樣的事發生在美國或英國，如此高調的宣傳，以及如此有影響的公司和事件，這足以將你送上法庭，不罰你個底兒掉就不算完。

但是在別國，情形可能完全不同。不但不會感到恥辱，而且會被視為一種愛國行為，能夠獲得億萬個點讚！

這分明就是兩個平行世界！

從小在學校就被告知：天下文章一大抄！隻要你抄的，水平高，抄的藝術，不但不會影響到你的信用，而且會成為人人羨慕的英雄！

看看某些人甚至很多人，詭辯，狡辯，小偷邏輯，不以為恥，反以為榮！

矽穀工匠 發表評論於 2025-01-31 01:19:43

類似中國有高鐵美國沒高鐵。

randomspot 發表評論於 2025-01-31 00:05:11

是不是創新，然後誰抄誰，下一個季度就見分曉

幾個月後看看美國大廠的大模型是否訓練成本都大幅度下降就知道了。

truth_hurts 發表評論於 2025-01-30 22:28:03

這就如同要準備托福亞斯考試就拚命刷真題一樣，非常有效，但英語水平提高不大。

想不開1 發表評論於 2025-01-30 21:02:16

借腹生子沒有什麽大的問題，但是說成是全程自我生子，就有點過了。

白雲藍天 發表評論於 2025-01-30 20:45:28

京城老炮1950 發表評論於 2025-01-30 17:12:54
IBM大型計算機是在1984年進入中國的，當時的科學院計算所和各大專院校的計算機科學精英們都想搞一套像IBM大型機操作係統VSE和MVS一樣的中國式的自己的大型機操作係統用於中國的各大商業銀行。到目前為止搞出來了嗎？
---------------------
拿幾十年的過去和現在比？！現在中國高新技術領頭人很多都是在美國搞過很多年。雖然中國總體還不能可美國比，但在某些領域完全可以趕上。我下麵已經說了，在軟件方麵，隻要搞到頂尖人才，而又沒受到硬件的限製，有些方麵完全可以搞成世界一流。

ljcn 發表評論於 2025-01-30 18:58:14

一個出騙子/電詐的國家，DS什麽操行，你們心裏沒點b數？

橡皮潛艇 發表評論於 2025-01-30 18:57:35

歸根到底還得靠別人。現在IP被人封鎖，“蒸餾”沒有來源了，還怎麽玩？

TitaniumAtlas 發表評論於 2025-01-30 18:48:52

樓下完全不懂嘛，前麵那部分得處理海量無格式的可能是錯誤的信息，最燒錢的

not4any 發表評論於 2025-01-30 18:47:26

想起了一位誠實的美國遊泳選手在奧運比賽後懟了本國媒體的一句話，”不能遊不過人家，就說人家吃藥了。“

watcher2 發表評論於 2025-01-30 18:11:58

就算真的靠蒸餾，知不知道那會使成本降低多少？能有1%就不錯了。

逆向操作 發表評論於 2025-01-30 17:41:07

一看出自“自由亞洲”就知道是FAKE NEWS。看看需要真金白銀才能購買的AI 晶片製造商怎麽說。 AI chipmaker Cerebras says it’s been ‘crushed with demand’ for China’s DeepSeek from business customers

京城老炮1950 發表評論於 2025-01-30 17:12:54

IBM大型計算機是在1984年進入中國的，當時的科學院計算所和各大專院校的計算機科學精英們都想搞一套像IBM大型機操作係統VSE和MVS一樣的中國式的自己的大型機操作係統用於中國的各大商業銀行。到目前為止搞出來了嗎？

科學院計算所什麽時候成立的？裏麵有多少人是留蘇，留美和留洋的？同樣科學院半導體研究所是什麽時候成立的？裏麵有多少人是留蘇，留美和留洋的？當年科學院半導體研究所成立的時候台積電在哪兒呢？台積電的張忠謀又在哪兒呢？64年過去了，64年不短啊！為什麽一塊小小的芯片還受製於西方的製裁？還要看人家的臉色過日子呢？
================================
白雲藍天發表評論於 2025-01-30 15:20:32 本人覺得 DeekSeek 的技術很大概率是中國自創的。在軟件開發方麵，中國的技術在很多方麵不比美國差，而且關鍵是隻要搞到頂尖水平的技術人員，就能做到。美國技術人員能夠創造一種軟件技術，難道中國技術人員連仿製的水平也沒有？！

我要真普選 發表評論於 2025-01-30 17:11:00

今天說說斯大林時代風靡一時的蘇聯神話——勞模礦工斯達漢諾夫故事。舉一反三，由點及麵，由麵及裏，分析眼前的事物是否是謊言？會不會也很扯？
蘇聯時期《真理報》宣傳消息，礦工斯達漢諾夫6小時開採了102噸煤，一個人幹了煤礦日產量的10%，超過了普通定額的13倍。

但當時，蘇聯採煤技術很落後，一個礦工既要採煤，又要經常放下采煤的風鎬去清理和加固工作麵，清理和加固完畢後，繼續拿起風鎬採煤，如此循環往復，效率很低。
不過斯達漢諾夫什麼都不用管，隻負責用風鎬採煤，一路向前推進。斯達漢諾夫連續工作了5個小時45分鐘，中間沒有停歇，一口氣開採了超過100噸煤。

第二天早上，高度評價了斯達漢諾夫的成績，盛讚他創造了極具政治意義的世界紀錄，是落實斯大林同誌關於領導幹部無條件提前完成年度計劃指示的最佳方法。
事蹟很快傳到了領導的耳朵裏，就囑咐過下麵，要求在工人階級中尋找突出人物，樹立典型，製造英雄，振奮並鼓舞蘇聯人民，爲社會主義建設注入強大的精神力量。

最重要的一點——礦黨委全體會議警告所有人，那些懷疑、汙衊、抹黑斯達漢諾夫同誌事蹟的人，是反對我們國家最優秀人物的最兇惡、最卑鄙的敵人。敵人，當然得用鐵拳錘死。誰還敢多嘴？

老街口瓜子 發表評論於 2025-01-30 16:43:00

讓美國蒸發上萬億，幾個星際之門沒了，這還了得，網絡攻擊，誣陷，造謠一起來，反華媒體更是上竄下跳

藍天大地 發表評論於 2025-01-30 16:41:06

+100000

-------------------------------------------------------

Etornado 發表評論於 2025-01-30 14:39:12

我要真普選 發表評論於 2025-01-30 16:39:00

站在巨人的肩膊上吹牛B ，看誰比我高？

藍天大地 發表評論於 2025-01-30 16:38:21

這個毛毛沒有聽說過商業協議。他認為所有的合同都是曆史文件。

啊哈哈哈哈哈哈哈

------------------------------------------------

Simiguy 發表評論於 2025-01-30 14:10:00從人類發展的角度，這種＂偷＂值得提倡。 DS不可能什麽都從頭開始，open Al其實也不是從頭開始。都是站在人類現有知識集基礎之上的。至於樓下說的展會設計，你既然已經公開，就允許別人借鑒。天下所有車都是4個輪子，你不能說都是抄襲吧。

ajaychen_2024 發表評論於 2025-01-30 16:35:06

“實錘”？還是那句，請拿出證據。

TitaniumAtlas 發表評論於 2025-01-30 16:21:28拿笑話來論證也是醉了，ds那是看一眼的事情？偷竊人家的知識產權都實錘了。

霧蒙蒙雨霏霏 發表評論於 2025-01-30 16:25:21

酸葡萄，DS收費是OpenAI的20分之一，DS怎麽去操作? 最好的策略是奮起直追，而不是做 crying baby。

Capitaltwo 發表評論於 2025-01-30 16:25:12

為了不讓競爭對手對手難堪和留有餘地（到底還是兩岸一家親），ds沒有說他們用的都是國產gpu芯片做的係統，總共花了560萬人民幣成本。

彎刀月 發表評論於 2025-01-30 16:22:00

這個話題，我是法盲加科盲。你們隨便吵，我歇會

TitaniumAtlas 發表評論於 2025-01-30 16:21:28

拿笑話來論證也是醉了，ds那是看一眼的事情？偷竊人家的知識產權都實錘了。

ajaychen_2024 發表評論於 2025-01-30 14:22:07 西方有一個“吹捧”中國逆向工程師的笑話，說不能在展覽會讓中國工程師看見觸摸展品甚至看產品單張說明書，因為他們有“看一眼就能懷孕”的本事。如果DS的工程師有看一眼就“懷孕”的能力，那就是他們的真本事。

ajaychen_2024 發表評論於 2025-01-30 16:18:06

禍根是那5000億美元的“星際之門”

傑瑞王 發表評論於 2025-01-30 16:16:00

怎回事兒？懂的都懂，不懂的在裝傻；盛宴變鬧劇

Panda-2020 發表評論於 2025-01-30 16:14:00

美國公司正在蒸餾DeekSeek open source

逆向操作 發表評論於 2025-01-30 16:13:26

這些質疑都出自台灣的1450

wanjiadeng 發表評論於 2025-01-30 16:10:26

回複：‘ajaychen_2024 發表評論於 2025-01-30 13:41:48
不要忘記，OPEN AI 是閉源的，而 DS 是開源的，不僅僅是公開代碼，它還涉及數據、模型、工具以及整個開發流程的透明性和可訪問性’

**================**

Open AI 從ChatGPT4才開始閉源的。那之前都是開源的。另外很多中國的AI模型都是基於Meta的LLaMa開源模型的

Panda44 發表評論於 2025-01-30 16:02:32

那OpenAI自己不可以“蒸餾”嗎？DeepSeek還是獨創了算法的！

橡皮潛艇 發表評論於 2025-01-30 15:54:58

還是要支持DS打壓chatgpt的賣價。卷了我多少錢！

點點點點點 發表評論於 2025-01-30 15:50:20

文明千萬不要和野蠻爭論，不在一個認知水平上

點點點點點 發表評論於 2025-01-30 15:48:53

abibas有沒有商標侵權adidas？這個問題的答案就能區分一個人是野蠻還是文明。

這裏同理

ajaychen_2024 發表評論於 2025-01-30 15:46:55

DEEPSEEK V1早在11月份發布，V3在12月份就發布了，微軟所說的“剽竊”隻能是在之前的一段內事件發生因為訓練模型需要時間，為什麽那時不告，早不報告晚不報告，偏偏要等到股市大跳水之後微軟才跳出來說。明顯是因為華爾街資本大佬們十分不滿，要撤資，微軟才跳出來為自己的AI高費低能辯護甩鍋，“都是他們DS偷的！老板不要撤資啊”

rayofday 發表評論於 2025-01-30 15:45:26

DS如果純粹是一家民間企業參與AI生態降低研發使用成本那我是擁護的。但是它不是，最近的DS episode參與了太多利益色彩。 DS的模型已經發布有一段時間了，有反響但不轟動。但是前一陣子幻方和DS高層頻頻與國務院和相關領導機構互動，就是要設局在媒體及各社區自媒體的配合下在新年前發布最新產品造成轟動效應，用粉紅的話說就是在AI領域對漂亮國發達科技反擊，證明厲害鍋在科技領域的領先地位和掀起一波新的愛國主義熱潮，讓漂亮國放棄對厲害鍋的科技封鎖。同時幻方作為量化機構非常熟悉花姐運作機製，在NASDAQ高位橫盤時事先做空美股然後放出利空，配合在美國各種媒體及網絡媒體的造勢，打出這一發讓花姐非常高興的子彈，造成NVDA及整個科技股大盤恐慌性砸盤，收割不明就裏的機構和散戶。這一波幻方/DS在股市收獲巨大，以致他們根本不需要在AI市場創收。被收割的也有不少逃離大A到美股討生的天朝股民。這一波政治和金融層麵的操作都非常高明，也非常邪惡????。

文學城普通人 發表評論於 2025-01-30 15:40:03

偷摸蒸餾是大家都用到一些，但是以大規模蒸餾作為手段也是絕少的，大規模蒸餾完了還要出來賣弄如何領先和成本優勢，那是僅此一家了。再加上資本集團的操控市場得利，愚蠢媒體被利用，AI大拿為開源背書的狂熱，所以就有了黑色星期一

老歌好聽 發表評論於 2025-01-30 15:38:23

給你科普一下，第一，開源指的是算法的一部分，不含數據。用來訓練的數據時AI的基礎，不花時間和金錢是得不到的。DS偷的就是用美國公司根據數據訓練而得到的結果，用來再次當作數據，因而被稱作蒸餾，象從米酒提煉白酒一樣。第二，Deepseek用從美國買來的幾個大模型的API提取數據，用來開發競爭產品，這是直接違反合同的。所以說DS就是一個貨真價實的山寨品
======================================]
Lira 發表評論於 2025-01-30 15:24:55既然“開源”了，不就是隨便別人使用嗎

Lira 發表評論於 2025-01-30 15:24:55

既然“開源”了，不就是隨便別人使用嗎？要不然，就用IP保護起來。
想起以前的大妓院，因為寫著免費，被人多拿（不管有意無意），不高興了，告到法院，結果人家法官說免費的東西，不能限製人拿。

橡皮潛艇 發表評論於 2025-01-30 15:24:21

離開open Ai，搞不到訓練資料，DS就什麽也不是。什麽時候中國人可以獨立生活？

ajaychen_2024 發表評論於 2025-01-30 15:20:47

看事情看兩麵，來看看當事人之一微軟的COPILOT怎麽說的：

COPILOT--
關於DeepSeek被指控偷竊模型訓練數據的問題，有一些討論和分析。

從技術角度來看，DeepSeek V3模型被指存在訓練數據抄襲的問題，產生了奇怪的“幻覺”，例如自稱是“GPT-4”，甚至連所講的笑話都與GPT-4高度雷同12。這種現象可能是由於訓練數據中混入了大量來自某個特定模型（例如GPT-4）的輸出內容，導致新模型學習到了該模型的“說話方式”甚至“思維模式”，從而在特定情況下表現出與該模型類似的特征1。

此外，這個問題也引發了關於AI內容版權的討論。現有的版權法難以完全適用於AI生成的內容，其“獨創性”在法律上仍存爭議，傳統內容創造者的利益也會受到影響1。例如，《紐約時報》起訴OpenAI和微軟等訴訟反映了這種焦慮1。

總的來說，DeepSeek的情況並非個例，其他大模型如Google的Gemini也曾出現過類似問題1。未來如何更好地對AI內容進行版權確定和使用，是一個需要解決的行業問題。

白雲藍天 發表評論於 2025-01-30 15:20:32

本人覺得 DeekSeek 的技術很大概率是中國自創的。在軟件開發方麵，中國的技術在很多方麵不比美國差，而且關鍵是隻要搞到頂尖水平的技術人員，就能做到。美國技術人員能夠創造一種軟件技術，難道中國技術人員連仿製的水平也沒有？！關鍵是中國極有可能在兩個方麵說謊，一個大大的說低了成本，二是隱瞞硬件技術，即通過獲得美國禁止出口中國的硬件才能夠創建出DeekSeek。

Wuweixiao 發表評論於 2025-01-30 15:17:00

一團漿糊，有時說竅取，有時說他們其實不便宜，其實慌的一比

白雲藍天 發表評論於 2025-01-30 15:12:51

"即一個新的人工智能模型透過向一個現有模型提出數百萬個問題，從中吸取其知識及模仿其推理過程。"——本人感覺靠這個是遠遠不夠的。

而且通過這種笨辦法（因為過程很繁雜，而結果很差）來建立一個新模型，還不如通過破解已有的人工智能的技術來建立一個新模型。

四月如風 發表評論於 2025-01-30 15:11:07

中共有本事自己弄出一個全新的車西，別老跟著人家屁股後麵。美國花大功夫搞出來了他們彎道超車。世界上沒有第二個國家如中共般無恥，抄襲偷竊簡真就刻到他們骨子裏。

橡皮潛艇 發表評論於 2025-01-30 15:08:28

川普說“AI”要回歸經濟規律，這個要挺

評論: DeekSeek靠“蒸餾”火出圈：到底是創新還是剽竊？