DeekSeek靠“蒸餾”火出圈:到底是創新還是剽竊?

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

中國新創公司深度求索(DeepSeek)研發的DeepSeek大型語言模型最近“出圈”爆火。 (Florence Lo/路透社)

中國新創公司深度求索(DeepSeek)研發的DeepSeek大型語言模型最近“出圈”爆火。不過有評論指出,DeepSeek是依靠 “蒸餾” OpenAI 模型的數據來幫助開發自家技術。這其中是否涉及竊取或者抄襲?中國的AI產業是否真的實現了“ 彎道大超車”,還是靠宣傳自嗨了一把?以下請聽本台記者凱迪的報道。

本周,科技和外交政策圈都在關注一則消息,即中國開源推理大型語言模型DeepSeek-R1 被發現在多項核心任務測試中的表現與 OpenAI 的模型相當,而其開發成本僅為560 萬美元,不到競爭對手的十分之一,並且使用的是英偉達相對低端的H800芯片。

依靠 “蒸餾”開發自家技術?

不過,美國總統特朗普的人工智能沙皇薩克斯1月28日對美國福克斯新聞(Fox News)表示,DeepSeek使用了一種名為“蒸餾”的人工智能訓練方法,即一個新的人工智能模型透過向一個現有模型提出數百萬個問題,從中吸取其知識及模仿其推理過程。

當被問及 DeepSeek 是否竊取了美國的知識產權時,薩克斯說這是“可能的”。他指出:“有充分的證據表明,DeepSeek在這裏所做的就是從OpenAI的模型中提取知識,我認為OpenAI對此不太高興。” 他認為,美國的人工智能公司將采取措施,以保護他們的模型不被“蒸餾”,而這肯定會減緩山寨模型的發展速度。

美國《華爾街日報》報道指出,“蒸餾”技術已經被人工智能開發者使用多年,但從未取得像DeepSeek這樣的成功。測試顯示,DeepSeek創建的模型與OpenAI和穀歌的模型得分幾乎一樣高,而成本卻遠比競爭對手低。

竊取技術還是創新?

DeepSeek真的是靠“蒸餾” OpenAI 的數據來實現“彎道超車”的嗎?據美國彭博社周二(28日)引述知情人士報道,OpenAI和微軟正在調查DeepSeek 是否以未經授權的方式, 獲取了源自OpenAI技術的數據輸出。去年秋季, 微軟的安全研究人員觀察到可能與DeepSeek有關聯的個人,使用OpenAI應用程序編程接口(API)竊取了大量數據。

OpenAI 還對英國《金融時報》表示,他們已經看到了“蒸餾”的證據,盡管他們並未公開這些證據。

據日本媒體《日經亞洲》周四(30日)報道,蒸餾並非新技術,也不一定都具有爭議性。自 2024 年以來,隨著企業對於使用大型語言模型 (LLM) 的需求增加,蒸餾變得越來越受歡迎。日本一家 AI 初創公司的工程師表示,大型語言模型難以處理,這需要大量昂貴的圖形處理單元 (GPU)。而蒸餾可大大縮短開發時間與成本,開發出比大型模型運行速度更快的模型。

報道指出,DeepSeek 的問題在於其低成本模型是否“更多地基於蒸餾而不是創新”。對此,Astris Advisory Japan 分析師 Kirk Boodry 說:“他們是否能夠使用現有的大型語言模型來提煉他們的結果是一個問題。這似乎在討論中出現了很多次。人們說,‘我不知道這其中有多少是真正前沿的。’”

Omdia 谘詢總監 Kazuhiro Sugiyama 則指出,DeepSeek的影響隻是“暫時且有限的”,業界仍需驗證其持久性。分析師也懷疑DeepSeek的開發預算是否真的那麽小。Boodry 說,當人們談論 DeepSeek的開發時間和費用時,他們談論的是這個非常具體的模型:“人們隨意給出的數字可能太低了。”

有評論指DeepSeek是依靠 “蒸餾” OpenAI 模型的數據來幫助開發自家技術。 (Dado Ruvic/路透社)

不過,美國信息技術與創新基金會的人工智能問題專家霍丹·奧馬爾(Hodan Omarr)以書麵方式告訴自由亞洲電台,DeepSeek 的確取得了一些值得認可的創新成就:“DeepSeek 的效率和性能源自多項創新的結合。其關鍵策略之一是混合專家 (MoE),即通過允許模型的不同部分專注於特定任務來降低訓練成本。它還應用數據量化來顯著縮小 AI參數,同時保持準確性。為了優化硬件性能,DeepSeek 將 GPU 工作負載劃分到多個處理器上以加快計算速度,並采用 CPU 協調技術來高效管理大數據流。”

展望未來,《日經亞洲》引用專家Sugiyama的預測說,人工智能模型未來將逐漸“兩極分化”,微軟和穀歌等大公司將繼續投資於更大、更強的模型用於其服務,而較小的公司則開發更小、更便宜而高效的模型,以適合有針對性市場。 另一位人工智能工程師也表示,縮小人工智能模型的規模是個大趨勢:“隨著時間的推移,將會有很多方法來實現這一點。”

DeepSeek實現“彎道超車”是媒體炒作?

過去一周,DeepSeek的出現被形容為中國向矽穀投下的一枚震撼彈,令美國在人工智能領域的主導地位受到空前質疑。投資者一度拋售了一萬億美元的科技股,納斯達克指數一度下跌超過3%。同時,在中國社交媒體上,DeepSeek引發熱議,被視為中國AI能力超越美國的證據,之前美國遏製中國半導體與AI硬件設備的努力似乎付之東流。

其實,中國媒體去年就曾關注到DeepSeek以超低成本開發大型語言模型DeepSeek V2,並說“今天開始,GPT4級大模型進入白菜價時代”。

去年7月, DeepSeek創建人梁文鋒在接受中國科技新聞門戶網站36氪采訪時,對於為何DeepSeek V2會讓矽穀的很多人驚訝的問題回應說:“他們之所以驚訝,是因為這是一個中國公司,在以創新貢獻者的身份,加入到他們遊戲裏去。畢竟大部分中國公司習慣follow(跟著走),而不是創新。”

他談到,中國和美國在AI領域“真實的gap(差距)是原創和模仿之差”。如果這個不改變,中國永遠隻能是追隨者,所以有些探索也是逃不掉的。他還指出,英偉達的領先,不隻是一個公司的努力,而是整個西方技術社區和產業共同努力的結果。他們能看到下一代的技術趨勢,手裏有路線圖。中國AI的發展,同樣需要這樣的生態。中國必然需要有人站到技術的前沿。

DeepSeek真的已經“彎道超車”、站到技術的前沿了嗎?據全國廣播公司商業頻道(CNBC) 報道,微軟CEO薩蒂亞.納德拉日前在瑞士達沃斯世界經濟論壇上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他們切實有效地開發出了一款開源模型,在推理計算方麵表現出色,且超級計算效率極高……我們必須非常、非常認真地對待中國的這些進展。”

不過,美國國防科技公司Anduril Industries創辦人拉奇(Palmer Luckey)29日在福克斯財經(FOX Business)節目專訪中指出,媒體鋪天蓋地引述DeepSeek說法,稱其如何以超低成本訓練出一個可與美國數十億美元開發的聊天機器人匹敵的AI模型。但這些消息的炒作成分居多,外界不必過度相信,也不要“上了中共宣傳的當”。

拉奇指出,DeepSeek並未完整公布他們開發兩種模型的成本,媒體也忽略了DeepSeek仍有很大部分的基礎設施成本不為人知。他表示:“症結在於,他們公布這個數字的目的,就是為了重挫美國公司。”

據最新消息,DeepSeek 應用已從意大利的穀歌和蘋果 App 商店中下架。雖然官方未解釋確切原因,但路透社等媒體注意到,意大利隱私監管機構 Garante 此前對 DeepSeek 提出的數據存儲地點及隱私問題。白宮新聞秘書日前也提到,官員們正在調查該應用程序對國家安全的影響。

截至發稿,DeepSeek尚未回複本台相關置評請求。

查看評論(78)