評論:OpenAI稱有證據顯示DeepSeek存在侵權行為

旁觀者XWY 發表評論於 2025-01-29 18:50:00

model distillation 是一種模型訓練方式。它需要一個更多參數的大模型作為輸入，訓練一個參數少的小模型。就像老師教學生，學生青出於藍而勝於藍也是有的。

旁觀者XWY 發表評論於 2025-01-29 18:35:00

衡山老道話說的太滿，文學城裏眾人皆知。邊上等得抓耳撓腮，發言又被人嘲笑。

藍天大地 發表評論於 2025-01-29 17:55:51

哈哈哈哈哈，是，正在學。以後的打算是米國住大半年，日本住小半年。

------------------------------------------------

駐日評論員發表評論於 2025-01-29 17:25:35好奇問一下，藍天大地網友也會日文麽？
大統領是日語中對美國（還有韓國）總統的稱呼，
其權限比總統這個稱呼的要大（比如台灣的總統）。。

你來我往 發表評論於 2025-01-29 17:41:38

既然有證據證明偷竊，那就出示證據走法律程序，還等什麽？人家開源免費下載，又說是為了獲取個人數據。那其它開源的模型或應用程序又是為了什麽？似曾相識的套路已在路上。反正你不能比我好，否則要麽是偷，要麽是心懷不軌。偷笑不止！

駐日評論員 發表評論於 2025-01-29 17:25:35

好奇問一下，藍天大地網友也會日文麽？
大統領是日語中對美國（還有韓國）總統的稱呼，
其權限比總統這個稱呼的要大（比如台灣的總統）。。

矽穀工匠 發表評論於 2025-01-29 16:29:34

In USA a lawyer trumps the president at any time. This is crazy.

麥迪拉 發表評論於 2025-01-29 16:10:46

查一下，哪家美國AI 公司現在沒有侵權官司

Maui2021 發表評論於 2025-01-29 15:28:03

用不著拍華人馬匹。小偷就是小偷。你們幹的事情，大家不背鍋。

山老道發表評論於 2025-01-29 10:54:12若按種族劃分，華人在AI領域遠超其他種族，無論是在在頂級會議的論文數，還是在主要玩家中核心科技人員數。
國內的AI水平和美國差別不大，在頂級會議上的論文也僅次於美國，若把美國華人除外，美國毫無優勢。

罵人不好 發表評論於 2025-01-29 14:29:39

剛才查了一下，在意大利下架好像還是收集個人數據的數據安全的原因。

罵人不好 發表評論於 2025-01-29 14:22:58

哈哈哈，這事打成了一鍋粥。前兩天還說讓子彈飛一會，這麽快就破防了？

這裏肯定有真懂AI的，不過多數應該都是初學者。不過還是讓子彈再飛一飛。如果這麽快就破防，人就丟大了。

會當淩絕頂1 發表評論於 2025-01-29 13:19:43

樓下“衡山老道”罵街，證明他自己才是一個AI盲、GPT盲，頂多一知半解！
+100

搞笑藍天大地發表評論於 2025-01-29 12:39:19
衡山老道，這就是你的不對了。你沒看伯克利計算機博士專家們的分析嗎。您也是這方麵的專家？那就拿出您的專業知識反駁唄，別啥都沒說的瞎逼逼了。

不過呢，您在城裏的名聲是太差了，幾乎沒有人相信您的話。這個是因為您的嘴巴比鴨子還硬，輸了或說錯話了也堅決不承認。您說您還有啥信用。

我是川黑，還是個深度川黑。但這並不妨礙我接受他做總統，也不妨礙我承認我被那個狗屁Selzer民調誤導了，更不妨礙我讚同川普的一些政策，比如所反變性和同性戀法案，反非移法案（我隻是反對大規模抓捕而已）等等。大家都知道我對大加州和華盛頓州的態度，但並不妨礙我罵加州大小官員是狗官啊。現在我還是看大統領極為不順眼呀，一樣的想罵就罵。這又沒有什麽關係的。

您當初誤測了博洛西的事情，說了個重誓。出來跟道個歉，說您錯了，很難嗎？要不您換個馬甲也行啊。這樣至少在這裏您說的話好歹也值個五毛錢，您說是不？

啊哈哈哈哈哈哈哈。

會當淩絕頂1 發表評論於 2025-01-29 13:15:48

最新：突發！Deepseek已經從意大利的蘋果商店和穀歌商店下架

破棉襖 發表評論於 2025-01-29 12:58:05

隱含的完整故事應該是這樣的：一個中國大廠（可能是抖音），訂閱企業版的ChatGPT，用其API沒日沒夜的問問題，記錄答案，用這些問題和答案訓練“自己的”大模型。去年這種方法被OpenAI發現了，終結了其使用ChatGPT賬戶。大廠自己不敢發表如此搞出來的大模型，害怕吃官司，被索賠，但是抱在懷裏又心有不甘，就找個十分失敗的小公司（幻方，開發AI炒股軟件，讓他的客戶虧掉褲子）當殼，去發表這個模型，看看外界的反應。如果反應好，以後自己就放手幹。如果招致訴訟，製裁，索賠等糟心事，就由幻方這個破公司扛著，大不了倒閉關門。

蛋蛋88 發表評論於 2025-01-29 12:57:11

這不是廢話嗎，互相用對方結果早就是LLM最常見的操作，早些時間你問Bard/Gemini 問題Google的模型照樣說自己是OpenAI, baidu最開始也一樣，行業標準操作沒什麽奇怪的。CloseAI在這裏指認侵權有些搞笑

藍天大地 發表評論於 2025-01-29 12:39:19

衡山老道，這就是你的不對了。你沒看伯克利計算機博士專家們的分析嗎。您也是這方麵的專家？那就拿出您的專業知識反駁唄，別啥都沒說的瞎逼逼了。

不過呢，您在城裏的名聲是太差了，幾乎沒有人相信您的話。這個是因為您的嘴巴比鴨子還硬，輸了或說錯話了也堅決不承認。您說您還有啥信用。

我是川黑，還是個深度川黑。但這並不妨礙我接受他做總統，也不妨礙我承認我被那個狗屁Selzer民調誤導了，更不妨礙我讚同川普的一些政策，比如所反變性和同性戀法案，反非移法案（我隻是反對大規模抓捕而已）等等。大家都知道我對大加州和華盛頓州的態度，但並不妨礙我罵加州大小官員是狗官啊。現在我還是看大統領極為不順眼呀，一樣的想罵就罵。這又沒有什麽關係的。

您當初誤測了博洛西的事情，說了個重誓。出來跟道個歉，說您錯了，很難嗎？要不您換個馬甲也行啊。這樣至少在這裏您說的話好歹也值個五毛錢，您說是不？

啊哈哈哈哈哈哈哈。
------------------------------------------------
衡山老道發表評論於 2025-01-29 12:12:02一幫SB科盲，還班門弄斧，充當專家。

衡山老道 發表評論於 2025-01-29 12:16:18

BMC：這個更可笑。有很多專門做性能測試和比較的專家，DS在數學等方麵略超OAI，這是能抄的？

衡山老道 發表評論於 2025-01-29 12:12:02

一幫SB科盲，還班門弄斧，充當專家。

衡山老道 發表評論於 2025-01-29 12:10:54

TitaniumAtlas ：
你是典型的不懂裝懂。沒有原來的知識庫，怎麽提取好的數據集？怎麽保證提取的數據集不丟失主要特征？

小毛er 發表評論於 2025-01-29 12:09:39

是不是蒸餾OpenAI看下他的模型代碼就知道了。不是開源的嗎？應該很容易看得出來。

會當淩絕頂1 發表評論於 2025-01-29 11:59:20

+100
TitaniumAtlas 發表評論於 2025-01-29 11:49:40
數據集蒸餾旨在從大規模數據集中提取關鍵信息，生成一個小型合成數據集，使得在該小型數據集上訓練的模型能達到與原始大數據集相當的性能。這種方法不僅降低了存儲需求，還提高了訓練效率。
這需要開源模型？
xx就是借用了openai的第一步，也是耗資最大最複雜的一步。

BMC 發表評論於 2025-01-29 11:54:21

衡山老道發表評論於 2025-01-29 10:40:45
ChatGPT4不開源，DeepSeek 如何拿到模型？沒模型如何蒸餾？
===================
DeepSeek 並不是直接取用OpenAI 的原始數據庫，而是直接取用ChatGPT回答用戶的答案。例如，如果你問ChatGPT 一加一等於多少，它會從它的數據庫先取第一個”1”, 再取一個”+”, 再取第二個”1”, 再取一個”=“, 然後根據小學數學書教的方法計算出結果是”2”. 最後它給出用戶答案是 1+1 = 2。有一個網站 ShareGPT專門收集ChatGPT回答用戶的答案，它是公開的。DeepSeek 就是從這個網站還有其它來來源收集ChatGPT答案作為自己的數據庫來訓練。如果你問它一加一等於多少，它不會跟你算，而是直接使用ChatGPT已經算好了的1+1 =2 回答用戶。它本身並不需要象ChatGPT那樣計算，而是直接用它的計算結果。

cacu 發表評論於 2025-01-29 11:47:00

集體訴訟Open AI侵權。免費無節操抓取互聯網內容聊天室內容

衡山老道 發表評論於 2025-01-29 11:45:11

TitaniumAtlas：你這SB做我的學生都不夠格。

衡山老道 發表評論於 2025-01-29 11:24:44

贏家—》硬件

衡山老道 發表評論於 2025-01-29 11:24:03

國內由於贏家的原因，就把注意力放在如何減少訓練時間上，搞出各種優化不奇怪。現在的大模型太原始，必須要有更好的模型。但短期內提出更好的模型不現實，在現有模型上做各種優化，減少參數個數，減少訓練時間，是可行的。

衡山老道 發表評論於 2025-01-29 11:15:43

藍天大地: 你不懂就不要瞎BB，即使用OpenAI最新模型蒸餾，也不可能蒸餾出性能還略勝原模型的小模型。

TXZS 發表評論於 2025-01-29 11:11:18

樓下有人說

有人問deepseek：你叫什麽名字?
deepseek回答：我叫chatgpt。

自己試試不就知道了嗎？

整天人雲亦雲，散播謠言，有意思嗎？

藍天大地 發表評論於 2025-01-29 11:10:45

你急什麽。事情太反常了就必有妖。你忘記當初漢芯剛發布時的全麵皆嗨的時候了？漢芯當時可是遙遙領先的。。。。。。

啊哈哈哈哈哈哈。

TXZS 發表評論於 2025-01-29 11:06:09

“消息人士稱，微軟安全研究人員在2024年底發現大量數據通過OpenAI開發者賬戶被泄露，微軟公司認為這個賬戶與DeepSeek存在關聯。”

2024年底發現，現在才披露？！等什麽呢？

證據在哪兒呢？曬出來讓大家開開眼？

藍天大地 發表評論於 2025-01-29 11:04:26

傻逼毛毛都看不懂英文嗎？不知道不開源的東西也可以偷嗎？不知道拿數據是合法的但是要簽協議的嗎？不知道OpenAI和MSFT說已經有證據了嗎？

你們用你們的腳趾頭想一下，6百萬不用大型數據模型能夠打敗幾百億的利用數據模型的ChatGpt嗎？你們不讀世界排名第一的伯克利大學軟件工程博士的分析嗎？

就問一個問題，你們為什麽那。麽。蠢。？

衡山老道 發表評論於 2025-01-29 10:54:12

若按種族劃分，華人在AI領域遠超其他種族，無論是在在頂級會議的論文數，還是在主要玩家中核心科技人員數。
國內的AI水平和美國差別不大，在頂級會議上的論文也僅次於美國，若把美國華人除外，美國毫無優勢。

衡山老道 發表評論於 2025-01-29 10:45:08

以前開源的，原模型的性能都不行，能蒸餾出性能還超過OpenAI的最新模型？
一幫反共反華的NC不學無術，隻知道噴糞。

luting 發表評論於 2025-01-29 10:40:59

競選發表評論於 2025-01-29 09:38:19我初步理解，deepseek就是在chatgpt的基礎之上再做些修改（進一步學習）而得到的模型。模型迭代是一種改進模型的常用手段，chatgpt4就是openai多次迭代chatgpt初始版本後的結果

##################################3
第一，你可以對deepseek修改提高，公司也允許你這麽做，但是對不起，ChatGPT沒有開源，除非有證據顯示他們盜取了ChatGPT源代碼和Weight；
第二，兩個模型完全不同，CHATGPT比DEEPSEEK大很多
第三，你讓CHATGPT自己再訓練一遍，看看需要花費多少算力，你自己都做不到。當然，你可以從犄角旮旯找出侵權不分，這對任何兩個競爭產品都不難

衡山老道 發表評論於 2025-01-29 10:40:45

競選發表評論於 2025-01-29 09:48:11 矽穀工匠發表評論於 2025-01-29 09:27:52有一點道理，但是沒有任何證據。
-----------
證據是：

有人問deepseek：你叫什麽名字?
deepseek回答：我叫chatgpt。
～～～～～～～～～～～～～～～
隻有你這種科盲才會相信這種低級謠言。
說DeepSeek用蒸餾技術把OpenAI的模型縮小，是典型的無知言論。ChatGPT4不開源，DeepSeek 如何拿到模型？沒模型如何蒸餾？

TMD，一幫科盲瞎BB。

luting 發表評論於 2025-01-29 10:33:41

可以理解，幹不過，隻能用法律手段了給你設絆腳石。

groogle 發表評論於 2025-01-29 10:28:27

除了偷就是騙哈哈哈老一套了所謂的不吃那一套

愛閱讀的人 發表評論於 2025-01-29 10:26:00

隻能用這個方式來打對方了

矽穀工匠 發表評論於 2025-01-29 10:22:50

天下文章一大抄，現在有了律師。

Maui2021 發表評論於 2025-01-29 10:17:10

deepseek崩塌的有點快。哈哈。

benzihex 發表評論於 2025-01-29 10:06:29

現在業內專家都在做分析。論文，模型都是公開的。OpenAI說管屁用。他用偷來的數據，做出閉源的模型。大家都想看他出糗呢。

競選發表評論於 2025-01-29 10:04:55

有人在YouTube上發表演講，題目為“Deepseek錯報家門: 我是chatGPT4?! 揭秘Deepseek身世: 官方論文有真相! 低廉成本是騙局?!”：

youtu.be/1O0_lrqtVCY?si=WYJG6JuW56m6jq0o&t=150

演講者本人親自出麵，那就是敢於為她演講的內容負法律責任的意思。

競選發表評論於 2025-01-29 09:48:11

矽穀工匠發表評論於 2025-01-29 09:27:52有一點道理，但是沒有任何證據。
-----------
證據是：

有人問deepseek：你叫什麽名字?
deepseek回答：我叫chatgpt。

會當淩絕頂1 發表評論於 2025-01-29 09:46:33

新聞1: OpenAI稱有證據顯示DeepSeek存在侵權行為。OpenAI在最新聲明中表示，“我們知道（中國）的公司以及其他公司正在不斷嚐試從美國領先人工智能公司的模型中提煉（它們需要的東西）。”
新聞2: DeepSeek竊取OpenAI數據？微軟正展開調查。

假設，如果，我說的是“如果”，個別人模仿抄襲、偷偷摸摸，難免遭到大家質疑！
依靠“不明不白”數據、非國際原創算法、非革命性優化、後發AI開源、修、補、“不明不白”數據、白菜價，等等，並不能說明實質和關鍵問題！
塞克斯說：「很多證據顯示，DeepSeek從OpenAI的模型中進行知識蒸餾。OpenAI應該不太高興。」
AI獨角獸Scale AI 執行長 Alexandr Wang日前受訪時踢爆，Deepseek擁有大約5萬個輝達最先進的H100 GPU，且擁有的數量比外界想像的更多。
　　美國AI新創公司Scale AI 執行長 Alexandr Wang 日前接受CNBC采訪接爆料，Deepseek擁有大約5萬個英偉達最先進的H100 GPU。
　　米爾斯說，這是一場打地鼠遊戲。
　　耶魯大學管理學院副院長索南菲爾德（Jeffrey Sonnenfeld）也告訴CNN， DeepSeek崛起要嘛是“史普尼克時刻”（Sputnik Moment）時，要嘛是波坦金時刻（Potemkin Moment）。亦即，DeepSeek可能帶來真正的破壞性，也可能是欺騙性的，依賴於出口製裁之前囤積的輝達芯片和其他芯片。

矽穀工匠 發表評論於 2025-01-29 09:46:10

藍天和大地絲毫不反對你的意見。隻是，那些畫畫的軟件都是偷原作然後篡改。沒人全幹淨

灣區範兒 發表評論於 2025-01-29 09:43:52

別忘了中國十多年前還研製成最先進的漢芯芯片,結果卻揭露出來是騙局。

藍天大地 發表評論於 2025-01-29 09:43:28

這不就是拿著我幸幸苦苦做出來的3D地球模型，然後在澳洲上麵多加點森林，讓整個球變得更好看一些嗎？沒有老子的球，你能做出這個讓澳洲更綠的球嗎？（哈哈哈，怎麽覺得這麽拗口）

啊哈哈哈哈哈哈哈。

藍天大地 發表評論於 2025-01-29 09:39:27

兄弟，知道用OpenAI的數據是要簽協議的不？協議上明確規定不能用來做某事而你還是做了，不就是偷嗎？chapgpt從垃圾掩埋場所去全部數據，您是怎麽知道的？再退一步說，您知道哪個垃圾掩埋場有這種協議要簽的嗎？大家都偷，不表示偷就是對的呀。更何況還遠遠不是大家都偷呢。

洗這種地沒有意思哈。

------------------------------------------------
矽穀工匠發表評論於 2025-01-29 09:27:52

競選發表評論於 2025-01-29 09:38:19

我初步理解，deepseek就是在chatgpt的基礎之上再做些修改（進一步學習）而得到的模型。模型迭代是一種改進模型的常用手段，chatgpt4就是openai多次迭代chatgpt初始版本後的結果。這種迭代由openai自己做沒有問題，但是別的公司利用openai的模型去做迭代獲得的模型，就是剽竊行為，相當於拿別人的論文做些修改後當作自己的論文送去發表。

ca_lowhand 發表評論於 2025-01-29 09:37:00

ds也知道自己是偷數據行為所以直接開源了。但他也給商業用戶收費來盈利，所以的確是有侵權行為。

矽穀工匠 發表評論於 2025-01-29 09:27:52

有一點道理，但是沒有任何證據。chapgpt從垃圾掩埋場所去全部數據，別人用精煉的數據訓練模型。沒毛病。大家都會這樣幹。

評論: OpenAI稱有證據顯示DeepSeek存在侵權行為