說說Deepseek,取巧加吹牛,會撈一把,但走不遠的

本帖於 2025-01-27 12:14:01 時間, 由普通用戶 youtub 編輯

 

簡單說說Deepseek

Deepseek 采用混合專家(Mixture-of-Experts,MoE)架構, 創新之處包括細粒度專家細分和共享專家隔離,提升了 MoE 架構的效率和性能。(這是國內的說法)

但是訓練它需要高質量的數據。它提出之初就有人懷疑利用chatgpt的輸出作為訓練數據。所以有人對Deepseek提問你是哪個模型,deepseek回答我是chatgpt. 

openAI是真正的從零開始,利用原始數據和追求通用智能。Deepseek所謂訓練量隻有chatGPT的1/30是誇大了,因為沒有計入獲取高質量數據的成本。現在也有質疑deepseek故意縮小了它擁有的GPU卡數量和訓練計算量。

另外它的通用智能上限也不如從原始數據中生成的大模型高。

再就是開源,拿訓練好的用,當然可以。但要驗證它的訓練量,要花大量金錢,它現在不怕訓練計算量的驗證,就是因為有這個高花費的門檻。

Deepseek實際是取巧加吹牛,走不遠的。上麵內容昨天在紫檀發過,被刪。今天什麽遭大規模攻擊宕機的說法就來了,隻開放大陸注冊了。
開發它的幻方公司用的是國內2流人才,做的量化交易也虧空不少。現在有消息說幻方已經做空NVDA,要撈一把了.
 
 
請您先登陸,再發跟帖!