簡單說說Deepseek
Deepseek 采用混合專家(Mixture-of-Experts,MoE)架構, 創新之處包括細粒度專家細分和共享專家隔離,提升了 MoE 架構的效率和性能。(這是國內的說法)
但是訓練它需要高質量的數據。它提出之初就有人懷疑利用chatgpt的輸出作為訓練數據。所以有人對Deepseek提問你是哪個模型,deepseek回答我是chatgpt.
openAI是真正的從零開始,利用原始數據和追求通用智能。Deepseek所謂訓練量隻有chatGPT的1/30是誇大了,因為沒有計入獲取高質量數據的成本。現在也有質疑deepseek故意縮小了它擁有的GPU卡數量和訓練計算量。
另外它的通用智能上限也不如從原始數據中生成的大模型高。
再就是開源,拿訓練好的用,當然可以。但要驗證它的訓練量,要花大量金錢,它現在不怕訓練計算量的驗證,就是因為有這個高花費的門檻。