我也不懂,轉一篇別人的文章:Deepseek 就是AI界的奧德標,二八自行車在山路上跑得飛快,開大奔的看著目瞪口呆

回答: 關於DeepSeek,這樣理解對不對?臨淵觀股2025-01-26 18:43:17

個人看法,大概可以這麽簡單說一下Deepseek的技術特征:

算力算法。 Deepseek 突破了美國製裁以及幻化量方自身投入的算力瓶頸,突破性的引入了“混合精度”算法,能用8位精度解決的問題,打包後放入64位GPU運算單元執行,另外還有對矩陣計算進行優化,類似於通過對稀疏矩陣的某些,局部降低矩陣計算的維度。依靠以上兩門絕技,大大提高了運算效率。

訓練學習方法。deepseek的團隊基因就是小鎮做題家。預訓練材料精簡,類似於小學到高中,沒用的閑書可以不看,集中學習數學和編程,所謂學好數理化,走遍天下都不怕,邏輯推理分析能力訓練好了,少年班或數理強化班的學生大學畢業走上社會,搞金融法律醫學等等隻需要再學上幾本專業書摸爬滾打一番,都可以很快上手成才。相比之下Openai的貴族們從小博覽群書,三字經唐詩宋詞九章算術背了兩千年,積累不少卻難以飛躍,直到近代才打通經脈有所飛躍。從能力上來說,綜合網上的一些評估,deepsek的強項就是數學和編程,其他方麵可能不夠全麵,個人體會其答案也有理工男的特征。

還有在增強學習(RL)方麵,Deepseek 不大重視每個步驟的準確率,解題過程中,憑直覺或記憶給出的推導過程可以省略,答案對了,你管我做題推導過程中有沒有跳步驟呢。這樣做題就快,萬一做著做著發現有問題,我再回頭檢視我跳過的步驟,也許有錯就糾正,這個就是Deepseek的所謂aha moment, 這樣做題推理就比一步步死推要快,按照這個思路需練好的小模型在手機上都能開跑。

蒸餾 distill能力。 Deepseek 這個能力也很有意思,奧數培訓老師可以把做題方法教給一些不同背景的集訓班學生,讓學生做題能力突飛猛進,甚至做到青出於藍而勝於藍,因為這個學生可能讀過老師沒讀過的奇書,或者沒有老師老腦筋的負擔。

總而言之, 我們應該肯定Deepseek 在AI技術上的突破,打個比方來說,依靠deepserk的訓練方法,應該可以用比較低的投入培養出一批有用的技術人才,但是要出現腦洞大開牛頓愛因斯坦,可能還要依靠Openai潛在的發散性思維。

 
請您先登陸,再發跟帖!