當你下載一個所謂開源的 AI 模型譬如 DeepSeek ,大體得到這些:
訓練後模型權重,譬如神經網絡的參數,可多達幾十億個。訓練後模型權重包容了訓練學到的所有知識,一般是用二進製文件存儲。
而源碼文件僅僅包括模型架構(定義模型如何處理輸入並生成輸出),以及分詞和其他必須的預處理程式,主要幫用戶將輸入文本轉換為模型能夠理解的格式。有的還會提供精調源碼文檔,幫用戶將大模型學習結果更精細調校到本地數據,譬如從金融界收集的信息。
但沒人會公開其大語言學習模型的源碼,那是真真的商業機密。所以deepseek公司如果聲稱它訓練到chatgpt水平隻花了chatgpt三十分子一成本,外人是很難驗證的。