DeepSeek一直於用別的AI模型產生的synthetic數據去訓練大型語言模型(LLM):
https://arxiv.org/abs/2405.14333
去年 OpenAI 推出ChatGPT o1版, 其特點是用 reinforcement learning(RL) 訓練讓 LLM 去“想”
https://platform.openai.com/docs/guides/reasoning
接著,DeepSeek學的很快,並把 synthetic data 與 reinforcement learning 結合起來推出 DeepSeek r1
https://api-docs.deepseek.com/news/news250120
這就是中國研究工作的多快好省特點.