大家討論deepseek的點是什麽?無非就是通過優化算法和參數,用更少的資源達到和現有模型差不多的水平。
先不說NVDA。就說deepseek這個事情的意義是啥,其實就是現有模型,即使沒有底層原理的突破,目前也並不是最優的。
但是如果從應用上來講,兩條路子,一個是堆砌硬件和能源,一個是優化算法。但是兩者衝突麽?並不是。
因為現在還沒有達到scaling law的極限,就說deepseek吧,如果把OPENAI的資源給幻方,deepseek v3是不是能達到比GPT4o更優的表現?如果是,那麽對切硬件就還是有意義的。現在OPENAI肯定內部在想著優化他們算法的事情了。其他大公司也一樣。隻要scaling law還沒有達到極限,之前堆砌的硬件就還有意義,而且會繼續。
但是,對於小公司而言,deepseek的意義重大,因為他們搞不到OPENAI或者Tsla的資源,拿不到那麽多GPU,但是deepseek給了希望,這樣,他們也會開始搞自己的專屬模型,或許沒有那麽通用,但是在某一個方麵可以細調微調,從而達到可觀的效果。