相信嗎?李開複:中國大模型與美國僅差6個月

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
(被閱讀 次)

剛剛在上周開過發布會的零一萬物創始人李開複,時隔不到一周再一次在線上親自和小部分媒體溝通,並在溝通會的開始就表示“難掩興奮,所以希望馬上開發布會和大家分享這個消息。”

這個讓李開複無比興奮的消息就是,零一萬物提交的“Yi-Large” 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第七的成績。

過去一年的模型能力大戰中,每次新模型的發布,模型能力Benchmark評分就會作為標準動作被同時公布,來評測模型的各種綜合能力。但是,究竟如何解讀這些評分?哪些才是有公信力的評測標準集,行業內並沒有統一的標準。

但是在Gpt-4o發布後,OpenAI CEO Sam Altman親自轉帖引用 LMSYS arena 盲測擂台的測試結果。

為什麽Sam Altman會引用LMSYS 的結果?為什麽在這個榜單取得成績會讓李開複興奮不已?

LMSYS Org發布的Chatbot Arena,關鍵詞是盲測和開放。用通俗的語言來描述就是,它的模式是通過眾包的方式對大模型進行匿名評測,用戶可以在官網輸入問題,然後由一個或者多個用戶並不知道品牌的大模型同時返回結果,用戶根據自己的期望對效果進行投票。

在收集真實用戶投票數據之後,LMSYS Chatbot Arena還使用Elo評分係統來量化模型的表現,進一步優化評分機製,力求公平反應參與者的實力。最後用Elo評分係統來得出綜合得分。通俗地來講,在Elo評分係統中,每個參與者都會獲得基準評分。每場比賽結束後,參與者的評分會基於比賽結果進行調整。係統會根據參與者評分來計算其贏得比賽的概率,一旦低分選手擊敗高分選手,那麽低分選手就會獲得較多的分數,反之則較少。

評測界麵

在海外大廠高管中,不隻Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的性能。OpenAI、Google等自身的旗艦模型發布後第一時間提交給LMSYS,本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。

美國時間2024年5月20日剛刷新的 LMSYS Chatboat Arena 盲測結果,來自至今積累超過 1170萬的全球用戶真實投票數:此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B,也包含了各家大廠的閉源模型。

在這個榜單上,我們也看到了中國大模型的身影,智譜GLM4、阿裏Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,零一萬物提交的“Yi-Large” 千億參數閉源大模型總榜排名第七,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評測,開始注重全球大模型的多樣性。Yi-Large的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。

“中國大模型與OpenAI旗艦模型的差距已經從7-10年縮短到了6個月。”李開複在線上溝通會上興奮地表達。同時,他還呼籲“無論是出於自身模型能力迭代的考慮,還是立足於長期口碑的視角,大模型廠商應當積極參與到像Chatbot Arena這樣的權威評測平台中,通過實際的用戶反饋和專業的評測機製來證明其產品的競爭力。這不僅有助於提升廠商自身的品牌形象和市場地位,也有助於推動整個行業的健康發展,促進技術創新和產品優化。”

同時,李開複也十分直接地抨擊了“作秀式的評測方式”,他指出“相反,那些選擇作秀式的評測方式,忽視真實應用效果的廠商,模型能力與市場需求之間的鴻溝會越發明顯,最終將難以在激烈的市場競爭中立足。”

在簡短的媒體溝通會上,李開複也坦誠回答了媒體關於模型評測的客觀性、模型成本下降、全球大模型競爭差距等問題,以下為部分訪談內容實錄:

Q:Yi-Large確實在中國大模型排名第一,但是確實前麵還有國外大廠模型,您認為造成這個差距的原因主要是什麽,是人才嗎?如何追趕?

李開複:謝謝,我覺得首先我們也不能確定自己是中國第一,因為中國隻有三個模型參加,我們也希望以後可以更確定的驗證這一點。

但我也不是特別認為我們跟全球有差距,當然你要用他們最好的對我們最好的是有一定的差距,但是同時可能要考慮到他們比如說Google團隊是2000人,OpenAI是1000人,在我們這裏把模型加infrastructure加起來也不到100人,而且我們用GPU算力做這個訓練不到他們的1/10,我們的模型尺寸也不到他的1/10。

換一個角度來說,如果隻評估千億模型,至少在這個排行榜上是世界第一,這些點我們還是很自豪,在一年前我們落後OpenAI跟Google 開始做大模型研發的時間點有7到10年,現在我們跟著他們差距在6個月左右,這個大大的降低。

這6個月怎麽來?可以回到LMSYS 6個月以前的榜,或者今天比我們排名在前麵的幾家,幾乎都是今年發出來的模型,去年的模型還在榜單上,我們已經打敗了。

另外一個角度看,今天我們發布的這個模型在5月的時候可以打敗去年11月之前的任何模型,所以我覺得也可以科學的推理出我們落後6個月。

6個月的差別我覺得不是很大,我覺得是一個不可思議的超級速度的趕追,這些方麵我還是非常自豪。

如果你說美國人才有沒有獨特的地方?肯定是有的,從我寫的《AI·未來 》這本書之後,我一直都堅持美國是做突破性科研,創造力特別強的一批科學家,在這方麵在全世界是沒有對手的。

但是在同一本書裏我也說了,中國人的聰明、勤奮、努力是不容忽視的,我們把這7-10年降低到隻有6個月,就驗證了做好一個模型絕對不隻是看你多能寫論文,多能發明新的東西,先做或後做,做的最好的才是最強的,Google搜索比雅虎晚做很多,但是完全沒得比。

所以我覺得後發有後發的優勢,但同時我們特別尊敬美國這些創造性,他們的論文希望他們繼續寫,我們是每一篇都會仔細閱讀,我們跟他們有很多學習的地方。但是比執行力,比做出一個很好的體驗,做比產品,比商業模式,我覺得我們強於美國公司。

Q:現在有很多榜單,比如之前零一萬物引用的斯坦福的Alpaca Eval,現在又有大模型競技場,哪些評測會比較客觀呢?

李開複:我覺得這兩個都是客觀公正的,Alpaca Eval是斯坦福大學用GPT4評測的,今天的LMSYS是真的幾萬個人評估一個模型,嚴格要我挑哪一個更可信的話,雖然我們在Alpaca排名更高,但是我覺得LMSYS是更可信的。

黃文灝:很多benchmark,包括我們之前大家會比MMLU、GSM8K這些,之前benchmark的題都是死的,它是有一個確定的評測集,當題目已經完全確定以後,大家可以在上麵針對題目做一些合成數據,使模型在某一些方麵能力變得更高。

而LMSYS它有幾方麵比較好,一方麵是它的題是真實用戶聊天當中給的題,所以這個題是動態變化的,沒有人可以預測題目分布是什麽樣子的,就沒有辦法針對題目分布去對模型做單一方麵的優化,所以它是overall的模型能力的反映。

第二,因為題目是動態隨機,所以它的客觀性可能更加高一些。

第三,它是由用戶來進行打分的結果,使用GPT-4打分,會有些模型的偏好性。用戶的打分和用戶是更接近的,所以這個榜單也會跟實際應用當中用戶的preference更接近,這跟我們做成模因一體的理念是符合的。

Q:有業內專家說過所有的基準測試都是錯的,您怎麽看?現在大模型發布給的測評對比有哪些價值嗎?第二個問題比較,零一萬物後續會推出更大參數的模型嗎?現在一些企業開始做小模型,您認為現在卷參數還有意義嗎?

黃文灝:先回答第一個問題,之前的benchmark的確有一些題目的動態變化性不夠,所以會發生有人說的,比如說定向優化模型某項能力,我覺得不是刷榜,而是把模型某些能力做提升。這些提升在單一能力上有價值,但是比較的時候大家不知道這個模型提升了這方麵能力,那個模型提升那方麵的能力,所以大家在比較的時候不一定會客觀公正,而LMSYS是提供一個最好的更接近於用戶真實場景的一種評測方式,它的方式也是因為題目動態隨機性不適合大家做優化,所以可以看作一個比較好的標準去衡量模型的能力。

第二個問題我先簡單說一下,由開複老師主要講。我覺得做更大的模型是我們會一直追求,因為我們公司使命是追求AGI,同時讓它變得accessible and beneficial to all human beings(有益於人類且普惠。所以我們覺得我們會繼續去做更大的模型,追求模型的能力同時和應用做更好的銜接。當然我們自己是 believe in scaling law(相信規模定律)的,所以我們在模型變得更大,或者我們用更多的計算資源的時候,我們的模型智能會逐步提升。

李開複:我補充一點,問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好,所以我們剛才講了在6B、9B、34B,未來可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不敢說第一,但是總體來說是第一梯隊或者是最好的一兩名這樣的表現,而且在很多方麵,在代碼方麵、中文方麵、英文方麵表現都是非常好。

我們相信就像一周前我講的TC-PMF,永遠是一個蹺蹺板,你要平衡你需要多強的技術,那你付不付得起這個技術所需要的成本。業界有各種不同的應用,從最簡單的客服應用,到遊戲,一直到非常難的推理策略、科學發現等等難度,我相信大尺寸的 scaling law,最強大地往 AGI 走的模型,在最難的問題上,大家又願意花錢的領域裏,絕對是有落地場景,而且是最有可能達到AGI。

同時我們也坦誠,有各種比較小的簡單應用的機會。我們的打法是一個都不放過,我們在每一個潛在存在尺寸上發布我們能做到性能最高,而且推理成本最低,這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。

黃文灝:關於benchmark再補充一點,每個公司都會建自己的評測體係,我們內部也建了自己的評測體係,我們去LMSYS之前在自己的評測集上評測過所有模型,當時我們大概判斷我們的模型能力的確達到世界一流,中國第一這樣的水平。我們自己的評測集和LMSYS最後的結果高度吻合。而且我們的評測集都是真實場景得到的一些數據,是比較公正的。

同時我們在我們的產品中應用我們的模型之後,很多產品的用戶數據都有非常好的一個提升,這個也可以看作模型能力的金標準。

Q:零一萬物的GPU可能是穀歌、微軟的5%,但算力對模型發展的限製是客觀存在的。當榜上排名靠前的 OpenAI、Google的能力已經靠前,資源還靠前的時候,零一萬物怎麽應對?

李開複:這是一個動態的問題,我覺得現在來靜態的看這個榜單說你還落後那幾家,因此它們一定是巨大的算力做出來的。

這個我覺得更精確的應該從曆史數據來看,看在過去的一兩年他們提升了多少,我們提升了多少,我們是不是追得非常非常近了,這是一個客觀事實。

所以我不認為他們的算力更大就表示我們絕對沒有機會,當然他們的算力更大有巨大的優勢,但是我覺得客觀事實是我們能夠把同樣的一張GPU擠出更多的價值來,這是今天我們能夠達到這些成果的一個重要理由。

另外是優化模型的performance表現,它不隻是一個純粹科技和算法的問題,裏麵還有數據的配比,還有怎麽去優化,同時優化訓練和influence,還有我們的模型怎麽加入多模態等等各種方麵的技術,我覺得我們其實在這方麵是不輸於美國。

我剛剛說到Google的一個VP,他覺得我們是不可思議的達到這樣一個成果,所以我覺得我不會認為算力遠遠落後。我們算力一直遠遠落後,我們一年前算力也是隻有Google、OpenAI的5%,現在還是,我們如果用5%的算力能夠把落後快速拉近,未來我們還是期待有驚人的結果。

能不能達到第一,能不能超過,當然是一個艱難的任務,但是我們是朝著這個目標在努力,我覺得今天的結果對比一周前,對比去年11月,對比我們成立的時候,都是一個不可思議的飛躍,所以看事情要看這個事情是在上漲還是下跌,而不是說你今天還是落後,因此以後就會落後。

Q:大模型競技場真實用戶的真實 prompt ,會不會對模型評測的專業度不如專業的評測集?

黃文灝:分兩方麵說。一個是這個評測更接近用戶的真實場景,所以模型這些能力被用戶更需要。另一方麵,LMSYS也考慮到這部分,因為也有很多用戶用很難的問題故意,也不是故意,就是真的測試模型的智能能力,所以他們還做了hard prompt的section,剛才開複介紹的時候說是最燒腦的那個榜單,會發現我們模型在那個榜單上的排名更高,因為我們模型的智能水平在這方麵有比較好的體現。

我補充一點hard prompts,大家如果上到LMSYS官網,它也是在昨天剛公布,特別針對用戶深入問題裏選擇特別complex複雜,特別demanding,對模型的智能能力要求更高,更rigorous,它需要的能力更多樣性,而且更強大,所以他們是在用戶的真實輸入裏特別單挑了這些特別難的艱難提示詞新算的分數。

當然不同的評測集有不同的側重點,但是這是從用戶真實場景、真實提問裏挑出的艱難提示詞的打分。

Q:您之前提過大模型行業發展不能走ofo燒錢燒錢打法,但事實是現在國內確實打起大模型價格戰,在這個過程中零一萬物和其他初創公司如何在競爭中跑贏大廠?

李開複:今天我們可以看到的降價我們關注到這個現象,我們的定價還是非常合理,而且我們也在花很大精力希望能夠讓它再降下來,我覺得一定程度整個行業每年降低10倍推理成本是可以期待的,而且必然也應該發生的。今天可能處在一個比較低的點,但是我覺得如果說以後大約以一年降價10倍來看,這是一個好消息,對整個行業都是好消息,因為今天的API模型調用還是一個非常非常低的比例,如果一年降低10倍那眾多的人可以用上,這是一個非常利好的消息。

我們也認為我們今天可以看到的模型表現我們超過其他模型,也歡迎不認同的友商來LMSYS打擂台,證明我是錯的。但是直到那一天發生,我們會繼續說我們是最好的模型。

對要求最高的,需求最高的,需要最好模型的,他們當然用我們。100萬個token花十幾塊還是花幾塊錢有很大差別嗎?100萬的token對很大的應用,很難的應用,我覺得我們是必然之選,我們發布之後得到國內外非常高的評價,而且我們是一個可以橫跨中國和外國的API,我們對中國和外國都開放,我們有信心在全球範疇是一個表現很好性價比也很合理的一個模型。

好,這些話說完了,我知道你們的意思是說國內常看到ofo式的瘋狂降價,雙輸的打法。我覺得大模型公司不會這麽不理智,因為技術還是最重要的,如果是技術不行,就純粹靠貼錢賠錢去做生意,我們絕對不會跟這樣的一個定價來做對標,我們對自己的模型表現是非常自豪的。

就像你如果有一台特斯拉,它不會因為別的牌子的車比它賣的很便宜它就覺得它要降價,我們就是特斯拉,我們的價錢是合適值得的。

如果你再問以後可能中國就是這麽卷,大家寧可賠光通輸也不讓你贏,那我們就走外國市場。

Q:對比海外第一梯隊,中國從落後到做小差距,為什麽作為後來者的千億參數模型在scaling law上看起來能夠加速的?決定Yi-Large性能提升加速的核心因素也有哪一些?在算力還是不夠多的前提下讓Yi-X-Large達到GPT4的水平,下一步要解決的最重要的技術問題是什麽?這個問題給到模型訓練負責人文灝。

黃文灝:首先我覺得我們一開始落後沒有7-10年沒有那麽多,可能之前落後一段時間,但現在很接近了。

首先做的事情是,零一萬物每一步在模型訓練上的決策都是正確的,這個看起來是比較容易的事情,其實做起來是不太容易的。

包括我們一開始花了很長時間去做數據質量提升,我們去做scaling Law,沒有很著急的推出第一款模型,把我們的基礎做的比較好,接下來我們不停地提升數據質量,不停地在做scale up,我們在基礎能力建設完以後,在scale up的中會非常順暢。

另一方麵是我們很重視infra的建設,就是算法 Infra 其實是一個 co-design 的過程,在這種情況下我們才能夠把我們的算力發揮到比較好的水平。

所以我覺得因為我們前麵做對了很多事情,follow這個路徑下去我們和世界一流梯隊之間的差距是會越來越小的。而且我們在這個過程中建立了一個非常強的人才團隊,我們有自己培養的,也有被我們的使命和願景吸引過來的人,我們一塊去做這個事情。所有的人都是工程、Infra、算法三位一體,這些人才在將來也會發揮越來越大的作用。

Q:在Coding方麵剛才開複老師提到了Yi-Large並沒有針對Coding做專門優化,但還是位列第二。專門做優化的則排名好像沒有看到上來,這是為什麽?在Coding方麵的優勢是怎麽實現的?我們給到文灝。

黃文灝:剛才提到沒有專門對Coding做優化,是因為我們在LMSYS上麵的模型和在我們自己的產品當中的模型的API是完全一致的。我們也分析過用戶需求,Coding並不是大家非常廣泛使用的場景,大家可能會在實際場景中有一些Coding問題,但是到非常專業的Coding問題還是會用一些Coding專門的模型,所以我們會有一個general的模型,因為我們覺得LMSYS是更general一些,我們提供是一個general模型的評測。驚奇的是發現它在Coding上也做的挺好的。

第二,我們有一些做Coding專項的優化,我們覺得Coding也是大模型發揮能力的一個場景,我們可能未來也會有一些相應計劃在這邊,所以我們做了Coding專門模型,Coding專門模型會對Coding場景,比如說代碼改寫、長代碼續寫、代碼補全有非常好的性能表現。之後我們也會陸續把Coding專項模型開放出來。

Q:目前AI的訓練是否遇到數據荒的情況?之前用國內的弱智吧數據訓練開源版本的Yi-34B效果顯著,零一萬物是否會另辟蹊徑的訓練數據源?目前比較好的數據來源是什麽啊?這個我們可以回答的尺度就可以。

黃文灝:首先我們沒有碰到數據荒的問題,至少我們看到數據還有一兩個數量級的增長,數據還是有很多可以挖掘的一些潛力,這裏有我們很多正在進行的工作,具體不太方便透露怎麽做,但是我們的確看到數據有很大潛力。而且我們最近在多模態上有一些finding,可以更進一步增加一到兩個數量級的數據量。

弱智吧我們可以簡單交流一下,這個工作是我們這邊的intern和和一些科研機構合作的。當時是我們的想法,這些數據可以對模型訓練有一些幫助,我們做數據團隊一直有這種奇思妙想去開拓不同的數據場景,提高數據的質量和數據的diversity。

李開複:終於說出來了,弱智吧是我們的點子。

Q:GPT-4O開始做原生多模態模型,統一文本、音頻、圖像、視頻的輸入輸出的多模態大模型會是一個確定方向嗎?可否透露一下零一萬物在多模態的進展。

李開複:其實跟我們交流過的媒體朋友和外界朋友會知道,我們在去年一直都認為全模態模型,omni,也就是我們挑了同樣的詞已經在做這個工作,這個工作不是人家出來你再跟風能夠跟得上的,我們有一定的累積,我們也相信全模態是正確方向。從我們的release schedule 來說,我們隻能說在今年你們可以期待一個驚喜,細節請文灝再補充。

黃文灝:對。我們一直有在做多模態,原生多模態模型,也有一些進展,但是它裏麵會有一些就是dependency,就是說我們需要一個很強的 language model ,或者一個 language model 訓練的方法。然後接下來我們可能會 scale up多模態模型。我們其實在小的size上有一個基本上和gpt4o功能一樣的,就是 any to any 的多模態模型,然後剩下的可能是scale up 的一些工作

關於它是不是確定性方向?這是一個開放問題,大家要通過實驗的finding來決定它是不是一個確定性方向。因為我們的目標要提高智能上限,多模態理解和生成這兩個任務是不是都在提高智能的上限。第二個是多模態模型相比文本模型能不能提高智能的上限。

我簡單說一下我們在某些方向上看到一些比較promising的初期實驗結果,我們是相信這個可以提高智能上限。

Q:零一萬物的API價格會不會下降?

李開複:現在沒有調整的消息來分享,我們現在收到的反饋還是非常正麵的,而且有幾個開發者一看到,馬上就替換別的模型。我認為模型要看它的表現,可能有些領域,比如說一些很難收回錢的領域要看價格,反正有足夠多的在選我們,我們剛上線,有這麽多忠誠的愛好者加入了,我們先服務好他們,價錢再說吧。

到今天為止,我們剛宣布的性能肯定是國內性價比最高。大家可能有用千token、百萬token,大家可以自己測算一下。

Q:零一萬物在產品化方麵未來有沒有一些規劃。

李開複:有,我們上周發布的產品基本是我們的方向,我覺得一方麵我們已經推出了一些非常成功的海外產品,也是可以算是萬知的爸爸,已經在海外得到非常好的成功,今年預期會有大概1個億的收入,而且不是燒錢模式燒出來的。

而且我們另外還有幾個其他產品在國內國外在測試中,當然萬知我們也會繼續努力把它越做越好,尤其我們對PPT的功能得到非常正麵的反饋,因為這是一個跟國內其他大模型很大的差異點,這個是我們麵對消費者consumer產品的分享。

我們也有自己在走一個企業級的模型方向,但是現在初步用戶在國外,我們認為國外用戶的付費意願或者付費金額比國內大很多,所以雖然我們在中國也非常期望服務國內用戶但是按照現在TO B卷的情況,幾十萬做POC,幾百萬做一單,我們做一單賠一單的生意,我們早期在AI1.0時代太多了,投多了,我們堅決不做。