國華的世界

這是國華對讀過的書, 看過的電視/電影, 聽過的音樂, 訪遊過的地方, 經曆過的事物, 和時事的感想或點評.
個人資料
國華P (熱門博主)
  • 博客訪問:
正文

大陸人工智能究竟如何?

(2023-03-02 13:52:43) 下一個

曾幾何時,中國大陸在人工智能領域的成就非常令人印象深刻,似乎其超越美國僅是時間問題。如李開複這位“創新工場”(Sinovation Ventures)創建人、前穀歌全球副總裁、大中華區總裁就曾指出,在人工智能技術的公開專利方麵,中國在2015年超過了美國,2010年-2021的11年間申請量是美國的3倍多(下圖1 StanfordU)。尤為重要的是,在學術界,大陸在人工智能研究出版物和期刊引文數量上都已超過了美國。哈佛學者艾利森(Graham Tillett Allison Jr.)和前穀歌CEO施密特 (Eric Emerson Schmidt 下圖2 BELFER CENTER)也在一篇關於美中人工智能競爭的文章中警醒美國,在麵部識別方麵,世界上最有價值的人工智能初創企業是大陸的商湯科技(SenseTime)公司。在2018年的麵部識別國際競爭中,大陸團隊獲得了前五名。海康威視(Hikvision)和大華科技(Dahua Technology)等大陸公司,控製著世界三分之一的安全攝像頭市場。天地偉業(Tiandy)公司的相機在夜晚隻需要一顆星星的光即可拍攝高清彩色圖像。在語音技術方麵,世界上最大的語音識別初創公司是大陸的科大訊飛(iFLYTEK)。在係統性能競賽中,科大訊飛經常以第二語言擊敗來自穀歌、微軟、Facebook、ibm和麻省理工學院的團隊。在機器學習最熱門的子領域深度學習中,大陸的專利出版物是美國的6倍。與此同時,在世界上持續時間最長的大學機器人競賽國際空中機器人競賽中,2019年排名前三的選手都是大陸選手,共獲得了84枚金牌,而美國人獲得了52枚。

時間來到2023年,包括中國大陸在內的世界人工智能界談論的都是美國開放人工智能實驗室(OpenAI)的ChatGPT,將ChatGPT整合其中的微軟必應(Bing),和擁有類似ChatGPT功能的穀歌巴德 (Bard)。曾經如日中天,在一些領域超越美國同行指日可待的大陸人工智能,在最新一輪生成型人工智能創新中依然在跟跑,而非領跑。非但如此,美國的科技製裁引發了人們對大陸能否跟上人工智能發展的擔憂。人們不禁要問,中國大陸的人工智能水平究竟是銀樣蠟槍頭,還是真能打?

大陸在全球AI領域的位置

2022年清華-中國工程院知識智能聯合研究中心、清華大學人工智能研究院知識智能中心、中國人工智能學會以及北京智源人工智能研究院發布了《人工智能全球2000位最具影響力學者報告》(下圖 清華大學)顯示,2022年度AI 2000推出200名人工智能全球最具影響力學者和1800名提名學者,美國達1146人次,占比57.3%,且多為高端、前沿創造性人才;中國入選學者數量位列第二,為232人次,多為應用層麵。除多媒體和物聯網外,美國在其餘18個人工智能子領域領先世界。中國大陸以36名多媒體全球最具影響力學者超過美國的31名。同樣,大陸以29名物聯網最具影響力學者超越美國的26名。但大陸在計算機理論、人機交互、和知識工程領域與美國和其餘先進國家差距較大。

另據斯坦福大學發布的2022年度AI指數報告,2010至2021的12年間,中國大陸在AI雜誌發表的論文占全球總數的31.04%,是同期美國(13.67%)的2倍多(李開複沒有說錯)。但大陸學者的雜誌論文質量(引用)要遜於美國。在反映研發新進展的AI國際會議上,中國大陸的論文占總數27.64%,多於美國的16.9%。但美國人再次在論文質量(引用)勝過大陸 – 29.52% 對大陸的15.32%。 在比國際會議更加迅速分享最新研發進展的電子預印本(如arXiv和SSRN)論文方麵,美國的論文發表數量(32.52%)和被引用數量(38.60%)均高於大陸(論文發表數量16.60%、被引用數量16.44%)。在反映實際研發成果的專利申請方麵,中國大陸申請的AI專利數量占同期世界總量的51.69%,但獲得批準的僅占獲批總量的5.90%。而美國的數據分別為16.92%和39.59%。大陸的AI研究質量不但大大低於美國,甚至都不如包括英國在內的歐洲(申請量3.89%,獲批量7.56%)。在原創性基礎理論和革命性算法等領域,大陸不但落後美國,甚至還在英國和加拿大後麵跟跑 (下圖 StanfordU)。

題內損失題外補。既然在創新方麵一時半會兒還不能與老美並駕齊驅,咱就專注於提高應用技能和快速賺錢。大陸科技公司揚長避短,利用掌有的大數據在應用方麵發力,取得了語音(如語音識別、語音合成)和視覺(如圖像識別、視頻識別)方麵的對美趕超。於是就有了名噪一時的海康威視和大華科技的安全攝像頭,大疆的消費無人機,和風靡世界、在青少年中比穀歌、臉書和油管更酷的TikTok。但這些名聲響亮的產品,絕大部分都是建立在機器學習的核心和關鍵算法等技術之上開發的。作為全球AI主流算法的深度學習(Deep Learning)的底層框架主要有開源的TensorFlow(穀歌)和PyTorch(Facebook),全是Made in America。為防穀歌的安卓操作係統對華為製裁事件重演,大陸廠商急起直追,推出了各自的機器學習底層框架 -- 百度飛槳(Paddle Paddle) 、阿裏巴巴(X-Deep Learning)、騰訊(Angel)、華為(Mind Spore)、商湯(SensenParrots)和曠視(Brain++)等。但大陸機器學習底層框架,雖然開源,因為後發而存在用戶量不足和缺乏貢獻者的劣勢。

美國的AI優勢

首先,美國擁有全世界最多的AI人才 -- 美國公司目前已經招募了100位世界公認的人工智能天才中的一半以上 (下圖 Harvard Business Review)。而且,每年包括中國在內的各國AI優秀人才也都會選擇來美國學習或工作。美國的自由開放的學術氛圍意味著這些天才能充分發揮出她/他們的才華、創造力和創新,形成具有國際影響力的人工智能創新生態。人才之外的語言也是美國的一大優勢,英語作為科學、商業和網絡的通用語言確保美國從開始即可持續競爭。今天,地球上75億人中有一半以上說英語,另有10億人正在準備學英語。美國的還具備一個顯著的先發優勢 -- 擁有人工智能的主要平台,包括操作係統(安卓和蘋果)、先進半導體設計(ARM)、穀歌搜索、微軟必應以及Instagram、YouTube、Facebook等殺手級應用程序。美國的優勢還在於擁有英偉達、高通、和英特爾這類設計生產AI所需高端芯片、關鍵部件、高精度傳感器的半導體企業。

大陸的AI趕超前景

人才培養方麵,中國大陸已經建立了一些強大的人工智能研究所,如北京人工智能學院(BAAI),以及百度研究院和騰訊人工智能實驗室等,但仍遠遠落後於美國。一個公開的秘密是,中國最好的計算機專業畢業生,其中就有清華和北大,有機會都進美國高校繼續深造,包括學習AI。而目前超過80%在美國接受培訓的國際人工智能博士畢業後留在美國工作。如果大陸能留住部分每年赴美的清北畢業生,相信大陸可逐漸縮小與美國在AI人才上的差距。考慮到每年畢業世界數量最多的數理化工大學生 (下圖 Forbes),這是完全可能的。但營造自由開放的學術環境,則不是一朝一夕就能搞定的。

在AI基礎理論研究方麵中國大陸顯然仍有很大的進步空間,即便是AI運用領域,大陸也需要努力,因為大陸獲批的AI專利不及美國的七分之一。至於AI芯片,美國政府對大陸實施的高端人工智能芯片出口管製,可能暫時放慢大陸尤其在AI基礎研究領域的前進速度。對專注於應用領域,不需要處理海量數據的高性能半導體,則影響不大。百度的執行副總裁兼AI雲集團負責人竇慎(Dou Shen)自信地表示:“從中長期來看,我們實際上擁有自己研發的人工智能芯片,名為昆侖(Kunlun 下圖 iNEWS)。通過在大型語言模型中使用我們的昆侖芯片,在我們的AI平台上執行文本和圖像識別任務的效率提高了40%,總成本降低了20%-30%。” 時間會告訴我們,昆侖和其他本土人工智能芯片是否會讓中國在生成型人工智能競賽中後來居上。

一些處於AI研究前沿的大陸公司項目 --

百度:計劃於2023年3月推出一款名為“文心一言” (Ernie Bot) 的聊天機器人 (下圖 yahoo!財經)。該機器人“擴展為一係列高級大模型,可以執行廣泛的任務,包括語言理解、語言生成和文本到圖像生成。”百度自2019年以來一直在構建Ernie的語言學習模型(LLM);

北京人工智能研究院(BAAI): 2021年6月發布了生成性深度學習模型“悟道”(Wu-Dao 2.0 下圖 GPT-3 DEMO),稱“悟道”在GPT-3的基礎上,擴展了更多功能。又於2022年推出了最新版本的“悟道”,這是一種經過預訓練的深度學習模型,參數高達1.75萬億;

京東:正推出ChatJD,這是一個基於其AI平台言犀(Yanxi)的AIGC平台,將用於零售和金融等多個領域的場景。ChatJD將整合K-PLUG,一種注入專有知識的預先訓練語言模型,以生成文本並了解用戶的意圖;

科大訊飛:將使用ChatGPT相關技術開發其人工智能學習機;

阿裏巴巴:阿裏巴巴(Alibaba)正在內部測試ChatGPT風格的技術。

開放的技術交流 

人工智能研究通常是公開分享的,專利研究成果並不重要,改進往往來自用戶生成數據和公司根據他們從數據中學到的知識改進產品的良性循環。與計算機硬件或藥物開發不同,人工智能是開放科學(下圖 ELSEVIER)。在知識和技術方麵,人工智能領域的許多基本算法已經成為公共知識,可以從發表的論文和會議記錄中獲取。這種開放性意味著後進者可在短時間內彌補與先進者間的知識差距,讓新入門的後進者迅速了解領域的最新前沿動態。一篇論文發表後,其同行搞定代碼並重現研究結果並非難事。正因如此,微軟一位高管上月(2月)接受采訪時告訴記者,就技術能力而言,美國在人工智能研究方麵僅領先中國幾個月,而不是幾年 。這不,複旦大學計算機科學技術學院邱錫鵬團隊2月20日就發布了類ChatGPT模型MOSS,據說似一“聰明的小孩”。(即使複旦大學的MOSS不算正式發布的AI聊天機器人,美國領先大陸的時間也就是ChatGPT的發布時間與百度“文心一言”發布時間的差距)。這位高管表示,國家支持的北京人工智能研究院(BAAI)與穀歌的DeepMind以及微軟與OpenAI的合作夥伴一起,是人工智能研究領域的三大全球領導者之一。所以,國會和拜登政府把大陸盯得緊,一不小心打個盹兒,大陸就超越了(TikTok的例子表明,大陸在算法上也有超越美國的能力)。畢竟,大陸是緊跟在美國後麵的世界人工智能二哥。

人工智能前景展望

美國人工智能協會(AAAI)和美國科學院等發布的《美國未來20年人工智能研究路線圖》對未來人工智能可能達到的理想功能狀態進行了預測,一是集成智能發展應實現不同智能係統間的有效整合,打破當前人工智能研究僅限於單個技術領域、僅可應用於孤立問題的分立局麵;二是實現人機、機機之間有意義的互動,開發具有社會特征的智能體,實現人機、機機之間的有效協作,以及可了解人類意圖的敏捷交互機器人等;三是使人工智能具有自我意識的學習能力,使人工智能主動捕獲超越表麵相關性的知識,或無需人工介入便可進行長時有效學習。2018年啟動實施的國防高級研究計劃局(DARPA) “AI Next”計劃提出,要提升人工智能技術的情景適應性,可根據不同的應用領域、基於不同的情景主動構建學習模型,目標是讓機器從工具變成可信賴的合作夥伴,使機器具備一定的常識和識別能力,以及終身學習能力。

參考資料 

Allison, G. & Schmidt, E. (2020). Is China Beating the U.S. to AI Supremacy? BELFER CENTER. 鏈接 https://www.belfercenter.org/publication/china-beating-us-ai-supremacy

Lee, K. F. (2021). China Is Still the World's Factory—And It's Designing the Future With AI. Time. 鏈接 https://time.com/6084158/china-ai-factory-future/

Li, D., Tong, D. W. & Xiao, Y. (2021). Is China Emerging as the Global Leader in AI? Harvard Business Review. 鏈接 https://hbr.org/2021/02/is-china-emerging-as-the-global-leader-in-ai

Liao, R. (2023). How China is building a parallel generative AI universe. TC. 鏈接  https://techcrunch.com/2022/12/31/how-china-is-building-a-parallel-generative-ai-universe/?guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZ29vZ2xlLmNvbS8&guce_referrer_sig=AQAAABZuqk_uB46OKgguBiMdndXvxJ4h4IGzf0LI6hrEHv13LPw76SmQeaA5VTWJFJE82Y4pUoyL4z5rojZbNA-Qiosml9LOnDNr2TZ4brxnwMO5vVuqM8FRE9jFOGVk3GWzi9gXNCmxrsX9mHj3jLarGOzeBnzJPNFiK7EqotrK6hLq

Naik, A.R. (2021). Wu Dao 2.0: China’s Answer To GPT-3. Only Better. AIM. 鏈接 https://analyticsindiamag.com/wu-dao-2-0-chinas-answer-to-gpt-3-only-better/

Smith, C. S. (2023). China’s AI Implementation Is Edging Ahead Of The US. Forbes. 鏈接 https://www.forbes.com/sites/craigsmith/2023/01/14/chinas-ai-implementation-is-edging-ahead-of-the-us/?sh=3b8d99ed2dfb

[ 打印 ]
閱讀 ()評論 (7)
評論
封泥巴 回複 悄悄話 中國的短板是不技術算法層麵的,一個是數據的開放性(data bias),第二就是各種資源的整合形成生態的能力(synthesis). 第一個有政治原因,也有語言的劣勢,能夠用來做training的優質語料相對很少。第二個完全就是經濟,政治和文化的綜合能力。所以出現的情況就是發表了若幹論文,在單點上有突破,但是缺乏有用的產品。
jtkevin 回複 悄悄話 這篇文章比較中肯,讚一個
三步兩橋 回複 悄悄話 謝謝介紹!仔細閱讀了。
老生常談12 回複 悄悄話 謝謝詳細介紹,學習了。
6ba6 回複 悄悄話 深入鑽研刮錢套人的技術
牆頭的一朵梨花 回複 悄悄話 一卡脖子翻白眼,一鬆手開始吹牛B。土共五毛大外宣的一貫尿性。
大號螞蟻 回複 悄悄話 對付老百姓很厲害
登錄後才可評論.