2024年數據與人工智能峰會(June 10 – June 13, 2024 San Francisco)

本文內容已被 [ 未完的歌 ] 在 2024-06-18 05:10:59 編輯過。如有問題,請報告版主或論壇管理刪除.

2024 年數據與人工智能峰會(6 月 10-13 日)是全球最大的數據與人工智能會議,在舊金山舉行,並以混合形式進行虛擬演示。

會議為期四天,內容豐富,包括行業遠見卓識者的主題演講、技術會議、實踐培訓和交流機會。

2024 年大會的主題演講陣容包括來自 Databricks 的一批創新型行業專家和高管,以及涵蓋改變數據和人工智能領域最新趨勢的 500 多場會議。

 

李飛飛的主題演講;

李飛飛打了個很有趣的比方,在五億四千萬年前的寒武紀,三葉蟲的出現開啟了視覺感知,並引發了智能的發展。而 十年前,對圖像進行標注,讓計算機視覺取得了突破,就像初現曙光的三葉蟲看到的第一縷光,也開啟了現代 AI 的新世紀。

** 引言

嗨,大家早上好。我非常高興能來到這裏。今天,我不會給大家展示任何產品或者現場演示。我來這裏是想要帶大家一起探討未來的可能性。這個未來,不僅是對語言的理解,而是一種從“看”到“做”的轉變。

** 過去與現在

讓我從一些具體的事物開始講起。實際上,我想請大家把我字體放大一些。但實際上,我並沒有實質性的內容要展示給大家。這並不是技術故障。這其實是我們的世界,就在 540 百萬年前。

那時,一片純粹、無盡的黑暗。這種黑暗並不是因為缺少光線,而是因為缺乏視覺。確實,陽光可以穿透海洋,達到海底一千米的深度,從熱液噴口散發出來的光也能照亮海底。盡管生命在這裏蓬勃發展,但卻沒有一隻眼睛能夠看見。那時的海洋就像外星一樣,沒有視網膜,沒有角膜,沒有晶狀體。所以,所有的光,所有的生命,都在黑暗中過著無人知曉的生活。

直到三葉蟲的出現,它們是第一種能夠感知光線的生物。也是我們今天所熟知的現實世界的第一批居民。首次發現的是一個世界,存在著超越自我的東西,那就是許多其他的“自我”存在。看見的能力或許開始幫助引入了一個被稱為“寒武紀大爆炸”的時期,這個時期有很多動物種類進入了化石記錄。

一開始隻是簡單地讓光線進來,這樣的體驗是被動的,但很快就豐富起來,變得積極主動。然後,神經係統開始演化。我們從看見的視覺,得到了洞察的能力。“看見”變成了“理解”,理解引領我們行動,而所有這些都促成了智能的產生。

** 現代 AI 的進步

所以,半個億年後,我們對於自然賦予的智能已經不再滿足。人類現在正在探求如何創造出能夠像我們一樣,甚至更好地看世界的機器。九年前,我在 TED 上做了一個演講,我當時分享了計算機視覺的早期進展,這是人工智能的一個子領域。

大約十年前,有三大強大力量首次出現,一種被稱為神經網絡的算法家族。還有一種專用而快速的硬件,叫做圖形處理單元,或者 GPU,稍後你們會聽到 Jensen 的演講。還有大數據,比如我實驗室花了幾年時間策展的那個包含 5000 萬張照片的數據集,我們稱它為 ImageNet。

當這些元素結合在一起,計算機的視覺能力不僅比以往更強,也開啟了現代 AI 的新世紀。自那以後,我們走過了很長的道路。那是十年前,隻標注物體就成了一種突破,就像初現曙光的三葉蟲看到的第一縷光。但神經網絡算法的速度和準確度很快就提高了。年複一年,我們實驗室舉辦的 ImageNet 年度挑戰賽,都在評估這些算法的性能,每次提交的結果都刷新了記錄。如你所見,這張圖展示了每年的進步和一些裏程碑模型,實在是讓人驚歎。

但我們並不止步於此。我們以及其他實驗室進一步研發出了可以切分對象,甚至識別視頻中它們動態關係的模型,就像你在這裏看到的。當然,還有更多新的發展在等著我們。

** 未來的發展

我記得我第一次公開展示了第一個能用人類的自然語言描述圖像和照片的計算機視覺算法,就是自動圖像字幕編寫。那是我和我的優秀學生 Andrej Karpathy 合作的時候。我提議讓 Andrej 試試反過來操作,用一個句子去生成一張照片。Andrej 回應說,“哈哈,那不可能。”然而,就如你從他最近的推特上看到的,沒過幾年,不可能變成了可能。這一切都歸功於最新的生成式 AI 中所用到的擴散模型的發展。

AI 程序現在能夠根據人類輸入的任何句子創造出全新的照片或視頻。你們中的許多人可能已經看到了 OpenAI 以及其他公司最近所創造的美麗成果——Sora 但是,在沒有大量 GPU 的支持下,我和我的學生、合作者在 Sora 發布前的幾個月,就創造出了一個叫做 Walt 的生成模型。這隻是其中的一部分成果。你可以看到,我們仍有很大的進步空間,我們會犯錯誤。看看那隻貓的眼睛,它甚至在水下遊動時都沒有打濕。我把它戲稱為“貓災”。我希望有人能為我編出更好的 AI 笑話。

不過,如果過去是序曲,我們會從這些錯誤中學習,並創造出我們想象的未來。在那個未來,我們希望充分發揮 AI 的所有能力。多年來,我一直強調,拍照並不等同於看到並理解它。現在,我想再補充一點,僅僅看到是不夠的。看,是為了行動和學習。當我們在 3D 空間和時間中對世界采取行動,我們會學習,我們會更好地看和行動。

** 空間智能

大自然創造了一個由空間智能驅動的觀察與行動的良性循環。為了解釋你的空間智能在不斷發揮作用,我們來看看這張照片。如果你看這張照片有想去做點什麽的衝動,請舉手。如果在現實生活中,你真的碰到過這種情況,就請保持舉手。在過去的瞬間,你的大腦觀察到了玻璃的幾何形狀,它在 3D 空間中的位置,以及它與桌子,貓,和周圍所有事物的關係,然後你預測了接下來可能會發生的事情。然後,你可能會向那個玻璃杯撲去,以保護你的地毯免受汙染。

這種行動的衝動是具有空間智能的生物所天生具有的,它將我們的感知與行動聯係在一起。所以,要想讓 AI 超越目前的能力,我們需要的不僅僅是能看或者說話的 AI。我們需要的是 AI 能做出行動。就像自然界使我們所做的那樣。

** 近期進展與未來展望

事實上,我們在這方麵正在取得令人振奮的進展。我們在空間智能方麵的最近的裏程碑正在催生出一種良性循環,這種循環使計算機能夠看到,做,學習,然後更好地看到並做。但是,這並不容易。動物進化出空間智能需要數百萬年,相比之下,語言的進化隻需要幾十萬年。而且,這種進化依賴於眼睛利用光線將 2D 圖像投射到視網膜上,大腦再將這些圖像轉化為 3D。

最近,Google 的一個計算機視覺研究團隊就實現了這一點。他們創建了一個算法,隻需要一組照片,就能把數據轉化為 3D 形狀或場景。這裏有更多這項工作的示例。同時,我的學生和同事受到斯坦福這項工作的啟發,更進一步,他們創建了一個隻需要一張圖片就能生成 3D 形狀的算法,就像你現在看到的。這裏有一些最近工作的更多示例。

** 文字輸入製作視頻

我記得我們之前用過文字輸入來製作視頻。密歇根大學的一組研究人員找到了一種方法,可以把一行文字轉化為 3D 房間布局。你現在看到的就是一個例子。同時,斯坦福的我的同事們及其學生,已經開發出一種算法,能夠把一張圖片轉化為無數個可能的空間,供觀眾探索。這些原型是未來可能性初露頭角的標誌。

人類將以數字形式捕獲我們的整個世界,並能模擬我們世界的豐富性和細微差別,這是一種可能性。自然在我們個體的心智中隱性完成的,現在空間智能 AI 有望在我們的集體意識中實現。隨著空間智能的進步加速,這個虛擬周期的新紀元正在我們眼前展開。這種往返式的過程正在推動機器人學習的發展,這是任何需要理解並直接與 3D 世界互動的實體智能係統的關鍵組成部分。

** 機器人學習

十年前,我所在的實驗室開發出的 ImageNet,這是一個包含數百萬高質量圖像的數據庫,幫助計算機學會看。現在,我們正用行為和動作教計算機如何在 3D 世界中活動。我們現在不再手動創建訓練樣本,而是使用模擬環境,比如 NVIDIA Omniverse 提供的環境,它由 3D 空間模型驅動,提供無盡的變化和交互。

你現在看到的是在模擬環境中訓練機器人的無窮可能性的一小部分示例,這是在我的實驗室領導的一個名為 Behavior 的項目。在機器人語言智能方麵也取得了令人興奮的進

展,這結合了視覺和空間智能。使用基於大語言模型的輸入,我的學生和合作夥伴在首批展示機器人手臂可以根據口頭指令執行各種任務的團隊中。

比如這一條,讓機器人打開抽屜,但要注意瓶子。或者這一條,要求機器人拔掉手機充電器。這是一種不常見的拔插方式,但也可以接受。還有這一條,讓機器人做三明治。嗯,我通常會希望我的三明治裏麵的內容要豐富一些,但這個三明治的製作還算是個好開端。

** AI 與人類互動

在 5.4 億年前的原始海洋中,看見和感知環境的能力引發了寒武紀大爆炸與其他生命形式互動。今天,那束光開始照亮數字思維,就像曾經照亮我們祖先的思維一樣。空間智能技術讓機器能夠相互交互,與人類交互,以及與 3D 世界交互,無論是真實的還是虛構的。隨著這個未來的形態逐漸顯現,我們可以設想,它會對很多生命產生深遠的影響。

** 醫療健康應用

就拿醫療健康來說。過去十年裏,我的實驗室已邁出了重要的一步,在將 AI 技術應用於影響病人康複和醫護人員疲勞問題方麵。我和我的學生們,斯坦福醫學院的同事,以及合作的醫院一起,正在試點智能傳感器,這些設備可以檢測到醫生是否在進入病人房間時正確洗手,可以跟蹤手術中的器械,或者在病人身體處於危險,比如摔倒時,及時提醒護理團隊。

我們認為這些技術是一種環境智能的形式,這些額外的“眼睛”可以產生改變。但我更希望看到更多對患者,醫生和看護者互動的幫助,他們也迫切需要更多的“手”。想象一下,有自動化機器人運送醫療物資,這樣護理人員就能有更多高質量的時間陪伴病人。或者,增強現實技術引導外科醫生進行更安全、更高效、更少侵入性的手術。

想象一下,那些嚴重癱瘓的病人能夠用他們的思想去控製機器人。沒錯,就是用腦波,這樣他們就能做到那些我們認為理所當然的日常任務。你現在其實已經初見未來的一角。在我實驗室的這個試點研究中,你可以在視頻中看到,一個機器人手臂正在做日本的壽喜燒飯。這個過程完全是通過大腦電信號控製的,這些信號非侵入式地通過 EEG 帽子收集,而無需在人的大腦中植入芯片或電極。這整個機器人的行動都是通過遠程大腦控製完成的。

** 結語

在五億年前,視覺的出現不僅將黑暗的世界照亮,也開啟了一個深遠的進化過程,這是動物世界中智能的發展。人工智能在過去的十年中取得的驚人進步同樣令人震驚。但是,真正的數字寒武紀大爆發隻有在計算機和機器人都發展出我們所有人所擁有的空間智能時,才能實現其最大的可能性。

現在是時候讓我們的數字夥伴學會如何理解並與這個我們稱之為家的三維空間進行互動,以及為我們大家創造許多新的世界去探索了。實現這個未來的道路並非平坦,需要我們共同努力,發展始終以人為核心的技術。如果我們做得恰當,那麽由空間智能驅動的電腦和機器人不僅將成為實用的工具,更能作為我們值得信賴的夥伴,它們能提升我們的效率,豐富我們的人性,尊重每個人的尊嚴,同時提升我們的整體繁榮。

我最期待的未來,是 AI 變得更具洞察力、更加空間感知,與我們一同滿足好奇心,追求更好的方式,以創造一個更美好的世界。

謝謝。

所有跟帖: 

Great Info. Thanks for sharing! -cfbingbuzy001- 給 cfbingbuzy001 發送悄悄話 cfbingbuzy001 的博客首頁 (0 bytes) () 06/18/2024 postreply 07:22:18

+1 "Great Info. Thanks for sharing! -cfbingbuzy001" -靜思生活- 給 靜思生活 發送悄悄話 靜思生活 的博客首頁 (0 bytes) () 06/18/2024 postreply 08:43:11

AI有好奇心,有意思了。讚分享 -麥迪文- 給 麥迪文 發送悄悄話 (0 bytes) () 06/18/2024 postreply 08:15:50

希望Ai能幫助人類創造出美好的世界! -艾唱- 給 艾唱 發送悄悄話 艾唱 的博客首頁 (0 bytes) () 06/18/2024 postreply 14:31:40

請您先登陸,再發跟帖!