簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 生活百態 » 兵馬俑跳《科目三》,是我萬萬沒想到的

兵馬俑跳《科目三》,是我萬萬沒想到的

文章來源: 量子位 於 2024-01-05 09:28:22 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

家人們,火爆全球的魔性舞蹈《科目三》,誰能料到,就連兵馬俑也開始跳上了!

熱度還居高不下,瞬間被轟上了熱搜,小夥伴們紛紛驚掉了下巴表示“聞所未聞,見所未見”。

這到底是怎麽一回事?

原來,是有人借助了阿裏之前走紅的AI技術——

AnimateAnyone,生成出來了這個舞蹈片段。

技術圈的盆友對這個技術都不陌生,“出道”至今僅僅1個月時間,這個項目便已經在GitHub上斬獲了超1.1萬個star。

呼喚它能讓更多人輕鬆上手體驗的聲音,也越來越多。

好消息是,現在AnimateAnyone已經可以免費體驗了!

而且“入口”還直接被嵌進了阿裏通義千問APP——名曰:

通義舞王。

很快,各種效果、各種玩法、各種人物,都動了起來……例如微博網友“Simon_阿文”,讓拿破侖表演了一把……

這標致的舞姿,這反差的形象,著實算是把腦洞給打開了。

也有不少網友換了個思路:

想用自己照片試試;以後投宅舞視頻可以直接生成了。

所以效果究竟行不行,我們也忍不住實測了一波~

讓貝索斯舞一段《極樂淨土》

打開通義千問APP,我們隻需要點擊對話框中的“一張照片來跳舞”:

或者在輸入框內敲“通義舞王”或“全民舞王”

等關鍵詞,就可以跳轉到相應界麵了:

接下來的操作,也正如我們剛才所說:極、其、簡、單。

首先,在眾多已經提供的模板中,pick一個。

目前通義千問APP提供了12個模板,這次我們就選擇二次元最愛、宅舞《極樂淨土》測試一下~

然後,選一位測試對象。比如我們找了(前)全球首富貝索斯:

需要說明的是,在選擇照片的時候,還是需要一點“技巧”的,“通義舞王”也有相應提示:

正麵站立

全身照

全身無遮擋

無仰俯角

在此之後,直接點擊“立即生成”,靜候幾分鍾,貝索斯大跳《極樂淨土》的視頻,就誕生了:

是不是效果還行?雖然還不能講“真假難辨”,但首富都能這樣為你跳一曲了,還要什麽自行車。

不僅如此,“通義舞王”除了能夠生成真人風格之外,還有其他風格可玩。

例如動漫風格的小姐姐跳DJ慢搖:

還有卡通風格的人物熱舞:

總而言之,現在你想讓任何人跳舞——一張全身照就夠了。

不過有一說一,雖然“通義舞王”已經成功吸引了眾多網友前來玩耍,反響火爆,但它也還沒到完美無瑕的境界。

例如等待時長,現在平均時間大約在10分鍾左右(有點久,但畢竟是免費的,還要啥自行車啊)。

還有就是從視頻效果來看,如果照片角度不好或者清晰度不夠也會影響AI對於人物手部的處理。

這些問題,實際都與背後的技術原理和技術挑戰,密不可分。

怎麽做到的?在視覺生成任務中,目前較為主流的方法便是擴散模型。

但在僅靠一張照片就生成視頻這件事上,它還麵臨著諸多的挑戰,例如人物形象一致性(consistency)的問題。

簡單來說,就是如何保證照片人物在動起來的過程中,各種細節能夠和原照片保持一致。

為此,阿裏團隊在擴散模型的基礎之上,提出了一個新的算法,也就是我們剛才提到的AnimateAnyone。

從一致性、可控性和穩定性三個方麵,保證了視頻輸出的效果和質量。

例如在一致性方麵,阿裏團隊引入的是ReferenceNet,用於捕捉和保留原圖像信息,可高度還原人物、表情及服裝細節。

具體而言,在參考圖特征提取上,ReferenceNet采用的是與去噪UNet類似的框架,但沒有包含時間層;它繼承了原始擴散模型的權重,並獨立進行權重更新。

在將ReferenceNet的特征融合到去噪UNet時,首先將來自ReferenceNet的特征圖x2複製t次,並與去噪UNet的特征圖x1沿w維度連接;然後進行自注意力處理,並提取特征圖的前半部分作為輸出。

雖然ReferenceNet引入了與去噪UNet相當數量的參數,但在基於擴散的視頻生成中,所有視頻幀都需要多次去噪,而ReferenceNet隻需在整個過程中提取一次特征,因此在推理過程中不會導致顯著增加計算開銷。

在可控性方麵,阿裏團隊使用的是Pose Guider姿態引導器。

Pose Guider姿勢引導器采用的是一個輕量級設計,而不是引入一個額外的控製網絡。

具體來說,使用了四個卷積層(卷積核大小為4×4,步幅為2×2,通道數分別為16、32、64、128),這些卷積層用於將姿勢圖像對齊到與噪聲潛變量相同的分辨率。

處理後的姿勢圖像會被加到噪聲潛變量上,然後一起輸入到去噪UNet中,從而在不顯著增加計算複雜性的情況下,為去噪UNet提供姿勢控製。

最後是在穩定性方麵,阿裏團隊引入的是一個時序生成模塊。

時序層的設計靈感來源於AnimateDiff,通過在特征圖上執行時間維度的自注意力,以及通過殘差連接,其特征被整合到原始特征中。

同樣的,這個模塊的作用之下,滿足了在保持時間連續性和細節平滑性的同時,減少了對複雜運動建模的需求。

最終,在AnimateAnyone的加持之下,從效果上來看,保證了圖像與視頻中人物的一致性。

這也是AnimateAnyone背後的技術原理。

然而,阿裏之所以不斷在AnimateAnyone上攻堅優化,並非完全出於技術很酷很有潛力,還藏著一顆引領視頻生成技術的野心。

因為大家都在問“What is the Next?”的時候,LVM(Large Vision Model),已經潮水聲轟鳴了。

What is the Next?

實際上,在AnimateAnyone火了之後,阿裏還有另一項視頻生成技術在同時出圈。

它叫DreaMoving,隻需一張臉部照片、一句話描述,就能讓你在任何地方跳舞!

例如下麵這段《擦玻璃》的舞蹈視頻:

你所需要做的就是“投喂”一張人像,以及一段prompt:

一個女孩,微笑著,在秋天的金色樹葉中跳舞,穿著淺藍色的連衣裙。

而且隨著prompt的變化,人物背景和身上的衣服也會隨之發生改變。例如我們再換兩句:

一個女孩,微笑著,在木屋裏跳舞,穿著毛衣和長褲。

一個女孩,微笑著,在時代廣場跳舞,穿著連衣裙般的白襯衫,長袖,長褲。

和AnimateAnyone一樣的,它也是真人、卡通、動漫人物統統都能hold住。

當時也引來了不少網友們的熱玩和驚呼。

這些都是阿裏在視頻生成上的“沿途下蛋”,都是“勇攀珠峰”——死磕AI視頻生成技術的證明和結果。

為什麽?

因為縱觀去年一整年的AIGC發展的脈絡,AI視頻生成的爆發趨勢似乎越來越明確了。

2022年底以來,從最初ChatGPT引爆大語言模型,全球科技巨頭乃至初創企業紛紛入局,到後來各家不僅限於自然語言技術,更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態技術“玩”出了新高度。

產業是什麽?LLM(大語言模型)正在逐步向LMM(多模態大模型)發展。

並且從這期間學術界、產業界所交出的一份份“作業”中,也能印證這一點:

Pika1.0發布,剛出道就成行業頂流,引來一眾大佬圍觀;

Runway家升級Gen2,分分鍾打造高質量小電影;

李飛飛W.A.L.T緊隨其後,同樣也是發力於此;

穀歌Gemini發布現場,大秀多種模態的聯動玩法。

因此,多模態大模型、AI視頻生成領域,正是現如今AIGC這波頂流中的頂流,阿裏頻頻在此發力,也就不難理解了。

不僅如此,在歲末年初之際,更是有眾多AI大佬將2024年的預測押注於此。

例如Meta研究院Martin Signoux非常直接地表態“再見LLM,你好LMM”,這個預測也得到了LeCun的轉發和點讚。

因此,如果要問誰是下一個ChatGPT,可能沒有人可以給出準確預判。

但如果問下一個ChatGPT會從哪個賽道來?AI視頻生成,就是自帶鼓風機的那一個,而在這個賽道裏,阿裏已經搶占了先機。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

這場血腥戰爭,終於要打不下去了
超30萬委內瑞拉人,危險了!
川普再派300國民兵進駐,國土安全部長:芝加哥已淪戰區
我在美國大學過中秋,親友誤以為我偷偷回國了
諾貝爾獎獎金124年沒花完,靠牛市資產漲了200倍?




24小時討論排行

BBC:美國如何一步步在全球電動車競賽中落後
珍古道爾辭世 臨終語出驚人:送川普習近平到太空…
嚴查雙國籍?華男從中國出境被攔 要求當場銷戶!
馬斯克睡辦公室照曝光,睡在桌下,枕頭都沒有
30天動員5萬海軍 應對台海危機 時間所剩不多
哈瑪斯談判條件曝!要求釋放重刑犯,以色列全麵撤軍
她被困Cybertruck活活燒死:日裔19歲女生照片曝光
川普劍指諾貝爾和平獎 挪威高官壓力大想請病假
北京消費斷崖式下滑,人民日報喊話不要否定經濟形勢
白宮警告如談判無進展,將大規模裁減聯邦雇員
華人工程師拿到亞馬遜高薪後,卻決定離開美國…
“沒有中國 普京什麽都不是”烏情報:中向俄提供衛星圖…
習福建人馬“全滅”?四中倒數“軍中失蹤潮”謎團揭開
娃哈哈內鬥升級!傳宗馥莉等高管被帶走調查
最高法院支持!30萬人將被驅逐出境
高市早苗若上台 對中國或是外交噩夢 或觸3大紅線
文學城新聞
切換到網頁版

兵馬俑跳《科目三》,是我萬萬沒想到的

量子位 2024-01-05 09:28:22

家人們,火爆全球的魔性舞蹈《科目三》,誰能料到,就連兵馬俑也開始跳上了!

熱度還居高不下,瞬間被轟上了熱搜,小夥伴們紛紛驚掉了下巴表示“聞所未聞,見所未見”。

這到底是怎麽一回事?

原來,是有人借助了阿裏之前走紅的AI技術——

AnimateAnyone,生成出來了這個舞蹈片段。

技術圈的盆友對這個技術都不陌生,“出道”至今僅僅1個月時間,這個項目便已經在GitHub上斬獲了超1.1萬個star。

呼喚它能讓更多人輕鬆上手體驗的聲音,也越來越多。

好消息是,現在AnimateAnyone已經可以免費體驗了!

而且“入口”還直接被嵌進了阿裏通義千問APP——名曰:

通義舞王。

很快,各種效果、各種玩法、各種人物,都動了起來……例如微博網友“Simon_阿文”,讓拿破侖表演了一把……

這標致的舞姿,這反差的形象,著實算是把腦洞給打開了。

也有不少網友換了個思路:

想用自己照片試試;以後投宅舞視頻可以直接生成了。

所以效果究竟行不行,我們也忍不住實測了一波~

讓貝索斯舞一段《極樂淨土》

打開通義千問APP,我們隻需要點擊對話框中的“一張照片來跳舞”:

或者在輸入框內敲“通義舞王”或“全民舞王”

等關鍵詞,就可以跳轉到相應界麵了:

接下來的操作,也正如我們剛才所說:極、其、簡、單。

首先,在眾多已經提供的模板中,pick一個。

目前通義千問APP提供了12個模板,這次我們就選擇二次元最愛、宅舞《極樂淨土》測試一下~

然後,選一位測試對象。比如我們找了(前)全球首富貝索斯:

需要說明的是,在選擇照片的時候,還是需要一點“技巧”的,“通義舞王”也有相應提示:

正麵站立

全身照

全身無遮擋

無仰俯角

在此之後,直接點擊“立即生成”,靜候幾分鍾,貝索斯大跳《極樂淨土》的視頻,就誕生了:

是不是效果還行?雖然還不能講“真假難辨”,但首富都能這樣為你跳一曲了,還要什麽自行車。

不僅如此,“通義舞王”除了能夠生成真人風格之外,還有其他風格可玩。

例如動漫風格的小姐姐跳DJ慢搖:

還有卡通風格的人物熱舞:

總而言之,現在你想讓任何人跳舞——一張全身照就夠了。

不過有一說一,雖然“通義舞王”已經成功吸引了眾多網友前來玩耍,反響火爆,但它也還沒到完美無瑕的境界。

例如等待時長,現在平均時間大約在10分鍾左右(有點久,但畢竟是免費的,還要啥自行車啊)。

還有就是從視頻效果來看,如果照片角度不好或者清晰度不夠也會影響AI對於人物手部的處理。

這些問題,實際都與背後的技術原理和技術挑戰,密不可分。

怎麽做到的?在視覺生成任務中,目前較為主流的方法便是擴散模型。

但在僅靠一張照片就生成視頻這件事上,它還麵臨著諸多的挑戰,例如人物形象一致性(consistency)的問題。

簡單來說,就是如何保證照片人物在動起來的過程中,各種細節能夠和原照片保持一致。

為此,阿裏團隊在擴散模型的基礎之上,提出了一個新的算法,也就是我們剛才提到的AnimateAnyone。

從一致性、可控性和穩定性三個方麵,保證了視頻輸出的效果和質量。

例如在一致性方麵,阿裏團隊引入的是ReferenceNet,用於捕捉和保留原圖像信息,可高度還原人物、表情及服裝細節。

具體而言,在參考圖特征提取上,ReferenceNet采用的是與去噪UNet類似的框架,但沒有包含時間層;它繼承了原始擴散模型的權重,並獨立進行權重更新。

在將ReferenceNet的特征融合到去噪UNet時,首先將來自ReferenceNet的特征圖x2複製t次,並與去噪UNet的特征圖x1沿w維度連接;然後進行自注意力處理,並提取特征圖的前半部分作為輸出。

雖然ReferenceNet引入了與去噪UNet相當數量的參數,但在基於擴散的視頻生成中,所有視頻幀都需要多次去噪,而ReferenceNet隻需在整個過程中提取一次特征,因此在推理過程中不會導致顯著增加計算開銷。

在可控性方麵,阿裏團隊使用的是Pose Guider姿態引導器。

Pose Guider姿勢引導器采用的是一個輕量級設計,而不是引入一個額外的控製網絡。

具體來說,使用了四個卷積層(卷積核大小為4×4,步幅為2×2,通道數分別為16、32、64、128),這些卷積層用於將姿勢圖像對齊到與噪聲潛變量相同的分辨率。

處理後的姿勢圖像會被加到噪聲潛變量上,然後一起輸入到去噪UNet中,從而在不顯著增加計算複雜性的情況下,為去噪UNet提供姿勢控製。

最後是在穩定性方麵,阿裏團隊引入的是一個時序生成模塊。

時序層的設計靈感來源於AnimateDiff,通過在特征圖上執行時間維度的自注意力,以及通過殘差連接,其特征被整合到原始特征中。

同樣的,這個模塊的作用之下,滿足了在保持時間連續性和細節平滑性的同時,減少了對複雜運動建模的需求。

最終,在AnimateAnyone的加持之下,從效果上來看,保證了圖像與視頻中人物的一致性。

這也是AnimateAnyone背後的技術原理。

然而,阿裏之所以不斷在AnimateAnyone上攻堅優化,並非完全出於技術很酷很有潛力,還藏著一顆引領視頻生成技術的野心。

因為大家都在問“What is the Next?”的時候,LVM(Large Vision Model),已經潮水聲轟鳴了。

What is the Next?

實際上,在AnimateAnyone火了之後,阿裏還有另一項視頻生成技術在同時出圈。

它叫DreaMoving,隻需一張臉部照片、一句話描述,就能讓你在任何地方跳舞!

例如下麵這段《擦玻璃》的舞蹈視頻:

你所需要做的就是“投喂”一張人像,以及一段prompt:

一個女孩,微笑著,在秋天的金色樹葉中跳舞,穿著淺藍色的連衣裙。

而且隨著prompt的變化,人物背景和身上的衣服也會隨之發生改變。例如我們再換兩句:

一個女孩,微笑著,在木屋裏跳舞,穿著毛衣和長褲。

一個女孩,微笑著,在時代廣場跳舞,穿著連衣裙般的白襯衫,長袖,長褲。

和AnimateAnyone一樣的,它也是真人、卡通、動漫人物統統都能hold住。

當時也引來了不少網友們的熱玩和驚呼。

這些都是阿裏在視頻生成上的“沿途下蛋”,都是“勇攀珠峰”——死磕AI視頻生成技術的證明和結果。

為什麽?

因為縱觀去年一整年的AIGC發展的脈絡,AI視頻生成的爆發趨勢似乎越來越明確了。

2022年底以來,從最初ChatGPT引爆大語言模型,全球科技巨頭乃至初創企業紛紛入局,到後來各家不僅限於自然語言技術,更是將文生圖、文生音頻、文生視頻、圖生視頻等多模態技術“玩”出了新高度。

產業是什麽?LLM(大語言模型)正在逐步向LMM(多模態大模型)發展。

並且從這期間學術界、產業界所交出的一份份“作業”中,也能印證這一點:

Pika1.0發布,剛出道就成行業頂流,引來一眾大佬圍觀;

Runway家升級Gen2,分分鍾打造高質量小電影;

李飛飛W.A.L.T緊隨其後,同樣也是發力於此;

穀歌Gemini發布現場,大秀多種模態的聯動玩法。

因此,多模態大模型、AI視頻生成領域,正是現如今AIGC這波頂流中的頂流,阿裏頻頻在此發力,也就不難理解了。

不僅如此,在歲末年初之際,更是有眾多AI大佬將2024年的預測押注於此。

例如Meta研究院Martin Signoux非常直接地表態“再見LLM,你好LMM”,這個預測也得到了LeCun的轉發和點讚。

因此,如果要問誰是下一個ChatGPT,可能沒有人可以給出準確預判。

但如果問下一個ChatGPT會從哪個賽道來?AI視頻生成,就是自帶鼓風機的那一個,而在這個賽道裏,阿裏已經搶占了先機。