簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 生活百態 » 攝影師危險了!AI公測,帶來相片級真實細節

攝影師危險了!AI公測,帶來相片級真實細節

文章來源: AI未來指北 於 2023-12-21 21:28:39 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

12月21日,Midjourney在Discord上宣布其最新版本v6的測試版發布。該模型經過了9個月的訓練,雖然缺乏明確的benchmark比較,就目前網友測試展現出來的能力來看,它可以被稱為當下最先進的文生圖模型。這次發布出的模型水平不光卷翻設計圈,也直接卷倒了攝影圈。

(先來點真實性震撼)

Midjourney曆代全家福:

從官方Discord介紹上看,這一次Midjourney的模型提升主要在以下幾個方麵:

1)更準確的提示遵循以及更長的提示詞上下文長度。

據已參與測試的用戶通過實測後表示v6現在支持的提示詞長度超過350個字符;當前版本在提示裏可以指定多個主題/顏色和其他細節。

在準確遵循提示這點上,從網友測試來看提升也很明顯。

比如當用法語測試時,v6模型生成的圖像明顯更符合提示詞的具體語義:有拳擊手套,麵帶一點微笑。

下麵這個例子更明顯,v5.2數不到1000。

動作理解的提升:v5.2理解不了躺著,想再爬起來卷。v6就徹底躺平了。

2)改進的連貫性和模型知識

在公告中,Midjourney表示

●v6 對提示現在更敏感。別再用像“令人印象深刻的,逼真的,4k,8k”這樣的無用詞匯了。

●明確表達你想要的。雖然它可能沒那麽有意思,但當你明確表達時,它就能在理解你的意圖這方麵做得更好。

據用戶測試,v6甚至能夠理解標點和語法的細微差別。這一升級其實會對整個用戶體驗產生較大的影響。過去偏向於煉丹式的提示詞可能將被更細致的描述取代。這到底是提高還是降低了新手門檻,還真不好說。

針對這個改變,一名設計師給出了當前最適合Midjourney的新提示技巧:核心就是一個清晰不炫技,結構化表達。

在模型知識方麵v6的進化有一個小細節非常有代表性。下麵例子裏的提示詞是日本女性。v6能分清頗為微妙的不同亞洲族裔之間的相貌區別。比起v5.2,圖像中女子的外形確實更有日本特征。這種歐洲人根本理解不了的亞洲長相差異也被AI拿捏了。

(左v5.2,右v6)

3)改進的圖像提示和混合

在這裏,改進的圖像提示其實更多是指按提升生成圖像能力的提升,即能夠根據文本提示創建更精細和逼真的圖像。而改善的圖像混合是指v6能使得不同元素和風格的結合更加和諧自然。

從網友的測試來看,v6的圖像生成能力確實有明顯的提升。相較於v5.2,v6的圖像確實更偏向於豐富和細膩逼真。v5.2其實從細節度上來講已經可以到“亂真”的程度了,但v6的感覺是“真”,而非“仿真”。提示詞對的話,結果甚至有一種相機直出的真實質感。

比如這兩盤土豆燉牛肉,明顯右側v6版本的會更讓人有食欲。

(左:v5.2右v6)

環境還原能力上看,差異也非常明顯:v6版本的羅馬帝國市場,不說你會以為是《羅馬》劇組的場景。而v5.2就略顯平麵,房子也略有些奇怪。

(上v6,下v5.2)

這兩組圖的對比差異就更明顯了。提示詞都是紀錄片風格,上麵真的很紀錄,而下麵那組細看問題還是很多,缺乏真實的光影和細節深度。

上為v6,下為v5.2

人像方麵,其實v5已經做到相當還原了。但在v6中,臉上的小疙瘩,帽簷上的褶皺與汙跡,鼻子上緊貼弧線充滿變化的光影讓v5.2的照片看起來更像是美顏過的,太平麵了。就算同樣是雀斑,v6的表現也更讓人信服,充滿符合人體呈現的集中性,而非平鋪感。

v5.2

v6

v5.2

v6

4)文本繪製能力提升

簡單來說,v6現在可以在圖像中更明確地繪製文本,甚至可以規定其風格。為了獲得最佳效果,文本應該用引號標出。這樣做可以幫助模型區分哪些是描述性的提示,哪些是實際要在圖像中呈現的文本。例如,如果用戶想要生成一張圖像,上麵寫著用馬克筆在便利貼上寫的“HelloWorld!”,他們可以使用類似於以下的提示:“imagineaphotoofthetext'HelloWorld!'writtenwithamarkeronastickynote--ar16:9--v6”

這一點在測試中也非常清晰的展示出來了。現在v6對文字的處理正確率大幅提高,而且嵌入感也更好。

然而可惜的是英文之外還是鬼畫符。但v6已經能夠完全進行符合畫麵的風格化文字創作了。

另一個例子中,可口可樂的字體被完全完美還原。

再來個標誌設計圖——文字完美貼合畫麵風格。設計師最後的陣地有點守不住了。

Midjourneyv6展現出的強大能力看起來對攝影師和設計團隊形成了更加真實的威脅——目前它展現出的審美,和諧的氛圍能力已經直追高端攝影師。最可怕還不是它展現出的實力,而是它進化的速度——在Midjourney的公告中,他們還表示:v6的速度、圖像質量、連貫性、提示遵循和文本準確性在未來幾周內應該會提高。而v6beta在發布半個小時之後宣布了第一次更新,生成速度提升了2.7倍。

隨著Midjourneyv6的發布,新一輪圖像生成模型的軍備競賽又要開始了。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

北京消費斷崖式下滑,人民日報喊話不要否定經濟形勢
這場血腥戰爭,終於要打不下去了
超30萬委內瑞拉人,危險了!
中國漁船"變身"俄軍艦闖台經濟區,美研究:測試反應力
川普再派300國民兵進駐,國土安全部長:芝加哥已淪戰區




24小時討論排行

BBC:美國如何一步步在全球電動車競賽中落後
“沒有中國 普京什麽都不是”烏情報:中向俄提供衛星圖…
哈瑪斯談判條件曝!要求釋放重刑犯,以色列全麵撤軍
珍古道爾辭世 臨終語出驚人:送川普習近平到太空…
馬斯克睡辦公室照曝光,睡在桌下,枕頭都沒有
白宮警告如談判無進展,將大規模裁減聯邦雇員
30天動員5萬海軍 應對台海危機 時間所剩不多
川普劍指諾貝爾和平獎 挪威高官壓力大想請病假
她被困Cybertruck活活燒死:日裔19歲女生照片曝光
娃哈哈內鬥升級!傳宗馥莉等高管被帶走調查
華人工程師拿到亞馬遜高薪後,卻決定離開美國…
聲援巴勒斯坦 歐洲數十萬民眾上街遊行
BBC:中國如何挑戰英偉達在AI晶片領域的主導地位
高市早苗若上台 對中國或是外交噩夢 或觸3大紅線
日漫Coser遭上千人批鬥 辱罵扯發吼“共產黨萬歲”
首部“潛台諜戰劇”央視熱播 港媒:真人真事…
文學城新聞
切換到網頁版

攝影師危險了!AI公測,帶來相片級真實細節

AI未來指北 2023-12-21 21:28:39

12月21日,Midjourney在Discord上宣布其最新版本v6的測試版發布。該模型經過了9個月的訓練,雖然缺乏明確的benchmark比較,就目前網友測試展現出來的能力來看,它可以被稱為當下最先進的文生圖模型。這次發布出的模型水平不光卷翻設計圈,也直接卷倒了攝影圈。

(先來點真實性震撼)

Midjourney曆代全家福:

從官方Discord介紹上看,這一次Midjourney的模型提升主要在以下幾個方麵:

1)更準確的提示遵循以及更長的提示詞上下文長度。

據已參與測試的用戶通過實測後表示v6現在支持的提示詞長度超過350個字符;當前版本在提示裏可以指定多個主題/顏色和其他細節。

在準確遵循提示這點上,從網友測試來看提升也很明顯。

比如當用法語測試時,v6模型生成的圖像明顯更符合提示詞的具體語義:有拳擊手套,麵帶一點微笑。

下麵這個例子更明顯,v5.2數不到1000。

動作理解的提升:v5.2理解不了躺著,想再爬起來卷。v6就徹底躺平了。

2)改進的連貫性和模型知識

在公告中,Midjourney表示

●v6 對提示現在更敏感。別再用像“令人印象深刻的,逼真的,4k,8k”這樣的無用詞匯了。

●明確表達你想要的。雖然它可能沒那麽有意思,但當你明確表達時,它就能在理解你的意圖這方麵做得更好。

據用戶測試,v6甚至能夠理解標點和語法的細微差別。這一升級其實會對整個用戶體驗產生較大的影響。過去偏向於煉丹式的提示詞可能將被更細致的描述取代。這到底是提高還是降低了新手門檻,還真不好說。

針對這個改變,一名設計師給出了當前最適合Midjourney的新提示技巧:核心就是一個清晰不炫技,結構化表達。

在模型知識方麵v6的進化有一個小細節非常有代表性。下麵例子裏的提示詞是日本女性。v6能分清頗為微妙的不同亞洲族裔之間的相貌區別。比起v5.2,圖像中女子的外形確實更有日本特征。這種歐洲人根本理解不了的亞洲長相差異也被AI拿捏了。

(左v5.2,右v6)

3)改進的圖像提示和混合

在這裏,改進的圖像提示其實更多是指按提升生成圖像能力的提升,即能夠根據文本提示創建更精細和逼真的圖像。而改善的圖像混合是指v6能使得不同元素和風格的結合更加和諧自然。

從網友的測試來看,v6的圖像生成能力確實有明顯的提升。相較於v5.2,v6的圖像確實更偏向於豐富和細膩逼真。v5.2其實從細節度上來講已經可以到“亂真”的程度了,但v6的感覺是“真”,而非“仿真”。提示詞對的話,結果甚至有一種相機直出的真實質感。

比如這兩盤土豆燉牛肉,明顯右側v6版本的會更讓人有食欲。

(左:v5.2右v6)

環境還原能力上看,差異也非常明顯:v6版本的羅馬帝國市場,不說你會以為是《羅馬》劇組的場景。而v5.2就略顯平麵,房子也略有些奇怪。

(上v6,下v5.2)

這兩組圖的對比差異就更明顯了。提示詞都是紀錄片風格,上麵真的很紀錄,而下麵那組細看問題還是很多,缺乏真實的光影和細節深度。

上為v6,下為v5.2

人像方麵,其實v5已經做到相當還原了。但在v6中,臉上的小疙瘩,帽簷上的褶皺與汙跡,鼻子上緊貼弧線充滿變化的光影讓v5.2的照片看起來更像是美顏過的,太平麵了。就算同樣是雀斑,v6的表現也更讓人信服,充滿符合人體呈現的集中性,而非平鋪感。

v5.2

v6

v5.2

v6

4)文本繪製能力提升

簡單來說,v6現在可以在圖像中更明確地繪製文本,甚至可以規定其風格。為了獲得最佳效果,文本應該用引號標出。這樣做可以幫助模型區分哪些是描述性的提示,哪些是實際要在圖像中呈現的文本。例如,如果用戶想要生成一張圖像,上麵寫著用馬克筆在便利貼上寫的“HelloWorld!”,他們可以使用類似於以下的提示:“imagineaphotoofthetext'HelloWorld!'writtenwithamarkeronastickynote--ar16:9--v6”

這一點在測試中也非常清晰的展示出來了。現在v6對文字的處理正確率大幅提高,而且嵌入感也更好。

然而可惜的是英文之外還是鬼畫符。但v6已經能夠完全進行符合畫麵的風格化文字創作了。

另一個例子中,可口可樂的字體被完全完美還原。

再來個標誌設計圖——文字完美貼合畫麵風格。設計師最後的陣地有點守不住了。

Midjourneyv6展現出的強大能力看起來對攝影師和設計團隊形成了更加真實的威脅——目前它展現出的審美,和諧的氛圍能力已經直追高端攝影師。最可怕還不是它展現出的實力,而是它進化的速度——在Midjourney的公告中,他們還表示:v6的速度、圖像質量、連貫性、提示遵循和文本準確性在未來幾周內應該會提高。而v6beta在發布半個小時之後宣布了第一次更新,生成速度提升了2.7倍。

隨著Midjourneyv6的發布,新一輪圖像生成模型的軍備競賽又要開始了。