3月26日消息,經過長達一年與人類訓練師協作優化,
OpenAI於美國當地時間周二發布了GPT-4o原生多模態圖像生成功能,支持生成更加逼真的圖像。
用戶隻需在ChatGPT中描述圖像(可指定寬高比、色號或透明度等參數),GPT-4o便能在一分鍾內生成相應圖像。
OpenAI在公告中確認,GPT-4o圖像生成功能具有以下特點:
—— 精準渲染圖像內文字,能夠製作logo、菜單、邀請函和信息圖等;
—— 精確執行複雜指令,甚至在細節豐富的構圖中也能做到;
—— 基於先前的圖像和文本進行擴展,確保多個交互之間的視覺一致性;
—— 支持各種藝術風格,從寫實照片到插圖等。
GPT-4o生成圖片效果展示
除了通過GPT-4o可以在ChatGPT中直接生成圖像
,該模型還整合進了OpenAI的視頻生成平台Sora,進一步擴展了其多模態能力。
新模型
即日起將作為ChatGPT的默認圖像生成引擎,向ChatGPT
Free、Plus、Team及Pro用戶開放,取代此前使用的DALL-E
3。企業版、教育版以及API接口也將在不久後支持該功能。
據OpenAI官方說明,GPT-4o在多個方麵相較於過去的模型進行了改進:
——
更好的文本集成:與過去那些難以生成清晰、恰當位置文字的AI模型不同,GPT-4o現在可以準確地將文字嵌入圖像中;
——
增強的上下文理解:GPT-4o通過利用聊天曆史,允許用戶在互動中不斷細化圖像,並保持多次生成之間的一致性;
——
改進的多對象綁定:過去的模型在正確定位場景中的多個不同物體時存在困難,而GPT-4o現在可以一次處理多達10至20個物體;
——
多樣化風格適應:該模型可以生成或將圖像轉化為多種風格,支持從手繪草圖到高清寫實風格的轉換。
作為去年推出的多模態模型,GPT-4o最初的定位是成本優化版的旗艦AI模型,具備生成和理解文本、視頻、音頻和圖像等能力。OpenAI表示,此次精調後的版本使普通用戶和企業能夠更輕鬆地創建逼真圖像、可讀文本段落,乃至公司logo和演示幻燈片等。
項目首席研究員Gabriel
Goh透露,
GPT-4o取得突破性進展的關鍵,源於人類訓練師對模型數據的標注工作——標注了AI生成圖像中的錯別字、畸形手腳和麵部特征等問題。
通過“人類反饋強化學習”(RLHF)技術,模型學會了更精準地遵循人類指令,從而生成更準確且實用的圖像。
GPT-4o生成圖片效果展示
“人類反饋強化學習”是AI公司用來在初步訓練後進一步優化模型的常見技術。鑒於OpenAI的AI係統擁有龐大的用戶基礎——ChatGPT每周擁有超過4億用戶——這些人工訓練師的影響力不可忽視。OpenAI表示,
參與該優化過程的訓練師團隊規模略超百人。
然而,GPT-4o的圖像生成技術仍然存在局限性。華爾街日報稱OpenAI展示的一個案例中,當用戶上傳了一張帶有兩扇窗戶的客廳照片,並要求重新布置家具時,AI在重構圖像時遺漏了一扇窗戶。
華爾街日報關於用戶圖片生成案例的報道
同時,AI圖像生成的使用仍然引發爭議。一些藝術家指控AI圖像生成器剽竊他們的作品,並威脅到他們的生計。
OpenAI首席運營官布拉德·萊特卡普對此回應稱,
GPT-4o的訓練數據來自“公開可用的資料”以及與Shutterstock等公司的合作內容。
OpenAI總裁格雷格·布羅克曼早在2024年5月就預告過GPT-4o的原生圖像能力,但出於未公開的原因,該公司直到現在才發布該功能。此前,穀歌AI
Studio的Gemini 2 Flash實驗模型已經推出了類似功能。
格雷格·布羅克曼此前預告GPT-4o原生圖像能力
現階段,GPT-4o取得了許多進步,但它仍然存在一些問題,其中包括:
—— 裁剪問題:像海報這樣的較大圖像可能會被過度裁剪;
—— 非拉丁字符的文本準確性:某些非英語字符可能無法正確呈現;
—— 小字體中的細節保留:小字號文本的細節可能會丟失或不夠清晰;
—— 編輯精確度:修改圖像的特定部分時,可能會意外影響其他元素。
OpenAI表示,正在通過持續的模型改進積極解決這些問題。
作為OpenAI對負責任AI開發的承諾的一部分,
所有由GPT-4o生成的圖像都包含C2PA元數據,用戶可以驗證其AI來源。此外,OpenAI還建立了一個內部搜索工具,用於幫助檢測AI生成的圖像。
OpenAI強調,涉及真人圖像的內容會受到更嚴格的限製。
山姆·奧特曼在新能力上線後發布“小作文”,稱此次發布標誌著“創作自由的新高峰”,並強調用戶將能夠創建各種視覺內容,OpenAI將在真實世界的使用基礎上觀察並完善其方法。