感恩節過了,一切回歸正常。回過頭來補充幾句“正經話”。
不少朋友說看了我為感恩節做的視頻和與ChatGPT過招的過程後,感覺”細思極恐“。有朋友問從技術層麵有沒有什麽解釋。
那天的ChatGPT之所以表現得那麽詭忌,一方麵是因為它的一些缺陷,另一方麵卻是因為我的主觀解讀。今天的AI還沒有到能夠主動和我們作對的地步。我們的“細思”多少有些杯弓蛇影,自己嚇自己。我當時有些主觀帶入,體會了一下人類可能麵對的未來。
為什麽圖裏明明有機器人而ChatGPT說沒有
在ChatGPT裏麵產生圖畫其實用的是 ChatGPT 和 Dall.E 兩個完全獨立的係統。它們之間的交互非常簡單。ChatGPT 自己並不能作圖。它是把我的指令解析以後再傳給 Dall.E。Dall.E 再解析 ChatGPT 提供的指令。然後根據自己的解析作圖。ChatGPT不會分析Dall.E 產生的圖。所以 Dall.E 最後畫了什麽 ChatGPT 並不知道。它隻是假設 Dall.E 完全執行了它的指令。然後給我圖的說明。所以當 Dall.E 不能完全滿足 ChatGPT 給它的要求時,我們看到的圖和圖的描述就會不一致。
而對同樣的描述,我在過程的前後帶入了主觀情緒,給出了不同的解讀,有了AI和我作對的幻覺。所以不僅AI 會hallucinate, 我們人更會。
為什麽ChatGPT會如此執著地把機器人進入我的圖畫裏
這主要是因為ChatGPT 和 Dall.E 這類內容生成係統在處理包容性要求和排除性要求時能力有差異,特別是AI圖像生成係統。
一般來說包容性的要求通常更可預測,更容易量化。例如,指定畫麵中不同種族人數。又比如要某種動物,或者某種視覺效果,這些是可以直接控製的,容易做到。但排除性的要求就比較難執行。排除性的要求通常需要對要求有更細致的理解,需要係統持續有效地監控整個內容生成的過程,並實時做出必要的調整。當內容在很大程度上是隨機產生的時候,ChatGPT這種產生文本的係統可以把排除性要求做得很好。但是這對圖像生成係統如 Dall.E 就要複雜很多,難很多。
識別並且排除特定元素比基於關鍵詞生成圖像更複雜。圖像生成涉及到以一致的方式綜合視覺元素。排除一個元素要求模型不僅要理解什麽應該被留下,還要用適當的替代品填補那個概念或視覺空間,這增加了排除性要求複雜性。
Dall·E 和ChatGPT不同。它是通過解析指令中的關鍵詞來工作,而不是像ChatGPT那樣分析整個文本。Dall.E 重在識別和圖像生成有關的主要元素和概念。在我的指令中,“人工智能時代”和“機器人”即使在ChatGPT解析以後,仍然是突出的關鍵詞。盡管我指示排除機器人,因為訓練數據很可能包含大量將“人工智能”與“機器人”視為相關概念的例子,Dall.E 在生成與人工智能相關的圖像時,就可能會傾向於包含機器人。在這個過程中,我的“不要機器人”的要求可能就沒有得到該有的權重,基本被忽視了。
更多我的博客文章>>>