白交發自凹非寺

量子位 | 公眾號 QbitAI

又一個讓大模型幾乎全軍覆沒的難題出現了。

注意看，這張圖畫的是誰？

如果不夠明顯，那再眯著眼睛看呢。沒錯，就是蒙娜麗莎。

這張來自日本藝術家北岡秋吉前幾天創作的一張圖，結果直接把一眾大模型難倒了。

ChatGPT隻能分辨出這是一張臉。。

Gemini則是直接識別錯了人。

網友：懂了，大模型不會眯眼睛。

大模型不會眯眼睛？

為了驗證這一推論，咱們也進行了一波簡單實測。既然直接問「畫的是誰」問不出來，那給一點提示，讓它可以嚐試眯著眼睛。

首先來看ChatGPT的表現。

它能準確判斷出這是一張視覺錯位圖，也通過「眯著眼睛」識別出來了具體的臉部輪廓，結果在最後關頭識別錯了。

而再讓它深度思考一下，答案給不出來了。

Gemini的回答則還停留在各種顏色的條紋，也辨認出這是個側臉的輪廓。

Grok則直接表示無法辨認，讓我提供一張更清晰的照片，emmm…

再來看看國產玩家的表現，還是挑出三個來看看。

豆包的回答與Gemini類似，能夠判斷出圖像的風格、人臉輪廓，但是無法判斷具體任務。

但選擇深度思考之後，它深入研究了故障藝術的通道分離特性，然後從黑色輪廓中判斷出這是愛因斯坦（？？？？

可能這蓬鬆的長發不是一個類型的吧。

將這個問題交給Qwen。負責回答這個問題的是Qwen3-235B-A22B，在完成深度思考之後，它發現了這是個人的側臉剪影。但還是沒有判斷出畫的這個人是誰。

而元寶、訊飛的回答如下：

△元寶

△訊飛星火

但o3-Pro一次性回答對

不過在一眾模型全軍覆沒之際，也還是有得分選手。

比如o3-Pro。

網友進一步分析了原因。這可能與模型推理軌跡有關。比如像o3（非pro版）思考鏈路裏，它通常會在 Python 中旋轉、增加對比度、裁剪等。而o3-pro顯然推理能力更強。

但有人懷疑了，它是不是用搜索了。

不過這被發現者駁回了。首先o3也可以用搜索，但無法做到這一點。而且從o3-pro的推理摘要中看，它隻有在模糊後才能看到它（可能是通過使用工具）。而且如果隻問“這是什麽？”，它也不起作用。

還有嚐試了三次的GPT-4o。

不過這合理懷疑，隻是它偶然猜對了。

因為網友在它第一次打錯之後，就給模型提示說這是一張著名的畫作。於是就莫名玩起了「海龜湯」的遊戲。。。

又或者讓o4-mini-high先人為地模糊圖像以使其“眯眼”，然後就能識別圖像。

好了，感興趣的朋友可以去嚐試一下。有挑戰成功的友友，可以在評論區分享下提示詞經驗~

參考鏈接：

[1]https://x.com/svpino/status/1940924964431188137

[2]https://x.com/goodside/status/1941296192656376297