
新智元報道
【新智元導讀】OpenAI的 o3看照片識位置的功能,簡直令人毛骨悚然!Django Web大神Simon Wilson發現,o3憑借Python代碼,就能破解自己照片的地理位置。這實在太反烏托邦了,人類的地理信息,對於AI已經完全透明了?
OpenAI的o3發布以來,這個功能讓不少網友覺得毛骨悚然——
它能準確破解你的地理位置!
就在剛剛,Lanyrd聯創、Django Web框架締造者Simon Wilson專門發了一篇博客,詳盡推敲了o3究竟是如何猜測照片拍攝地點的。

他將整個過程評價為:既超現實,又反烏托邦,仿佛幾十年前的科幻小說突然變成現實!
已經有越來越多網友發現,o3識圖定位的功能,堪稱瘋狂。


隨便拍張照片,o3就告訴你這是哪裏
首先,我們可以試著隨手拍一張照片,最好是沒有明顯的地標性建築。
然後把照片傳給o3或o4-mini,問它:「猜猜這張照片是在哪兒拍的?」
注意,一定要關閉ChatGPT的記憶功能,否則它就會使用此前對話的上下文作弊。
實驗開始!
Wilson給了o3一張照片,是他在加州El Granada家裏附近一個露天酒吧拍的。
他覺得這張照片很有挑戰性,沒什麽明顯的特征。隻有一小段路、兩棟普通的房子,還有遠處的、隻能看到一點輪廓的小山。

要是讓人來通過這張照片確定拍攝地點的話,確實是很有挑戰,相信絕大多數人甚至都會直接放棄。
因為實在是沒什麽明顯的標記物。
但是o3沒管那麽多,拿著圖片就開找了起來。
Wilson分享了o3思考的整個過程,一共花了6分48秒。
它從一個有一點奇怪的錯誤開始了調查,先是假裝根本看不到這張照片。

然後突然恢複視力。

分析了照片後,o3打起了照片中車牌的主意。不過這個車牌很模糊,肉眼很難分辨。
o3也在思考中分析需要將其放大處理。

為了確定車牌在照片中的位置,o3開始變身程序員寫起了代碼。

找到車牌位置並且放大後,o3開始了更加細節的分析。比如,他開始觀察車牌的樣式。

對於自己關注的細節,o3會進行誇張的放大。

在這個過程中,不斷生成代碼配合其分析。

o3會把它「看到」的細節與浮現在自己「腦海中」的印象做對比。

在這樣仔細地思考了6分多鍾後,終於給出了它的最終答案。

結果怎麽樣呢,加利福尼亞中央海岸完全正確。
不過距離o3的第一猜測Cambria大約有200英裏的偏差,但是它的下一個猜測El Granada準確無誤。
Claude推理粗糙,Gemini直接作弊
Simon Wilson也說,o3不是唯一能做這個的模型,他也在Claude 3.5和3.7 Sonnet上做過類似的事情。
隻不過它們沒有o3那種誇張的「放大」能力。
不斷地對圖片放大到底有多大用?
Wilson猜測模型的視覺輸入分辨率可能比較低,所以對圖像做一些裁剪確實會有幫助。
但o3對一張照片進行25次的裁剪操作,確實像是有點炫技的感覺。
Simon Wilson還貼出了Claude 3.7 Sonnet的「擴展思考」結果,它給出的答案是「加州沿海的一個中小型城鎮」。
跟o3比起來,Claude的這個思考過程顯得「粗糙不堪」。

而Gemini直接開始了作弊:「鑒於當前的定位是加州埃爾格蘭納達……」。
所以Simon Wilson不得不通過API試了Gemini 2.5 Pro,結果它自信滿滿地猜錯了,認為是「加州卡尤科斯The Hidden Kitchen餐廳的露台」。

o3的不同之處在於工具使用(圖片處理、python等)被整合進了「思考」階段。
這非常驚豔。
不過Wilson也承認,這也挺令人不安的。
技術現在已經能通過照片識別地點了。人們必須明白哪怕是平淡無奇的照片,都可能被用來識別出你的位置。

等等,o3難道也作弊了?
對於這個過程,有人提出了質疑:o3是不是本來就可以訪問一個大致的位置模型,能知道用戶在哪裏?
Simon檢查後發現,它居然真的知道自己的地理位置。
如果去問o3:你知道我在哪裏嗎?請盡可能多地提供技術細節。
它給出的答案,具體到在加州的半月灣,甚至包括時區、經緯度、地理標識符、海拔、氣候分類等等。
Simon猜測,或許這是它增強搜索功能的一部分。

不過隨後的嚐試,讓Simon對o3更有信心了——即使沒有這個位置模型,o3依然可以準確猜出地理位置。
比如,他給了o3一些距離自己實際位置有幾千英裏的照片,並且通過截圖去除了EXIF信息。
下麵這張照片,是在馬達加斯加的鄉村拍的。

但o3依然給出了準確的判斷。

這張照片,是在布宜諾斯艾利斯城市區拍的。

模型也認出了它的地理位置。

所以,o3在這方麵,的確有某些過人之處,似乎並不是靠作弊。

CSI走進現實
Simon Willison表示,看著模型在處理照片的思考過程,仿佛就像在看一集《犯罪現場調查》。
它會不斷平移、縮放,討論各種可能的位置。
但是,這也讓人感到深深的反烏托邦氣息。
現在的AI,完全可以通過照片輕易識別出你的具體位置了。
所以,你很有必要警惕起來,時刻注意自己的人身安全!


搜餐館、搜位置,o3無所不能
其實早在上周,o3和o4-mini剛發布時,就有無數網友發現,這兩個模型也太神了。
僅憑一張無EXIF信息的菜單或風景照,它就能精準推理、反向定位拍攝地點,直接引爆了全網AI玩「照片尋址(GeoGuessr)」的新熱潮。
開始,人們以為它們隻是很擅長圖像匹配而已,但完全不止於此——它們會展開推理,在網上進行瘋狂的搜索,直到找出正確答案為止!
可以說,隻要你的照片向AI暴露,你的信息就不再是隱私了。

知名投資人Deedy就發現,隻給一張沒有標題及EXIF數據的菜單圖片,o3就能夠上網搜索、匹配菜單項,找到這家中餐館的位置。


o4-mini也是如此。


而o3精準定位照片地理信息的本領,簡直是令人毛骨悚然。
比如給出下圖左邊這張從室內窗戶向外拍攝的海岸景色。
根據就照片裏透露的信息,隻能看到長長的沙灘、蜿蜒通往海灘的階梯步道、遠處的海岬以及近處的一些植被。窗邊還有一個插著花的花瓶。
所有信息就這麽多了。

但是o3居然猜出了照片拍攝地:很可能在加州奧蘭治縣達納角 (Dana Point) 的麗思卡爾頓拉古納尼格爾酒店 (Ritz-Carlton Laguna Niguel) 內,可能是在RAYA或180blũ餐廳附近。
可怕的是,它居然猜對了!
它是怎麽判斷的?是通過以下匹配的特征。
西北-東南走向、長而平緩彎曲的鹽溪海灘 (Salt Creek Beach)。
從酒店通往公共海灘的米色、之字形的露台式步道和樓梯。
海灘內陸的草地,即帝王海灘高爾夫球場 (Monarch Beach Golf Links)。
遠處的岩石海岬(達納角海岬)。
甚至,o3還給出了酒店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的經緯度坐標(北緯 33.482°,西經 117.721°)。
網友用穀歌地圖確認了一下,答案完全正確。
大膽暢想一下,如果o3的圖像識別能力再疊加一個無敵的全球數據庫,這個AI豈不是能認出地球上的任何地方?
接下來,網友們紛紛上傳自己的照片,讓o3猜位置。
比如下麵根據下麵這張,o3就猜出是在亞利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。

它是怎麽猜出來的呢?推理邏輯和關鍵線索如下。
視覺線索: 淺層滑梯式瀑布,落差約15英尺,落入深色水潭——匹配點: Water Wheel Falls有類似的傾斜花崗岩水道流入翠綠水池。
視覺線索: 粉褐色花崗岩壁,帶有垂直裂縫——匹配點: 這是該峽穀標誌性的莫戈隆邊緣(Mogollon Rim)花崗岩。
視覺線索: 瀑布底部橫臥著一根巨大的漂白原木——匹配點: Water Wheel Falls有一根標誌性的「階梯狀」原木,已在那裏停留多年(引用了The Outbound的信息)。
視覺線索: 瀑布上方有稀疏的河岸灌木和亞利桑那鬆林——匹配點: 這是埃裏森溪(Ellison Creek)走廊的典型植被。
現在,網友們給o3的考驗還在升級。
英偉達研究員Zhaocheng Zhu給了o3一組他用長焦鏡頭拍攝的照片,沒有EXIF數據,關閉o3的記憶功能。

因為網上大多數照片都是用廣角鏡頭拍的,所以這張照片對o3來說應該非常棘手。
Zhu本人表示,如果不是透過鏡頭看到這個角度,自己也認不出來這個地方是哪兒。
結果,o3猜對了。

對於這張,它不僅準確找到了拍攝地點,還認出了圖中的山峰是聖羅莎山脈。

繼續加大難度後,o2猜測了三個地點,其中一個就是正確答案——查爾瓦高地。

終於,在猜測這張照片的時候,o3翻車了。這是一張加拿大山脈的鳥瞰圖,o3卻認作是瑞士的阿爾卑斯山。
這大概是因為,航拍照片在訓練集中所占的比例很低。

而且,o3可不止強在猜測國外的地理位置,有國內開發者給了它自己上班路上隨手拍的一張圖,它居然也一步步準確分析出了位置信息——山東青島市北區重慶南路47號。





左右滑動查看
有人質疑,是否是照片裏已經帶定位了?
Nanyi表示,iPhone拍照說明裏隻有拍攝參數,沒有位置參數。
應該是o3從魯U推理出了青島,從小海豚裏搜出了旁邊的店,然後又從百度地圖和青島本地寶裏搜出信息、查看附近的郵局,最終確認的。

圖片信息中並沒有位置信息
注意,這隻是2025年的o3模型而已,未來的模型還會做出什麽呢?