先說,我是先看新聞聽到分析DEEPSEEK然後才見到的中文網討論。本身對這件事沒有特別在意,隻是在家裏我們孩子爸爸問我我多白活了兩句。
他是我一起長大的小玩伴,屁大點事都匯報——有時候他亂噴,我會哼哼哈哈敷衍,你說的對,是,其實思路早不知道跑到哪裏——但是我的建議和我對一些問題的理解,他一般會聽。
聽完好去賣。
話題從一個謠言開始。
據說啊,OpenAI(ChatGPT)的CEO,Sam Altman和Elon Musk (下屬),夥同政府要員schdule了一個30號(明天)的close-door meeting, 主題是討論一個Ph.D.-Level 的super-agent。
想起來年輕時候清華那波孩子開玩笑說,這個世界可以分為三類人,男人,女人,女博士,不知道這個Ph.D.-Level的super-agent是男Ph.D.-Level還是女Ph.D.-Level?
那篇文章的標題是,Behind the curtain-Coming soon: Ph. D.-level super-agents。
嚇死我。
一般來說,AI+ agent的意思是,在給定一個命令的情況下,AI就像一堆人,可以完成那件事。也就是說,你不用一步一步交待,隻要說你想幹什麽,然後等結果就好了。
再解釋一下,不知道大家有沒有用過travel agent?我自己用過很多,特別是10幾20年前孩子小的時候,隻要說我想去哪裏,或者想找個什麽樣的度假地,交代清楚,等人家給答案。
那時候一是沒什麽經驗,二是網上信息沒有這麽發達,不是特別信任自己(好吧,怕被騙)。
當然要交錢,但是我認為這種錢應該花的,這些我更信任專業人士。
Introducing Gemini 2.0: Our new AI model for the agentic era——這是google發布會的標題。現在大家已經不那麽AI了得玩點花樣出來,那麽隻好agent。比如?上星期OpenAI release了他的關於自己的agent Operator的 research preview 。給的例子是,你說你想做Pasta,要求它把各種材料湊齊放到購物車下單快遞到你家。
就用最簡單的browser。我沒試我看的介紹。我沒試一是沒什麽興趣二是要交錢(好像200歐?)然後你就算top tier才有權限。
話說我最近一直跟各種tier較勁,所以更不想試。我自己又不隻是不會做Pasta閉著眼也知道該選什麽料,我們孩子說那是“世界上最好吃的Pasta”——我稀罕AI幫我選?
那為什麽Ph. D.-level super-agents?它通過Ph.D的答辯了?,那不瞎扯嘛,我這個5票全優的Ausgezeichnet都不敢這麽吹(我沒說我是super-agent吧)。
多8一句,好像說兩年前,ChatGPT能答對本科生和碩士生物理考試的50%題目(看來的,不負責對錯),那今天超過80%也沒什麽稀奇吧。美國不知道,歐洲的規矩是你答對2/3以上的題目肯定就過了。或者任何一個選拔比賽,你隻要比同期的1/3好就穩拿了。
也就是說,不看別人,就看跟你站一排的,你隻要擠到2/3隊伍裏,便穩當過關。如果你們那一年都特別好,那就難一點,如果都特別差,那你稍微好一點就顯出來。
是不是合理?我覺得挺合理的。不服你下一次考唄。
再說個小新聞。上星期有一個關於AI的測試叫,Humanity’s Last Exam,各路專家出題(真專家),當然測試很多次(老鍵來講一下物理實驗的原則),AI的最好成績也沒到10%。
我可不是說ChatGPT不好,我最喜歡他了,天天幫我改英語。
但是怎麽說呢,你是可以讓他幫你寫,總結,summary別人的預測。但是問題是,那些別人的可靠性有多大呢。僅就科技文章來說。我自己做過類似的工作,當然知道怎麽攢怎麽唬人(別的不敢瞎吹,這個還是可以的)。不是說沒有質量高的,當然有,但是太少太少了。全世界每年畢業那麽多博士,真值的看的文章,能超過5%就不錯。
所以啊,如果想你的AI是Ph.D.-Level,那要先保證參加training的那些人是真的專家,不然結果就是從nonsense到nonsense,永遠到不了non-nonsense。
至於這個close-door meeting?等結果,看看喂給public什麽信息好了。