個人資料
  • 博客訪問:
正文

聊幾句關於AI的八卦吧

(2025-01-29 03:47:28) 下一個

先說,我是先看新聞聽到分析DEEPSEEK然後才見到的中文網討論。本身對這件事沒有特別在意,隻是在家裏我們孩子爸爸問我我多白活了兩句。

他是我一起長大的小玩伴,屁大點事都匯報——有時候他亂噴,我會哼哼哈哈敷衍,你說的對,是,其實思路早不知道跑到哪裏——但是我的建議和我對一些問題的理解,他一般會聽。

聽完好去賣。

話題從一個謠言開始。

據說啊,OpenAI(ChatGPT)的CEO,Sam Altman和Elon Musk (下屬),夥同政府要員schdule了一個30號(明天)的close-door meeting, 主題是討論一個Ph.D.-Level 的super-agent。

想起來年輕時候清華那波孩子開玩笑說,這個世界可以分為三類人,男人,女人,女博士,不知道這個Ph.D.-Level的super-agent是男Ph.D.-Level還是女Ph.D.-Level?

那篇文章的標題是,Behind the curtain-Coming soon: Ph. D.-level super-agents。

嚇死我。

一般來說,AI+ agent的意思是,在給定一個命令的情況下,AI就像一堆人,可以完成那件事。也就是說,你不用一步一步交待,隻要說你想幹什麽,然後等結果就好了。

再解釋一下,不知道大家有沒有用過travel agent?我自己用過很多,特別是10幾20年前孩子小的時候,隻要說我想去哪裏,或者想找個什麽樣的度假地,交代清楚,等人家給答案。

那時候一是沒什麽經驗,二是網上信息沒有這麽發達,不是特別信任自己(好吧,怕被騙)。

當然要交錢,但是我認為這種錢應該花的,這些我更信任專業人士。

Introducing Gemini 2.0: Our new AI model for the agentic era——這是google發布會的標題。現在大家已經不那麽AI了得玩點花樣出來,那麽隻好agent。比如?上星期OpenAI release了他的關於自己的agent Operator的 research preview 。給的例子是,你說你想做Pasta,要求它把各種材料湊齊放到購物車下單快遞到你家。

就用最簡單的browser。我沒試我看的介紹。我沒試一是沒什麽興趣二是要交錢(好像200歐?)然後你就算top tier才有權限。

話說我最近一直跟各種tier較勁,所以更不想試。我自己又不隻是不會做Pasta閉著眼也知道該選什麽料,我們孩子說那是“世界上最好吃的Pasta”——我稀罕AI幫我選?

那為什麽Ph. D.-level super-agents?它通過Ph.D的答辯了?,那不瞎扯嘛,我這個5票全優的Ausgezeichnet都不敢這麽吹(我沒說我是super-agent吧)。

多8一句,好像說兩年前,ChatGPT能答對本科生和碩士生物理考試的50%題目(看來的,不負責對錯),那今天超過80%也沒什麽稀奇吧。美國不知道,歐洲的規矩是你答對2/3以上的題目肯定就過了。或者任何一個選拔比賽,你隻要比同期的1/3好就穩拿了。

也就是說,不看別人,就看跟你站一排的,你隻要擠到2/3隊伍裏,便穩當過關。如果你們那一年都特別好,那就難一點,如果都特別差,那你稍微好一點就顯出來。

是不是合理?我覺得挺合理的。不服你下一次考唄。

再說個小新聞。上星期有一個關於AI的測試叫,Humanity’s Last Exam,各路專家出題(真專家),當然測試很多次(老鍵來講一下物理實驗的原則),AI的最好成績也沒到10%。

我可不是說ChatGPT不好,我最喜歡他了,天天幫我改英語。

但是怎麽說呢,你是可以讓他幫你寫,總結,summary別人的預測。但是問題是,那些別人的可靠性有多大呢。僅就科技文章來說。我自己做過類似的工作,當然知道怎麽攢怎麽唬人(別的不敢瞎吹,這個還是可以的)。不是說沒有質量高的,當然有,但是太少太少了。全世界每年畢業那麽多博士,真值的看的文章,能超過5%就不錯。

所以啊,如果想你的AI是Ph.D.-Level,那要先保證參加training的那些人是真的專家,不然結果就是從nonsense到nonsense,永遠到不了non-nonsense。

至於這個close-door meeting?等結果,看看喂給public什麽信息好了。

[ 打印 ]
閱讀 ()評論 (1)
評論
格利 回複 悄悄話 真是內行人講內行話。最好有係列續文給我們科普一下AI知識。
登錄後才可評論.