Donau

首頁文章列表博文目錄

個人資料

donau

給我悄悄話

博客訪問：

聊幾句關於AI的八卦吧

(2025-01-29 03:47:28) 下一個

先說，我是先看新聞聽到分析DEEPSEEK然後才見到的中文網討論。本身對這件事沒有特別在意，隻是在家裏我們孩子爸爸問我我多白活了兩句。

他是我一起長大的小玩伴，屁大點事都匯報——有時候他亂噴，我會哼哼哈哈敷衍，你說的對，是，其實思路早不知道跑到哪裏——但是我的建議和我對一些問題的理解，他一般會聽。

聽完好去賣。

話題從一個謠言開始。

據說啊，OpenAI(ChatGPT)的CEO，Sam Altman和Elon Musk （下屬），夥同政府要員schdule了一個30號（明天）的close-door meeting，主題是討論一個Ph.D.-Level 的super-agent。

想起來年輕時候清華那波孩子開玩笑說，這個世界可以分為三類人，男人，女人，女博士，不知道這個Ph.D.-Level的super-agent是男Ph.D.-Level還是女Ph.D.-Level？

那篇文章的標題是，Behind the curtain-Coming soon: Ph. D.-level super-agents。

嚇死我。

一般來說，AI+ agent的意思是，在給定一個命令的情況下，AI就像一堆人，可以完成那件事。也就是說，你不用一步一步交待，隻要說你想幹什麽，然後等結果就好了。

再解釋一下，不知道大家有沒有用過travel agent?我自己用過很多，特別是10幾20年前孩子小的時候，隻要說我想去哪裏，或者想找個什麽樣的度假地，交代清楚，等人家給答案。

那時候一是沒什麽經驗，二是網上信息沒有這麽發達，不是特別信任自己（好吧，怕被騙）。

當然要交錢，但是我認為這種錢應該花的，這些我更信任專業人士。

Introducing Gemini 2.0: Our new AI model for the agentic era——這是google發布會的標題。現在大家已經不那麽AI了得玩點花樣出來，那麽隻好agent。比如？上星期OpenAI release了他的關於自己的agent Operator的 research preview 。給的例子是，你說你想做Pasta，要求它把各種材料湊齊放到購物車下單快遞到你家。

就用最簡單的browser。我沒試我看的介紹。我沒試一是沒什麽興趣二是要交錢（好像200歐？）然後你就算top tier才有權限。

話說我最近一直跟各種tier較勁，所以更不想試。我自己又不隻是不會做Pasta閉著眼也知道該選什麽料，我們孩子說那是“世界上最好吃的Pasta”——我稀罕AI幫我選？

那為什麽Ph. D.-level super-agents？它通過Ph.D的答辯了？，那不瞎扯嘛，我這個5票全優的Ausgezeichnet都不敢這麽吹（我沒說我是super-agent吧）。

多8一句，好像說兩年前，ChatGPT能答對本科生和碩士生物理考試的50%題目（看來的，不負責對錯），那今天超過80%也沒什麽稀奇吧。美國不知道，歐洲的規矩是你答對2/3以上的題目肯定就過了。或者任何一個選拔比賽，你隻要比同期的1/3好就穩拿了。

也就是說，不看別人，就看跟你站一排的，你隻要擠到2/3隊伍裏，便穩當過關。如果你們那一年都特別好，那就難一點，如果都特別差，那你稍微好一點就顯出來。

是不是合理？我覺得挺合理的。不服你下一次考唄。

再說個小新聞。上星期有一個關於AI的測試叫，Humanity’s Last Exam，各路專家出題（真專家），當然測試很多次（老鍵來講一下物理實驗的原則），AI的最好成績也沒到10%。

我可不是說ChatGPT不好，我最喜歡他了，天天幫我改英語。

但是怎麽說呢，你是可以讓他幫你寫，總結，summary別人的預測。但是問題是，那些別人的可靠性有多大呢。僅就科技文章來說。我自己做過類似的工作，當然知道怎麽攢怎麽唬人（別的不敢瞎吹，這個還是可以的）。不是說沒有質量高的，當然有，但是太少太少了。全世界每年畢業那麽多博士，真值的看的文章，能超過5%就不錯。

所以啊，如果想你的AI是Ph.D.-Level，那要先保證參加training的那些人是真的專家，不然結果就是從nonsense到nonsense，永遠到不了non-nonsense。

至於這個close-door meeting？等結果，看看喂給public什麽信息好了。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論 (1)

評論

格利 2025-01-29 16:49:42 回複悄悄話真是內行人講內行話。最好有係列續文給我們科普一下AI知識。

登錄後才可評論.