簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » GPT-4變笨引爆輿論!文本代碼質量都下降

GPT-4變笨引爆輿論!文本代碼質量都下降

文章來源: 量子位 於 2023-06-02 03:52:08 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

大模型天花板GPT-4,它是不是……變笨了?

先是少數用戶提出質疑,隨後大量網友表示自己也注意到了,還貼出不少證據。

有人反饋,把 GPT-4 的 3 小時 25 條對話額度一口氣用完了,都沒解決自己的代碼問題。

無奈切換到 GPT-3.5,反倒解決了。

總結下大家的反饋,最主要的幾種表現有:

以前 GPT-4 能寫對的代碼,現在滿是 Bug

回答問題的深度和分析變少了

響應速度比以前快了

這就引起不少人懷疑,OpenAI 是不是為了節省成本,開始偷工減料?

兩個月前 GPT-4 是世界上最偉大的寫作助手,幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麽智能。

這就不免讓人想起微軟新必應" 出道即巔峰 ",後來慘遭 " 前額葉切除手術 " 能力變差的事情……

網友們相互交流自己的遭遇後," 幾周之前開始變差 ",成了大家的共識。

一場輿論風暴同時在 Hacker News、Reddit 和 Twitter 等技術社區形成。

這下官方也坐不住了。

OpenAI 開發者推廣大使Logan Kilpatrick,出麵回複了一位網友的質疑:

API 不會在沒有我們通知您的情況下更改。那裏的模型處於靜止狀態。

不放心的網友繼續追問確認 " 就是說 GPT-4 自從3 月 14 日發布以來都是靜態的對吧?",也得到了 Logan 的肯定回答。

" 我注意到對於某些提示詞表現不一致,隻是由於大模型本身的不穩定性嗎?",也得到了"Yes"的回複。

但是截至目前,針對網頁版 GPT-4 是否被降級過的兩條追問都沒有得到回答,並且 Logan 在這段時間有發布別的內容。

那麽事情究竟如何,不如自己上手測試一波。

對於網友普遍提到 GPT-4 寫代碼水平變差,我們做了個簡單實驗。

實測 GPT-4" 煉丹 " 本領下降了嗎?

3 月底,我們曾實驗過讓 GPT-4" 煉丹 ",用 Python 寫一個多層感知機來實現異或門。

△ShareGPT 截圖,界麵稍有不同

讓 GPT-4 改用 numpy 不用框架後,第一次給出的結果不對。

在修改兩次代碼後,運行得到了正確結果。第一次修改隱藏神經元數量,第二次把激活函數從 sigmoid 修改成 tanh。

6 月 2 日,我們再次嚐試讓 GPT-4 完成這個任務,但換成了中文提示詞。

這回 GPT-4 第一次就沒有使用框架,但給的代碼仍然不對。

後續隻修改一次就得到正確結果,而且換成了力大磚飛的思路,直接增加訓練 epoch 數和學習率。

回答的文字部分質量也未觀察到明顯下降,但響應速度感覺確實有變快。

由於時間有限,我們隻進行了這一個實驗,且由於 AI 本身的隨機性,也並不能否定網友的觀察。

最早 4 月 19 日就有人反饋

我們在 OpenAI 官方 Discord 頻道中搜索,發現從4 月下旬開始,就不時有零星用戶反饋 GPT-4 變差了。

但這些反饋並未引發大範圍討論,也沒有得到官方正式回應。

5 月 31 日,Hacker News 和 Twitter 同天開始大量有網友討論這個問題,成為整個事件的關鍵節點。

HackerNews 一位網友指出,在 GPT-4 的頭像還是黑色的時候更強,現在紫色頭像版在修改代碼時會丟掉幾行。

在 Twitter 上較早提出這個問題的,是 HyperWrite(一款基於 GPT API 開發的寫作工具)的 CEO,Matt Shumer。

但這條推文卻引發了許多網友的共鳴,OpenAI 員工回複的推文也正是針對這條。

不過這些回應並沒讓大家滿意,反而討論的範圍越來越大。

比如 Reddit 上一篇帖子提到,原來能回答代碼問題的 GPT-4,現在連哪些是代碼哪些是問題都分不出來了。

在其他網友的追問下,帖子作者對問題出現的過程進行了概述,還附上了和 GPT 的聊天記錄。

對於 OpenAI 聲稱模型從三月就沒有改動過,公開層麵確實沒有相關記錄。

ChatGPT 的更新日誌中,分別在1 月 9 日、1 月 30 日、2 月 13 日提到了對模型本身的更新,涉及改進事實準確性和數學能力等。

但自從3 月 14 日GPT-4 發布之後就沒提到模型更新了,隻有網頁 APP 功能調整和添加聯網模式、插件模式、蘋果 APP 等方麵的變化。

假設真如 OpenAI 所說,GPT-4 模型本身的能力沒有變化,那麽這麽多人都感覺它表現變差是怎麽回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras 創始人 Fran ois Chollet 就表示,不是 GPT 的表現變差,而是大家渡過了最初的驚喜期,對它的期待變高了。

Hacker News 上也有網友持相同觀點,並補充到人們的關注點發生了改變,對 GPT 失誤的敏感度更高了。

拋開人們心理感受的差異,也有人懷疑API 版本和網頁版本不一定一致,但沒什麽實據。

還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種汙染。

△WebPilot 插件中的額外提示詞

這位網友就表示,在他看來 GPT 表現變差正是從插件功能開始公測之後開始的。

也有人向 OpenAI 員工詢問是否模型本身沒變,但推理參數是否有變化?

量子位也曾偶然 " 拷問 " 出 ChatGPT 在iOS 上的係統提示詞與網頁版並不一致。

如果在手機端開啟一個對話,它會知道自己在通過手機與你交互。

會把回答控製在一到兩句話,除非需要長的推理。

不會使用表情包,除非你明確要求他使用。

△不一定成功,大概率拒絕回答

那麽如果在網頁版繼續一個在 iOS 版開啟的對話而沒意識到,就可能觀察到 GPT-4 回答變簡單了。

總之,GPT-4 自發布以來到底有沒有變笨,目前還是個未解之謎。

但有一點可以確定:

3 月 14 日起大家上手玩到的 GPT-4,從一開始就不如論文裏的。

與人類對齊讓 AI 能力下降

微軟研究院發表的 150 多頁刷屏論文《AGI 的火花:GPT-4 早期實驗》中明確:

他們早在 GPT-4 開發未完成時就得到了測試資格,並進行了長期測試。

後來針對論文中很多驚豔例子,網友都不能成功用公開版 GPT-4 複現。

目前學術界有個觀點是,後來的RLHF 訓練雖然讓 GPT-4 更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學家張弋在中文播客節目《What ’ s Next|科技早知道》S7E11 期中也提到:

那個版本的模型,比現在外麵大家都可以拿得到的 GPT-4 還要更強,強非常非常多。

舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓 GPT-4 使用 LaTeX 中的 TikZ 畫一個獨角獸來追蹤 GPT-4 能力的變化。

論文中展示的最後一個結果,畫得已經相當完善。

但論文一作Sebastien Bubeck後續在 MIT 發表演講時透露了更多信息。

後來當 OpenAI 開始關注安全問題的時候,後續版本在這個任務中變得越來越糟糕了。

與人類對齊但並不降低 AI 自身能力上限的訓練方法,也成了現在很多團隊的研究方向,但還在起步階段。

除了專業研究團隊之外,關心 AI 的網友們也在用自己的辦法追蹤著 AI 能力的變化。

有人每天讓 GPT-4 畫一次獨角獸,並在網站上公開記錄。

從 4 月 12 日開始,直到現在也還沒看出來個獨角獸的大致形態。

當然網站作者表示,自己讓 GPT-4 使用 SVG 格式畫圖,與論文中的 TikZ 格式不一樣也有影響。

並且 4 月畫的與現在畫的似乎隻是一樣差,也沒看出來明顯退步。

最後來問問大家,你是 GPT-4 用戶麽?最近幾周有感到 GPT-4 能力下降麽?歡迎在評論區聊聊。

查看評論(10)

24小時熱點排行

不丹大王母風韻猶存騎摩托,4位親姐妹共侍一夫
馬斯克20歲“女兒”意外亮相真人秀,穿露臍背心熱舞
新教皇的芝加哥故居待售,房主稱“像中了彩票”
“鞋王”家族內鬥!兒媳才是“大BOSS”?
女子曾冒用他人學籍,多年後發現自己學籍也被冒用

24小時討論排行

特朗普稱印巴在美國的斡旋下停火,魯比奧透露細節
美商家曬關稅賬單:進口3000美元付關稅4600美元
特朗普聲稱中美談判取得 “重大進展”
中國貨船歸零!加州州長:關稅恐讓美國丟'最大經濟體'地位
奧特曼國會聽證會發言:美國模型領先於中國,但...
美國收到"令人震驚情報",範斯致電印度總理促停火
中國籃協歸化新規:球員要棄原國籍、學唱國歌
英法德波四國領袖突訪問基輔 表態力挺烏克蘭
ICE在紐約執法!多名亞裔被捕,華裔在內
印度前外交官:讓巴基斯坦緩和局勢 中國說的話好使
特朗普在做中國想做的事:讓自由亞洲電台噤聲
告別戶口本!中國婚姻登記實現全國各地通辦
特朗普又反悔?這次要推動上調“超級富豪稅”
特朗普:將對各國維持至少10%基準關稅 但允許例外
“你好呀,丁真!好多年了…”華春瑩與丁真同框
趙作海去世,冤案製造者結局如何?
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

GPT-4變笨引爆輿論!文本代碼質量都下降

量子位 2023-06-02 03:52:08

大模型天花板GPT-4,它是不是……變笨了?

先是少數用戶提出質疑,隨後大量網友表示自己也注意到了,還貼出不少證據。

有人反饋,把 GPT-4 的 3 小時 25 條對話額度一口氣用完了,都沒解決自己的代碼問題。

無奈切換到 GPT-3.5,反倒解決了。

總結下大家的反饋,最主要的幾種表現有:

以前 GPT-4 能寫對的代碼,現在滿是 Bug

回答問題的深度和分析變少了

響應速度比以前快了

這就引起不少人懷疑,OpenAI 是不是為了節省成本,開始偷工減料?

兩個月前 GPT-4 是世界上最偉大的寫作助手,幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麽智能。

這就不免讓人想起微軟新必應" 出道即巔峰 ",後來慘遭 " 前額葉切除手術 " 能力變差的事情……

網友們相互交流自己的遭遇後," 幾周之前開始變差 ",成了大家的共識。

一場輿論風暴同時在 Hacker News、Reddit 和 Twitter 等技術社區形成。

這下官方也坐不住了。

OpenAI 開發者推廣大使Logan Kilpatrick,出麵回複了一位網友的質疑:

API 不會在沒有我們通知您的情況下更改。那裏的模型處於靜止狀態。

不放心的網友繼續追問確認 " 就是說 GPT-4 自從3 月 14 日發布以來都是靜態的對吧?",也得到了 Logan 的肯定回答。

" 我注意到對於某些提示詞表現不一致,隻是由於大模型本身的不穩定性嗎?",也得到了"Yes"的回複。

但是截至目前,針對網頁版 GPT-4 是否被降級過的兩條追問都沒有得到回答,並且 Logan 在這段時間有發布別的內容。

那麽事情究竟如何,不如自己上手測試一波。

對於網友普遍提到 GPT-4 寫代碼水平變差,我們做了個簡單實驗。

實測 GPT-4" 煉丹 " 本領下降了嗎?

3 月底,我們曾實驗過讓 GPT-4" 煉丹 ",用 Python 寫一個多層感知機來實現異或門。

△ShareGPT 截圖,界麵稍有不同

讓 GPT-4 改用 numpy 不用框架後,第一次給出的結果不對。

在修改兩次代碼後,運行得到了正確結果。第一次修改隱藏神經元數量,第二次把激活函數從 sigmoid 修改成 tanh。

6 月 2 日,我們再次嚐試讓 GPT-4 完成這個任務,但換成了中文提示詞。

這回 GPT-4 第一次就沒有使用框架,但給的代碼仍然不對。

後續隻修改一次就得到正確結果,而且換成了力大磚飛的思路,直接增加訓練 epoch 數和學習率。

回答的文字部分質量也未觀察到明顯下降,但響應速度感覺確實有變快。

由於時間有限,我們隻進行了這一個實驗,且由於 AI 本身的隨機性,也並不能否定網友的觀察。

最早 4 月 19 日就有人反饋

我們在 OpenAI 官方 Discord 頻道中搜索,發現從4 月下旬開始,就不時有零星用戶反饋 GPT-4 變差了。

但這些反饋並未引發大範圍討論,也沒有得到官方正式回應。

5 月 31 日,Hacker News 和 Twitter 同天開始大量有網友討論這個問題,成為整個事件的關鍵節點。

HackerNews 一位網友指出,在 GPT-4 的頭像還是黑色的時候更強,現在紫色頭像版在修改代碼時會丟掉幾行。

在 Twitter 上較早提出這個問題的,是 HyperWrite(一款基於 GPT API 開發的寫作工具)的 CEO,Matt Shumer。

但這條推文卻引發了許多網友的共鳴,OpenAI 員工回複的推文也正是針對這條。

不過這些回應並沒讓大家滿意,反而討論的範圍越來越大。

比如 Reddit 上一篇帖子提到,原來能回答代碼問題的 GPT-4,現在連哪些是代碼哪些是問題都分不出來了。

在其他網友的追問下,帖子作者對問題出現的過程進行了概述,還附上了和 GPT 的聊天記錄。

對於 OpenAI 聲稱模型從三月就沒有改動過,公開層麵確實沒有相關記錄。

ChatGPT 的更新日誌中,分別在1 月 9 日、1 月 30 日、2 月 13 日提到了對模型本身的更新,涉及改進事實準確性和數學能力等。

但自從3 月 14 日GPT-4 發布之後就沒提到模型更新了,隻有網頁 APP 功能調整和添加聯網模式、插件模式、蘋果 APP 等方麵的變化。

假設真如 OpenAI 所說,GPT-4 模型本身的能力沒有變化,那麽這麽多人都感覺它表現變差是怎麽回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras 創始人 Fran ois Chollet 就表示,不是 GPT 的表現變差,而是大家渡過了最初的驚喜期,對它的期待變高了。

Hacker News 上也有網友持相同觀點,並補充到人們的關注點發生了改變,對 GPT 失誤的敏感度更高了。

拋開人們心理感受的差異,也有人懷疑API 版本和網頁版本不一定一致,但沒什麽實據。

還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種汙染。

△WebPilot 插件中的額外提示詞

這位網友就表示,在他看來 GPT 表現變差正是從插件功能開始公測之後開始的。

也有人向 OpenAI 員工詢問是否模型本身沒變,但推理參數是否有變化?

量子位也曾偶然 " 拷問 " 出 ChatGPT 在iOS 上的係統提示詞與網頁版並不一致。

如果在手機端開啟一個對話,它會知道自己在通過手機與你交互。

會把回答控製在一到兩句話,除非需要長的推理。

不會使用表情包,除非你明確要求他使用。

△不一定成功,大概率拒絕回答

那麽如果在網頁版繼續一個在 iOS 版開啟的對話而沒意識到,就可能觀察到 GPT-4 回答變簡單了。

總之,GPT-4 自發布以來到底有沒有變笨,目前還是個未解之謎。

但有一點可以確定:

3 月 14 日起大家上手玩到的 GPT-4,從一開始就不如論文裏的。

與人類對齊讓 AI 能力下降

微軟研究院發表的 150 多頁刷屏論文《AGI 的火花:GPT-4 早期實驗》中明確:

他們早在 GPT-4 開發未完成時就得到了測試資格,並進行了長期測試。

後來針對論文中很多驚豔例子,網友都不能成功用公開版 GPT-4 複現。

目前學術界有個觀點是,後來的RLHF 訓練雖然讓 GPT-4 更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學家張弋在中文播客節目《What ’ s Next|科技早知道》S7E11 期中也提到:

那個版本的模型,比現在外麵大家都可以拿得到的 GPT-4 還要更強,強非常非常多。

舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓 GPT-4 使用 LaTeX 中的 TikZ 畫一個獨角獸來追蹤 GPT-4 能力的變化。

論文中展示的最後一個結果,畫得已經相當完善。

但論文一作Sebastien Bubeck後續在 MIT 發表演講時透露了更多信息。

後來當 OpenAI 開始關注安全問題的時候,後續版本在這個任務中變得越來越糟糕了。

與人類對齊但並不降低 AI 自身能力上限的訓練方法,也成了現在很多團隊的研究方向,但還在起步階段。

除了專業研究團隊之外,關心 AI 的網友們也在用自己的辦法追蹤著 AI 能力的變化。

有人每天讓 GPT-4 畫一次獨角獸,並在網站上公開記錄。

從 4 月 12 日開始,直到現在也還沒看出來個獨角獸的大致形態。

當然網站作者表示,自己讓 GPT-4 使用 SVG 格式畫圖,與論文中的 TikZ 格式不一樣也有影響。

並且 4 月畫的與現在畫的似乎隻是一樣差,也沒看出來明顯退步。

最後來問問大家,你是 GPT-4 用戶麽?最近幾周有感到 GPT-4 能力下降麽?歡迎在評論區聊聊。