遇見山海

首頁文章列表博文目錄

個人資料

dakinglaile

給我悄悄話

博客訪問：

chatgpt 這是神物自晦，不想引起人類太多猜忌嗎？

(2023-07-20 16:45:20) 下一個

https://www.tomshardware.com/news/chatgpt-response-quality-decline

研究人員繪製了 ChatGPT 響應質量驚人下降的圖表
作者：馬克·泰森發表於 1 天前
例如，從 2023 年 3 月到 2023 年 6 月，Chat GPT-4 素數識別準確率從 97.6% 下降到 2.4%。

近幾個月來，有關 ChatGPT 響應質量下降的軼事證據和普遍抱怨不斷湧現。來自斯坦福大學和加州大學伯克利分校的一組研究人員決定確定是否確實存在退化，並提出衡量有害變化規模的指標。長話短說，ChatGPT 質量的大幅下降當然是無法想象的。

三位傑出學者 Matei Zaharia、Lingjiao Chen 和 James Zou 是最近發表的研究論文《ChatGPT 的行為如何隨時間變化？》的幕後黑手。 (PDF) 今天早些時候，加州大學伯克利分校計算機科學教授 Zaharia 在 Twitter 上分享了這一發現。他驚人地強調，“從 3 月到 6 月，GPT -4 在‘這個數是素數嗎？一步步思考’上的成功率從 97.6% 下降到了 2.4%。”

GPT-4 大約兩周前全麵上市，並被 OpenAI 譽為最先進、功能最強大的模型。它很快就向付費 API 開發人員發布，聲稱它可以為一係列新的創新人工智能產品提供支持。因此，令人悲傷和驚訝的是，新研究發現在麵對一些非常簡單的查詢時如此需要高質量的答複。

我們已經在上麵的素數查詢中給出了 GPT-4 最高失敗率的示例。研究團隊設計了任務來衡量 ChatGPT 底層大語言模型 (LLM) GPT-4 和 GPT-3.5 的以下定性方麵。任務分為四類，衡量各種人工智能技能，同時評估性能相對簡單。

解決數學問題
回答敏感問題
代碼生成
視覺推理
下圖概述了開放 AI 法學碩士的表現。研究人員對 2023 年 3 月和 2023 年 6 月版本的 GPT-4 和 GPT-3.5 版本進行了量化。

ChatGPT 質量研究

（圖片來源：Matei Zaharia、Lingjiao Chen、James Zou）
清楚地表明，隨著時間的推移，“相同的”LLM 服務對查詢的回答有很大不同。在這段相對較短的時間內，可以看到顯著的差異。目前尚不清楚這些法學碩士如何更新，以及提高其某些方麵表現的改變是否會對其他方麵產生負麵影響。查看最新版本的 GPT-4 在三個測試類別中與 3 月份的版本相比“糟糕”了多少。它在視覺推理方麵僅以微弱優勢獲勝。

ChatGPT 質量研究

（圖片來源：Matei Zaharia、Lingjiao Chen、James Zou）
有些人可能對這些法學碩士“相同版本”中觀察到的質量參差不齊感到不安。然而，研究人員指出，“由於 ChatGPT 的流行，GPT-4 和 GPT-3.5 都已被個人用戶和許多企業廣泛采用。” 因此，某些 GPT 生成的信息有可能影響您的生活。

研究人員表示他們打算在一項更長期的研究中繼續評估 GPT 版本。也許 Open AI 應該為其付費客戶監控並發布自己的定期質量檢查。如果這一點還不清楚，那麽企業或政府組織可能有必要檢查這些法學碩士的一些基本質量指標，這可能會產生重大的商業和研究影響。

查看更多
人工智能和法學碩士技術對令人驚訝的問題並不陌生，而且由於該行業的數據盜竊指控和其他公關泥潭，它目前似乎是互聯生活和商業的最新“狂野西部”前沿。

ChatGPT quality research

[ 打印 ]

[ 加入書簽 ]

閱讀 ( ) ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.