13.8%和13.11%哪個大?一眾大模型集體翻車

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
(被閱讀 次)

7月13日

最新一期的《歌手》公布排名

孫楠得票13.8%

歌手香緹莫得票13.11%。

引發了網友對排名的質疑

13.8%和13.11%哪個大?一眾大模型集體翻車

不少網友認為13.11%大於13.8%,

因此,香緹莫的得票率比孫楠高。





隨後,關於13.8和13.11大小比較的話題,

迅速衝上微博熱搜!

其實,這個知識點

在小學四年級的課本中就有答案。

然而,這道小學生難度的數學題

也難倒了一眾海內外AI大模型。

據第一財經、財聯社等媒體測試,ChatGPT、Kimi、智譜清言、商湯商量、階躍星辰等大部分大模型應用紛紛翻車,而文心一言、字節豆包等少部分大模型則守住了尊嚴。



值得注意的是,ChatGPT等大模型出現了胡說八道的現象。在為13.8填補了13.80的零位數後,才得出了正確的回答。這類大模型說胡話的現象,在業界被稱為大模型出現幻覺。此前,哈爾濱工業大學和華為的研究團隊發表的綜述論文認為,模型產生幻覺的三大來源:數據源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式,如位置接近性、共現統計數據和相關文檔計數,從而導致幻覺。此外,大模型還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。

有產業界人士表示,目前大模型的幻覺率仍然較高,這也是產業界缺乏真正顛覆性應用的原因之一,業界都在共同解決這一核心問題,讓大模型在業務流程中變得更可控。

據極目新聞,今年6月19日,上海人工智能實驗室發布首個AI高考全卷評測結果,本次評測采用全國新課標Ⅰ卷,其中,語文評卷顯示,大模型的現代文閱讀理解能力普遍較強,但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題,雖有針對性,但缺乏修飾,幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數大模型不理解“本體”“喻體”“暗喻”等語文概念。對於文章中的一些“潛台詞”,大模型也無法完全理解。

數學評卷顯示,大模型的主觀題回答相對淩亂,解題過程有迷惑性,甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力很強,但無法在解題過程中靈活運用。

大模型的英語整體表現良好,大模型寫的英語作文普遍存在因超出字數限製被扣分的情況,而人類考生大多因為字數不夠被扣分。

據第一財經,一位算法工程師認為,生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數據訓練過程中學到的是相關性,使得AI在文字創作上達到人類平均水平,而數學推理更需要的是因果性,數學是高度抽象和邏輯驅動的,與語言模型處理的語言數據在本質上有所不同。這意味著大模型要學好數學,除了學習世界知識外,還應該有思維的訓練,從而具備推理演繹能力。

不過,上述問題也正在慢慢被解決,在思維能力上更核心的可能還是訓練語料的問題。大語言模型主要通過互聯網上的文本數據進行訓練,而這些數據中數學問題和解決方案相對較少,導致模型在數學推理和問題解決技能上的訓練機會有限。

值得一提的是,大模型的複雜推理能力尤為重要,這關乎可靠性和準確性,是大模型在金融、工業等場景落地需要的關鍵能力。

“現在很多大模型的應用場景是客服、聊天等等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。”上海人工智能實驗室領軍科學家林達華此前表示,複雜推理關係到落地應用時大模型的可靠性,例如在金融這樣的場景下不能在數字上有差錯,會對數學上的可靠性有較高的要求。另外隨著大模型進入商用,若要分析一家公司的財報,甚至是工業領域要去分析一些技術文檔,這時數學方麵的計算能力就會成為一個壁壘。

Huilianghu5 發表評論於
就是說AI的數學隻有三年級水平。
AI智商發展迅速,但群起追逐,出現漏洞很正常。高級程序員也會出現低級錯誤。
seator 發表評論於
充分體現garbage in garbage out,英文問chatgpt會給出正確答案,中文問就是錯的
southkeys 發表評論於
現在這些都是語言模型,不是邏輯或者數學模型,完全沒法理解數字
maina 發表評論於
做錯和不會做完全是兩回事,把會做的題做錯了是人類經常發生的事,AI作為人工智能當然也會發生。
人_天涯 發表評論於
自己試一下就知道是不是謠言
davidinchina 發表評論於
13.8 就是13.80。 .80>.11
shakuras2000 發表評論於
扯淡
Chatgpt
13.11%和13.8%哪個大?

13.8% 比 13.11% 大。
這是因為小數點後第二位的8大於1,所以整體數值13.8%大於13.11%。
令胡衝 發表評論於


全貼胡扯八道。胡編亂造。ChatGPT不會答錯。而且會把原因和邏輯運算過程自動給出。



LISP 發表評論於
大模型自動駕駛

最後就是這樣

的不靠譜
朕不給你不能搶 發表評論於
我用英文問就沒有問題
風嘯嘯壯士 發表評論於
AI 搞數學運算據說不靈光,我還從未用過AI。
3437尋愛天地 發表評論於
弱智的問題
是我大爺 發表評論於
寫成13.11%和13.80%就不會翻車了。哈哈哈
0101011 發表評論於
小數點的寫法不合理
不能再沉默 發表評論於
靠,發現我也翻車了,,哈哈哈