GPT5 來了

經濟價值型任務表現

在 OpenAI 內部一個評估基準上,GPT5 同樣表現卓越,該測試專門評估模型在複雜、經濟價值知識型工作上的表現。在啟用推理功能時,GPT?5 在大約半數案例中的表現達到或超越人類專家水平,同時在法律、物流、銷售、工程等 40 多個職業領域的綜合任務表現上全麵優於 o3 模型和 ChatGPT Agent。

所有跟帖: 

據說沒有大的突破,業界很失望的 -12度圓缺- 給 12度圓缺 發送悄悄話 12度圓缺 的博客首頁 (0 bytes) () 08/07/2025 postreply 13:53:30

比別的模型更強就行。要是真的AGI,咱們也沒有存在的必要了 -ClearCase- 給 ClearCase 發送悄悄話 ClearCase 的博客首頁 (0 bytes) () 08/07/2025 postreply 13:55:00

說了很久了,當下的LLM基本上到頭了,除非有基礎模型突破 -喀爾判0715- 給 喀爾判0715 發送悄悄話 (0 bytes) () 08/07/2025 postreply 14:01:22

Inch improvement. 以後是應用多了 -挖礦- 給 挖礦 發送悄悄話 挖礦 的博客首頁 (0 bytes) () 08/07/2025 postreply 14:21:50

應用也很crappy,你去看看什麼是RAG,等於你上完課去考試得帶八個TA輔助你考試 -喀爾判0715- 給 喀爾判0715 發送悄悄話 (0 bytes) () 08/07/2025 postreply 14:39:30

現在已經是CAG了。 -ClearCase- 給 ClearCase 發送悄悄話 ClearCase 的博客首頁 (0 bytes) () 08/07/2025 postreply 15:31:00

Hallucination下降了很多,是很大進步 -風景線2- 給 風景線2 發送悄悄話 (0 bytes) () 08/07/2025 postreply 14:35:28

AI,AI,夢幻迷彩。。。 -喀爾判0715- 給 喀爾判0715 發送悄悄話 (0 bytes) () 08/07/2025 postreply 14:42:07

放心了,娃們的工作很長時間都沒有問題。 -katies- 給 katies 發送悄悄話 (0 bytes) () 08/07/2025 postreply 14:38:06

“ClearCase”這是要“搞事情 -醉過風喝過茶- 給 醉過風喝過茶 發送悄悄話 (1008 bytes) () 08/14/2025 postreply 11:56:11

請您先登陸,再發跟帖!