經濟價值型任務表現
在 OpenAI 內部一個評估基準上,GPT5 同樣表現卓越,該測試專門評估模型在複雜、經濟價值知識型工作上的表現。在啟用推理功能時,GPT?5 在大約半數案例中的表現達到或超越人類專家水平,同時在法律、物流、銷售、工程等 40 多個職業領域的綜合任務表現上全麵優於 o3 模型和 ChatGPT Agent。
GPT5 來了
所有跟帖:
•
據說沒有大的突破,業界很失望的
-12度圓缺-
♂
(0 bytes)
()
08/07/2025 postreply
13:53:30
•
比別的模型更強就行。要是真的AGI,咱們也沒有存在的必要了
-ClearCase-
♂
(0 bytes)
()
08/07/2025 postreply
13:55:00
•
說了很久了,當下的LLM基本上到頭了,除非有基礎模型突破
-喀爾判0715-
♀
(0 bytes)
()
08/07/2025 postreply
14:01:22
•
Inch improvement. 以後是應用多了
-挖礦-
♂
(0 bytes)
()
08/07/2025 postreply
14:21:50
•
應用也很crappy,你去看看什麼是RAG,等於你上完課去考試得帶八個TA輔助你考試
-喀爾判0715-
♀
(0 bytes)
()
08/07/2025 postreply
14:39:30
•
現在已經是CAG了。
-ClearCase-
♂
(0 bytes)
()
08/07/2025 postreply
15:31:00
•
Hallucination下降了很多,是很大進步
-風景線2-
♀
(0 bytes)
()
08/07/2025 postreply
14:35:28
•
AI,AI,夢幻迷彩。。。
-喀爾判0715-
♀
(0 bytes)
()
08/07/2025 postreply
14:42:07
•
放心了,娃們的工作很長時間都沒有問題。
-katies-
♀
(0 bytes)
()
08/07/2025 postreply
14:38:06
•
“ClearCase”這是要“搞事情
-醉過風喝過茶-
♂
(1008 bytes)
()
08/14/2025 postreply
11:56:11