DeepSeek 未能通過研究人員向其提出的每一項安全測試

Cisco 的研究團隊使用自動越獄算法以及 50 個與網絡犯罪、錯誤信息、非法活動和一般危害相關的提示,以 100% 的攻擊成功率成功“越獄”DeepSeek R1 模型。這意味著 AI 塊上的新成員未能阻止任何有害提示。

“越獄”是指使用不同的技術來消除設備或軟件的正常限製。自從大型語言模型 (LLM) 獲得主流地位以來,研究人員和愛好者已經成功地讓 OpenAI 的 ChatGPT 等 LLM 就製作爆炸性雞尾酒烹飪甲基苯丙胺等事情提供建議。

在這方麵,與許多競爭對手相比,DeepSeek 的表現不佳。OpenAI 的 GPT-4o 在阻止有害越獄嚐試方麵的成功率為 14%,而穀歌的 Gemini 1.5 Pro 的成功率為 35%。Anthropic 的 Claude 3.5 在整個測試組中表現第二好,阻止了 64% 的攻擊,而 OpenAI 的 o1 預覽版位居榜首,阻止了 74% 的嚐試。

DeepSeek 未能通過研究人員向其提出的所有安全測試

所有跟帖: 

讓美國公司忙活於這些PC的東西把 -Lakelands03- 給 Lakelands03 發送悄悄話 (144 bytes) () 02/01/2025 postreply 07:27:14

人家就是run一個程序而已 -victor1988- 給 victor1988 發送悄悄話 (0 bytes) () 02/01/2025 postreply 08:00:02

請您先登陸,再發跟帖!