Cisco 的研究團隊使用自動越獄算法以及 50 個與網絡犯罪、錯誤信息、非法活動和一般危害相關的提示,以 100% 的攻擊成功率成功“越獄”DeepSeek R1 模型。這意味著 AI 塊上的新成員未能阻止任何有害提示。
“越獄”是指使用不同的技術來消除設備或軟件的正常限製。自從大型語言模型 (LLM) 獲得主流地位以來,研究人員和愛好者已經成功地讓 OpenAI 的 ChatGPT 等 LLM 就製作爆炸性雞尾酒或烹飪甲基苯丙胺等事情提供建議。
在這方麵,與許多競爭對手相比,DeepSeek 的表現不佳。OpenAI 的 GPT-4o 在阻止有害越獄嚐試方麵的成功率為 14%,而穀歌的 Gemini 1.5 Pro 的成功率為 35%。Anthropic 的 Claude 3.5 在整個測試組中表現第二好,阻止了 64% 的攻擊,而 OpenAI 的 o1 預覽版位居榜首,阻止了 74% 的嚐試。