三方共同推出AI代理專用LLM開源安全基準測試
網路安全解決方案的先驅者及全球領導廠商 Check Point Software Technologies Ltd.(納斯達克股票代碼:CHKP)攜手近期收購、專注於 Agentic AI 應用的 AI 原生安全平台 Lakera,以及英國人工智慧安全研究所(簡稱 AISI)共同宣布推出開源安全評估工具—骨幹破壞基準測試(backbone breaker benchmark;後稱 b3),此工具是專為 AI 代理(AI agent)中的大型語言模型(LLM)安全性而設計。

b3 奠基於「威脅快照(threat snapshots)」的新概念上,聚焦於 LLM 最容易出現漏洞的關鍵節點進行測試,使開發者和模型供應商能無需建構完整且複雜的代理工作流程,即可評估其系統真實對抗安全挑戰時的抗壓能力。
Check Point 旗下的 Lakera 聯合創辦人暨首席科學家 Mateo Rojas-Carulla 表示:「我們打造 b3 安全基準測試是因為當今 AI 代理的安全性完全取決於其背後的 LLM 模型,威脅快照功能使我們能系統性地揭露那些至今仍隱藏在複雜代理工作流程中的漏洞。我們透過將這項基準測試開放給全球使用者,使開發者和模型供應商能以實際可行的方法衡量並提升安全態勢。」
此基準測試結合 10 個具代表性的代理「威脅快照」,以及透過遊戲化紅隊對抗平台 Gandalf: Agent Breaker[註] 收集的 19,433 筆高品質群眾外包(crowdsourced)對抗攻擊資料集,用以評估系統對各類攻擊的易受性,包括系統提示外洩、釣魚連結植入、惡意程式碼注入、拒絕服務攻擊以及未授權工具調用等。
系統進一步針對 31 款主流 LLM 進行初步測試,關鍵洞察如下:
• 強化的推理能力可顯著提升安全性
• 模型規模與安全效能之間無相關性
• 儘管頂尖開源模型的安全差距正在縮小,但閉源模型整體表現通常優於開源模型
b3 基準測試現已以開源授權形式發布,詳情請見 https://arxiv.org/abs/2510.22620
[註]
Gandalf: Agent Breaker 是一款駭客模擬遊戲,挑戰玩家在真實場景中破解並利用 AI 代理的能力。遊戲內建的十款生成式 AI 應用程式模擬現實世界中 AI 代理的行為模式,每款應用均設有不同難度等級、分層防禦機制及新穎攻擊面,考驗玩家從提示工程(prompt engineering)到紅隊對抗等全方位技能。部分應用以聊天互動為主,其餘則需運用程式碼思維、檔案處理、記憶體管理或外部工具使用。
Gandalf: Agent Breaker 的初始版本誕生於 Lakera 內部的黑客松活動,當時藍隊與紅隊試圖為持有秘密密碼的 LLM 建立最強防禦與攻擊策略。自 2023 年發布以來,它已成為全球規模最大的紅隊社群,累計生成逾 8000 萬筆資料點。這款原本作為趣味遊戲的工具,透過揭示生成式 AI 應用中的現實漏洞,有效提升了人們對「AI-First」安全重要性的認知。
