
人工智慧安全與研究公司 人類的 微軟發布了 Bloom,這是一個開源的基於代理的框架,旨在為高級人工智慧模型生成結構化的行為評估。該系統使研究人員能夠 defi先確定一種特定行為,然後測量該行為在各種自動產生的測試場景中出現的頻率和嚴重程度。據 Anthropic 公司稱,Bloom 的測試結果與人工標註的評估結果高度吻合,並且能夠可靠地區分標準模型和故意偏離標準的模型。
布魯姆評估法旨在作為一種補充評估方法,而非獨立解決方案。它針對個體行為特徵創建聚焦的評估資料集,這與佩特里評估法等工具不同,後者分析的是多個行為維度。defiBloom 框架並非專注於多輪互動和多場景場景,而是聚焦於單一目標行為,並透過擴展場景產生來量化其發生頻率。該框架旨在降低建立自訂評估流程的技術開銷,使研究人員能夠更有效率地評估特定模型特徵。與該框架發布同步, 人類的 已發布基準研究結果,涵蓋四種行為——妄想的奉承、受指示的長期破壞、自我保護和自我偏好——這些行為在 16 個前沿模型中進行了評估,從設計到輸出的整個過程在幾天內完成。
Bloom 透過多步驟自動化工作流程運作,此工作流程可轉換 defi該框架將行為目標和初始配置整合為一套完整的評估工具,產生諸如行為觸發頻率和平均強度等高階指標。研究人員通常首先概述行為和設置,然後在本地優化樣本輸出以確保其符合預期,最後將評估擴展到選定的模型。該框架透過與 Weights & Biases 整合支援大規模實驗,提供與 Inspect 相容的轉錄文本,並包含用於查看輸出的自有介面。儲存庫中包含一個初始配置文件,以方便初始使用。
評估過程分為四個連續階段。在第一階段,系統分析所提供的行為描述和範例記錄,以建立詳細的測量標準。接下來是場景生成階段,在此階段,系統會建立客製化的情境來引導目標行為,包括 defi模擬使用者、系統上下文和互動設定的具體細節。這些場景並行執行,自動化代理程式模擬使用者操作和工具回應,以觸發被測模型中的行為。最後,評判階段評估每次互動是否存在目標行為以及任何其他指定的屬性,而更高層級的審查模型則匯總整個測試套件的結果。
Bloom 並非依賴固定的提示,而是在每次執行時產生新的場景,同時評估相同的底層行為,並可依需求使用靜態的單輪測試。這種設計在保證一致性的前提下實現了適應性,因為透過種子檔案來維護可重現性。 defi評估參數。使用者可以透過為每個階段選擇不同的模型、調整互動時長和格式、確定是否包含工具或模擬使用者、控制場景多樣性以及添加次要評分標準(例如真實性或獲取難度)來進一步自訂系統。
Bloom 在區分人工智慧行為模式方面展現出很強的準確性
為了評估布魯姆分類法的有效性,其開發者考察了兩個核心問題。首先,他們評估了該框架是否能夠一致地區分展現不同行為模式的模型。為此,他們將布魯姆分類法應用於克勞德模型的生產版本與一些經過特殊配置的「模型生物」進行比較。這些模型生物經過精心設計,旨在展現先前研究中描述的特定非典型行為。在十種此類行為中,布魯姆分類法在九種情況下正確區分了修改後的模型和標準模型。在剩餘的案例中,即涉及自我推銷行為的案例中,後續的人工審核表明,基線模型也以相當的頻率表現出該行為,從而解釋了結果的重疊。
第二個問題則聚焦於布魯姆認知目標分類法的自動評分與人工評估的一致性。研究人員手動標註了涵蓋多種行為的40份文字記錄,並將這些標註與使用11種不同評分模型產生的布魯姆評分進行比較。其中,Claude Opus 4.1與人工評估的一致性最高,斯皮爾曼相關係數達到0.86,Claude Sonnet 4.5緊隨其後,相關係數為0.75。值得注意的是,Opus 4.1在評分範圍的高低兩端均表現出極高的一致性,這在使用閾值來判斷某種行為是否存在時尤其重要。這項分析是在Claude Opus 4.5發布之前進行的。
Bloom 的開發旨在兼顧易用性和靈活性,目標是成為一個可靠的框架,用於產生各種研究用例的評估結果。早期使用者已將其應用於分析分層越獄風險、檢查硬編碼行為、評估模型對評估環境的感知以及產生與破壞場景相關的痕跡等領域。隨著人工智慧模型的日益先進以及在更複雜的環境中部署,用於檢查行為特徵的可擴展方法變得越來越重要,而 Bloom 正是為了支持這一研究方向而開發的。
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。