OpenAI 最新推出的 AI 模型 OpenAI o1,OpenAI 表示它在各種基準測試中表現卓越。從競技程式設計到超越人類博士水準的科學考試,o1 模型正在推動 AI 推理能力的新標準。
競技成就:AI 表現的新標準
OpenAI o1 已開放使用
儘管 OpenAI 正在努力使 o1 與現有模型一樣易於使用,早期版本 OpenAI o1-preview 已經在 ChatGPT 和受信任的 API 用戶中可用。這一早期接入旨在展示 o1 強大的推理能力及其重新定義 AI 應用的潛力。
數據高效的 AI 推理方法:關聯思考
該公司表示,OpenAI o1 的成功源於其大規模強化學習算法,該算法使用「關聯思考」 方法來教導模型進行有效推理。這種訓練方法具有高度的數據效率,使得模型能夠隨著強化學習的增強,和測試場景中思考時間的增加而穩定進步。與傳統的大型語言模型預訓練不同,這種方法具有獨特的擴展限制,OpenAI 正積極探索其中的奧秘。
推理密集型基準測試超越 GPT-4o
為強調 o1 相較於其前身 GPT-4o 的推理改進,OpenAI 將該模型測試於各類人類考試和機器學習基準測試中。結果顯示,o1 在大多數推理密集型任務中大幅超越 GPT-4o。在 2024 年 AIME 考試中,GPT-4o 僅解決了 12% 的問題,而 o1 在每個問題單一樣本情況下平均解決 74%,在 64 個樣本共識下達到 83%,在 1,000 個樣本使用評分函數重新排序後達到 93%。這一表現使 o1 排名全國前 500 名,超越進入美國數學奧林匹亞的門檻。
在科學基準測試中超越人類專家
OpenAI o1 在 GPQA diamond 基準測試中同樣表現出色,該測試針對化學、物理和生物領域的專業知識。OpenAI 邀請博士專家回答這些問題,結果顯示 o1 超越了人類專家,成為首個在該基準測試中達到此成就的模型。雖然這並不意味 o1 在所有方面都優於博士學位,但它突顯了該模型在特定領域的卓越問題解決能力。
在其他機器學習基準測試中,o1 繼續超越現有的最先進模型。啟用視覺感知功能後,o1 在 MMMU 中得分 78.2%,表現與人類專家相當,並在 57 個 MMLU 子類別中的 54 個超越 GPT-4o。
類似人類的思考方式:關聯思考
OpenAI o1 採用類似人類在回答複雜問題前的「關聯思考」方法。這種方法可以讓模型透過強化學習不斷優化策略,將困難的步驟分解為更簡單的任務,並在必要時探索替代方法。這一學習過程顯著提升了模型的推理能力,使其能更好地處理挑戰性問題。
程式設計表現可與人類工程師競爭
OpenAI 針對程式設計訓練了一個版本的 o1,並在競技程式設計中取得了顯著成果。該模型在 2024 年國際資訊奧林匹亞 中獲得 213 分,排名第 49 個百分位,展示了其在類似人類競賽條件下的程式設計技能。在放寬提交限制後,模型表現大幅提升,單題提交 10,000 次後得分超過金牌門檻。
在 Codeforces 主辦的模擬競技程式設計比賽中,o1 的 Elo 評分達到 1807,超越 93% 的人類競爭者,並遠遠超過 GPT-4o 的表現。
人類偏好評估:o1 vs. GPT-4o
OpenAI 也對 o1-preview 與 GPT-4o 於各類開放式提示下的回應進行了人類偏好評估。在數據分析、程式設計和數學等推理密集型領域,人類訓練師顯著偏好 o1-preview。然而,o1-preview 在某些自然語言任務中不被偏愛,顯示其不一定適用於所有使用場景。
OpenAI 此次強調安全性
o1 的「關聯思考」方法不僅提升了推理能力,還為安全性提供了新機會。OpenAI 已將安全政策整合進模型的推理過程,使其更能遵循人類的價值觀和原則。此方法使模型在關鍵安全基準上表現有所提升,展現了其在處理複雜倫理情境時的增強穩健性。
為保護競爭優勢並確保模型保持初衷,OpenAI 決定不對用戶顯示 o1 的原始關聯思考。取而代之的是,該模型會生成思維過程的摘要,這些摘要將指導最終答案,目的是在不妥協安全性的情況下保持透明度。
OpenAI o1 在 AI 推理領域邁出了重要的一步,在競技程式設計、數學和科學領域展現了卓越表現。隨著 OpenAI 持續改進該模型,未來版本有望進一步對齊人類價值觀,並在編程、科學等複雜推理密集型任務中開創新的應用前景。
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。