MiniMax M2.1 為複雜的實際應用提供高階多語言程式設計功能

Mpost • 2025 年 12 月 29 日 22:16 • 资讯 • 阅读 459

中國人工智慧開發商極小該公司宣布發布 M2.1 型號，並將其描述為重大升級，旨在為多種程式語言以及行動和 Web 應用程式開發提供更強大的效能。

據該公司稱，早期的 M2 版本主要側重於降低營運成本和提高可訪問性，而 M2.1 版本則專注於提高複雜實際任務的效率，尤其註重更廣泛的語言支援和實際辦公室用例。

極小該公司表示，該模型目前在多種程式語言（包括 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript 和 JavaScript）方面均實現了顯著提升，從而能夠實現從底層系統工程到應用層構建的端到端開發。該公司還宣布，Web 和行動開發方面也得到了重大改進，增強了對原生 Android 和 iOS 的支持，同時擴展了模型解讀設計需求、生成視覺效果精美的介面以及構建高級互動式三維模擬環境的能力。

該公司進一步指出，M2.1 改進了對複雜指令集和整合任務執行的處理，從而在辦公室場景中實現了更可靠的效能。與前代版本相比，新版本響應更短、效率更高，執行速度更快，計算開銷更低，有助於實現更流暢的 AI 輔助編碼和基於代理的操作流程。 MiniMax 還補充道，M2.1 與各種開發工具和代理框架具有很強的兼容性，並提高了對話和寫作質量，在技術文件和一般溝通場景中都能產生更詳細、結構更清晰的輸出。

M2.1 樹立了新的效能標桿，在多語言和全端評估中均取得了顯著提升。

MiniMax公司報告稱，其M2.1模型在主要軟體工程基準測試中，相比先前的M2版本，效能均有顯著提升，尤其是在多語言程式設計任務中表現突出，其效能超越了Claude Sonnet 4.5，並接近Claude Opus 4.5。該公司表示，在SWE-bench Verified平台上使用一系列編碼代理框架進行的評估表明，該框架具有高度的通用性和運作穩定性。

據報道，涵蓋測試生成、運行時優化、程式碼審查和指令合規性等領域的額外基準測試表明，M2.1 相較於 M2 有顯著改進，其中 M2.1 在多個類別中始終與 Claude Sonnet 4.5 的性能持平或更優。為了評估該模型從初始概念到功能部署的完整應用程式的設計和交付能力，MiniMax 引入了一個名為 VIBE 的全新評估框架，該框架可衡量 Web、模擬、Android、iOS 和後端開發中的視覺品質和互動行為。與傳統測試方法不同，VIBE 採用基於代理的自動化驗證方法來檢查介面美觀性和運行時邏輯。

據MiniMax稱，M2.1的VIBE總分為88.6分，反映出其強大的全端開發能力，尤其在Web開發（91.5分）和Android開發（89.7分）方面表現突出。該公司還補充說，與先前的M2版本相比，該模型在擴展工具使用和整體智慧指標方面也持續改進。

Source link

免责声明：本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。

MiniMax M2.1 為複雜的實際應用提供高階多語言程式設計功能

M2.1 樹立了新的效能標桿，在多語言和全端評估中均取得了顯著提升。

相关推荐

发表回复