
2025年的人工智慧不再是鐵板一塊的領域,而是由少數個人及其組織共同塑造的戰場。這場競爭涵蓋推理模型、許可協議、高能耗的計算集群以及數十億人日常互動的方方面面。基準測試只是冰山一角,而分發、資料權利和基礎設施則揭示了其餘部分。
OpenAI 由薩姆·奧特曼(Sam Altman)領導的AI、埃隆·馬斯克(Elon Musk)領導的xAI、馬克·扎克伯格(Mark Zuckerberg)領導的Meta以及桑達爾·皮查伊(Sundar Pichai)和德米斯·哈薩比斯(Demis Hassabis)領導的谷歌仍然佔據著前線。在他們周圍,Anthropic、微軟、蘋果、AWS、NVIDIA和Mistral都掌握著關鍵的槓桿。他們攜手 defi人工智慧競賽的節奏、經濟與政治。
山姆·奧特曼 | OpenAI
OpenAI 2025 年 8 月,隨著 GPT-5,一種旨在處理快速響應和擴展推理的單一模型架構。 GPT-5 取代了先前支離破碎的陣容,包括 GPT-4o 和 o3,現已推出 在所有 ChatGPT 第三,對免費用戶有基於使用情況的限制,對 Plus 和 Pro 訂閱者有擴展容量。
該模型展現出更強大的編碼、數學和多模態能力,同時顯著減少幻覺。內建的「推理路由器」可在快速任務和複雜任務之間動態分配運算能力,從而簡化開發者體驗和企業部署。微軟集成 GPT-5 直接進入 Azure 人工智慧鑄造廠,讓企業買家能夠透過統一的端點存取全方位的功能。
通過定位 GPT-5 同時作為消費者預設和企業級 API, OpenAI 強化了其雙重策略:大規模分發與深度開發者參與相結合。與 Reddit 和 Axel Springer 達成的內容授權協議表明,可擴展部署現在不僅取決於原始模型的效能,還取決於協商的資料權利。
伊隆麝香 | AI
今年二月2025, xAI 推出 Grok 3 (Think) 和 Grok 3 mini (Think)——透過強化學習訓練的模型,支持多秒推理、回溯和自我驗證。在基準測試中,Grok 3 (Think) 在 AIME 考試中得分 93.3%,在 GPQA 考試中得分 84.6%,在 LiveCodeBench 考試中得分 79.4%;Grok 3 mini 在 AIME 2024 考試中得分 95.8%,在 LiveCodeBench mini 在 AIME 2024 考試中得分 95.8%,在 LiveCodeBench 14%。
這些模型背後 矗立巨像,一台以創紀錄的速度部署的超級電腦:xAI 建構了一個由 100,000 萬塊 NVIDIA GPU 組成的初始集群,並在 92 天內翻了一番,達到 200,000 萬塊。這種超大規模的基礎架構鞏固了 Grok 的推理速度,並支持「思考」模式。 迄今為止,xAI 仍然致力於進一步提高容量,表明其將原始計算作為競爭優勢。
這種規模使得 xAI 能夠快速提供推理優先的效能。但快速擴張也帶來了一些弊端——企業客戶在評估 Grok 的基準的同時,也關注治理、訓練資料來源和系統穩定性。
馬克·扎克伯格 | Meta
Meta 加倍支持公開重量級理論 隨著 2025 年 4 月發布的 Llama 4兩種型號——Scout(緊湊型,擁有 10 萬個令牌上下文窗口)和 Maverick(更大且基準領先)——均已根據社區許可協議發布,比僅使用 API 的替代方案提供了更寬鬆的使用方式,但仍然限制了大規模商業部署。第三個變體 Behemoth 仍在訓練中,擁有約 288 億個活躍參數,並聲稱其性能優於其他變體。 GPT-4.5 和 Claude Sonnet 關於 STEM 基準。
元嵌入 Meta AI 應用程式由 Llama 4 在其生態系統(Instagram、Facebook、WhatsApp、Messenger)以及雷朋 Meta 智慧眼鏡中,都能實現這一點。該應用程式支援語音和文字交互,可跨會話記住對話上下文,並具有「發現」功能,方便用戶快速分享和混音。
這項策略強調深度社交覆蓋與模型透明度的結合。 Meta 透過在受控條款下開放權重訪問,並將 AI 融入核心平台和硬件,加速了其應用——儘管謹慎的授權策略表明,完全的商業自由仍然受到限制。
桑德爾·皮蔡 | Google
谷歌有 全面進入雙子座時代。 2025 年,該公司確認 Gemini 將在 Android、Nest 裝置和第三方整合中取代 Google Assistant,從而在整個生態系統中嵌入單一的 AI 層。
目前的旗艦產品, 雙子座2.5有兩種版本:Pro 和 Flash。 Pro 提供擴展推理功能,上下文視窗高達一百萬個 token,專為複雜的編碼、研究和多模態任務而設計。 Flash 則著重速度和效率,以更低的成本提供輕量推理。兩種型號均可透過 谷歌人工智慧工作室 以及 Vertex AI 等企業通路。
整合範圍已超越手機。 Gemini 現已成為 Workspace 生產力工具的支柱,為文件、表格和 Gmail 提供上下文推理功能,同時也擴展到 YouTube 推薦和搜尋生成體驗。這種覆蓋數十億用戶和設備的分佈範圍彰顯了Google的結構性優勢:沒有其他人工智慧系統能如此深入地融入全球日常習慣。
達里奧·阿莫代 | 人類的
Anthropic 提出了混合推理理論 與克勞德 3.7 十四行詩該模型於 2025 年 2 月在 Anthropic 的 Web 應用、API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上公開發布。該模型將快速響應與更深入的分析相結合,使用戶能夠切換「擴展思維」模式並控制計算預算——一個架構即可處理本能提示,又可進行逐步推理。它在編碼任務中表現出色,基準測試顯示 SWE-bench 上的準確率顯著提升。 經過驗證的長上下文輸出顯著改進 和基於邏輯的任務。
Anthropic 還推出了 Claude Code,這是一個用於「代理」開發的命令列工具,使 Claude 能夠直接從終端運行程式碼、觸發工具和管理工程任務——目前與 3.7 Sonnet 一起在研究預覽版中提供。
除了技術創新之外,Anthropic 還優先考慮安全性:Claude 3.7 Sonnet 已獲得安全保障 Bedrock 中的 FedRAMP High 和 DoD IL4/5 授權,使其適合受監管的工作負載。
隨後,在2025年5月,Claude家族擴展至Sonnet 4和Opus 4,它們增強了推理能力,減少了捷徑,改進了代碼生成,並提供了“思考摘要”,以展現模型的基本原理。其中,Opus 4在Anthropic的內部安全等級中被歸類為3級,這意味著其擁有強大的能力,並受到更嚴格的監管。
薩蒂亞納德拉 | Microsoft微軟
微軟採取雙重策略—繼續透過 Office、Windows 和 Bing 分發 Copilot,同時建立自己的模型生態系統。 Phi-4系列小型語言模型,特別是 14 億參數基礎版本和經過微調的 Phi-4-推理,以低延遲提供高級數學和推理功能。這些模型依賴精選的合成資料集和從大型模型中提煉的模型,在數學和科學基準測試中的表現遠遠超過更強大的模型。 Phi-4-Reasoning 風格的模型現已可透過 Azure AI Foundry 存取。
微軟的MAI 該計劃進一步擴展了這種自主性。 MAI-Voice-1 是一個富有表現力的語音生成模型,它使用單一 GPU 在不到一秒的時間內產生一分鐘的高品質音訊。它已部署在 Copilot Daily 和 Podcasts 中,並在 Copilot Labs 中進行實驗。與其配對的 MAI-1-preview 是第一個完全內部的大型語言模型,經過大規模訓練,目前正在 LMArena 中進行對話效能測試。
借助 Phi-4 和 MAI 等模型,微軟正在減少對 OpenAI。這種轉變增強了企業工作流程中的控制力、成本彈性和策略定位。
蒂姆·庫克 | Apple
蘋果的做法 蘋果情報在 WWDC 2024 上推出的 ,致力於將生成式 AI 深度嵌入 iOS、iPadOS、macOS 和 visionOS,同時不犧牲用戶隱私。該系統依靠裝置上的模型執行常規任務,同時將更繁瑣的處理任務轉移到私有雲運算 (Private Cloud Compute),這是一個基於伺服器的安全 AI 層,完全基於 Apple 晶片建置。至關重要的是, 私有雲 Compute 從不保留用戶數據,且其軟體堆疊可由獨立專家審核。
到 2024 年底,Apple Intelligence 將支援日常功能,包括資訊摘要、優化寫作、增強 Siri 的情境回應,以及支援混合裝置端和雲端模型的捷徑。該功能於 2024 年 10 月開始部署,並將於 2025 年春季在全球範圍內推廣,新增語言支持,並可在 Apple Vision Pro 上使用。
對蘋果而言,人工智慧競賽並非關乎前沿模型基準,而是關乎在數十億台裝置上提供可靠且符合隱私的智能,同時又不損害用戶信任。這種架構,比任何排行榜排名都更重要, defi蘋果在 2025 年的獨特地位。
安迪Jassy | AWS
AWS 將自己定位為產生 AI 靈活性的企業支點其 Nova 系列涵蓋針對文字、圖像、視訊、語音和代理工作流程的精細調整模型,所有模型均透過統一的 Amazon Bedrock 平台交付。這些模型包括 Nova Micro、Lite、Pro 和新推出的 Nova Premier,每個模型都在速度、成本和推理能力之間實現了平衡。在 Bedrock 工具包的支援下,它們支援文件解析、RAG 執行和介面級自動化。
對於創意內容,Nova Canvas 提供具有細粒度控制的工作室級圖像生成,而 Nova Reel 則透過自訂和浮水印功能處理影片生成 – 所有這些都可以透過 Bedrock API 獲得。
語音對話透過統一 新星索尼克,它將語音理解和表達生成功能結合在一個低延遲模型中。它透過 Bedrock 的雙向串流 API 實現即時、多語言對話串流,並具有細緻的語調和韻律渲染。
至關重要的是,AWS 將評估嵌入到 Nova 的管道中。 Nova 法學碩士法官項目 Amazon SageMaker AI 的功能可實現與人類判斷和最小偏見的模型比較,使企業能夠超越主觀檢查並提高品質控制。
總而言之,AWS 是建立在中立性之上,而非所有權。透過在 Bedrock 中提供原生客製化、全面的模態支援、代理工具和評估框架,AWS 使企業能夠選擇符合自身優先順序的模型,而無需強制鎖定單一提供者。
黃健森 | NVIDIA
NVIDIA 仍然是現代化 AI 基礎設施的支柱。 GB200 NVL72,建構了一個機架規模系統 圍繞 Grace Blackwell Superchip透過 900 GB/s NVLink 互連將兩個 Blackwell GPU 和一個 Grace CPU 統一起來,與基於 H100 的系統相比,推理速度提高 30 倍,訓練速度提高 4 倍,能源效率提高 25 倍,並在 72 個 GPU 之間共享一致內存。
在模組層面,Grace Blackwell Ultra Superchip 將一個 Grace CPU 與兩個 Blackwell Ultra GPU 配對,並 高達 40 PFLOPS 稀疏計算,配備 1 TB 統一記憶體並透過 ConnectX-8 SuperNIC 實現高速網路。
這些技術為百億億次級 AI 工作負載提供支持,並將運算密度與資料中心的功率限制緊密結合。包括 CoreWeave、Cohere、IBM 和 Mistral AI 在內的雲端服務供應商已經 已部署GB200 NVL72 大規模基礎設施。
NVIDIA 的晶片路線圖延續了每年的節奏。即將於 2026 年推出的 Rubin 架構承諾提供高達 50 PFLOPS 的 FP4 運算能力,是 Blackwell 架構的兩倍,而 Feynman 架構將於 2028 年推出。
簡而言之:NVIDIA 設定了 AI 時代的節奏。所有主要參與者——實驗室、雲端和第一線開發人員——都按照 NVIDIA 設定的節奏前進。它的運算架構仍然 defi確定可行性的界限。
阿瑟·門施 | 寒冷西北風
Mistral AI 已成為歐洲對抗美國巨頭最強的力量。該公司由 DeepMind 和 Meta 的前研究人員在巴黎創立,專注於在寬鬆許可下開發開放權重模型。例如: 米斯特拉爾·斯莫爾, 混合型 8×7B和 Magistral Small 在 Apache 2.0 下發布,可免費用於商業用途。同時,像 米斯特拉爾大號 2、Pixtral 和 Devstral 可根據研究或企業條款提供。
Magistral 於 2025 年發布,標誌著歐洲首個以推理為導向的架構,它既提供開放的實驗模型,也提供受監管行業的企業級版本。這種雙軌制體現了 Mistral 在開放性與企業可靠性之間尋求平衡的嘗試。
從戰略上講,Mistral 也體現了歐洲的數位主權。由半導體巨頭領投的 1.7 億歐元 C 輪融資 ASML 該公司估值提升至11.7億歐元,並將ASML納入其策略委員會。此次合作不僅將Mistral定位為技術創新公司,也標誌著歐洲正在投資獨立人工智慧基礎設施的政治訊號。
比較模型排名 │ LMArena Insights
On LMA競技場,這是一個眾包排名平台,用戶可以透過該平台在 AI 答案之間進行兩兩投票, 雙子座 2.5-Pro 領先 Vision Arena,緊隨其後的是 ChatGPT-4o GPT-5。此順序反映了使用者在多模態任務中的偏好,強化了 Google OpenAI 在前線。
這項排名揭示了三個相互交織的動態:
- 分發能力支撐了發展勢頭。谷歌的生態系統確保了 Gemini 變體的快速曝光,同時 ChatGPT的主導地位源自於教育、商業和開發者社群的頻繁使用。
- 感知與表現之間的差距。 GPT-5 和 Gemini Pro 可能會贏得選票,但他們的領先優勢仍然很小——這表明排行榜排名不僅僅是取決於原始能力。
- 不透明的基準測試。最近的一篇學術評論指出,專有模型通常獲得更多的用戶投票,而模型移除較少,這導致其在排行榜上的表現過度擬合——尤其是在谷歌和 OpenAI.
儘管 LMArena 缺乏對編碼、推理或特定搜尋挑戰的全面細分,但其在視覺類別下的發現可以即時了解領先模型中的使用者情緒。
總而言之,Gemini 2.5-Pro, ChatGPT-4哦,和 GPT-5 主導著當前的 Horizon 競賽。它們的排名不僅反映了技術優勢,也反映了生態系統覆蓋範圍、使用頻率和平台可見度的強化回饋循環。那些不太引人注目的參與者——開放權重模型和小型實驗室——儘管提交了變體,但由於訪問和用戶曝光度的結構性不平衡,仍然難以取得突破。
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。