
人工智慧研究組織 OpenAI 宣布其 Realtime API 正式發布,新增功能,協助開發者和企業建立強大、可立即投入生產的語音代理。該 API 支援遠端 MCP 伺服器、影像輸入以及透過會話發起協定 (SIP) 進行電話呼叫,從而打造功能更強大、更具情境感知能力的語音應用。
除了 API 之外, OpenAI 發布了其最先進的語音轉語音模型 GPT-realtime,旨在提升指令跟隨、函數呼叫和自然語音的效果。該模型可以理解複雜的提示,在句子中切換語言,準確重現字母數字序列,並捕捉非語言線索。此外,還新增了兩種語音:Cedar 和 Marin,提供更具表現力和更接近人類的語調。現有語音已更新,以融入這些增強功能。
Realtime API 直接透過單一模型處理音頻,從而減少延遲並保留細微差別,這與傳統的將語音轉文字和文字轉語音模型連接起來的管線不同。 GPT-realtime 已與用戶合作進行訓練,在客戶支援、個人協助和教育等實際應用中表現出色。基準測試評估表明,與先前的模型相比,其在推理、指令遵循性和函數呼叫準確性方面均有顯著提升。
其他更新包括非同步函數調用,允許長時間運行的操作而不中斷正在進行的對話,進一步支援無縫的、可用於生產的語音體驗。
OpenAI 透過 MCP 支援、影像輸入、SIP 整合以及語音代理的成本節約控制來擴展即時 API
OpenAI的即時 API 現已包含新功能,旨在簡化整合並擴展可用於生產的語音代理的功能。開發人員可以透過將會話連結到 MCP 伺服器 URL 來啟用遠端 MCP 支持,從而使 API 能夠自動管理工具呼叫並存取其他功能,而無需手動設定。
GPT-realtime 模型現在支援圖像輸入,使系統能夠將照片、螢幕截圖和其他視覺內容與音訊或文字整合在一起。這使得用戶可以針對所見內容提出特定於上下文的問題,而開發人員則可以控制共享哪些圖像以及何時共享。
其他改進包括會話發起協定 (SIP) 支援將應用程式連接到電話網路和 PBX 系統,以及可重複使用的提示,讓開發人員可以在多個會話中保存和部署預先配置的指令、工具和範例訊息。
正式版 Realtime API 和 GPT-realtime 模型現已對所有開發者開放,價格較先前的 GPT-20o-realtime-preview 版本降低 4%。新增的對話上下文控制項可實現更智慧的令牌管理,從而降低長時間會話的成本。此外,我們也提供文件、測試平台和 Realtime API 提示指南,幫助開發者輕鬆掌握這些功能。
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。