OpenAI的運營代理通過新的AI模型獲得提升

OpenAI將驅動Operator的AI模型從之前的定制版GPT-4o更新爲基於o3的模型,這是OpenAI最新的“推理”模型系列中的一員。o3 Operator經過額外的計算機使用安全數據的微調,並包含旨在教導模型決策邊界的安全數據集。

OpenAI 在 ChatGPT 中升級了 Operator,推出了基於 OpenAI o3 版本的新計算機使用代理 (CUA) 模型。使用新模型後,Operator 在與瀏覽器交互時變得更加持久和準確,提高了整體任務成功率。它還提供了更結構化的響應,內容更清晰、全面。

根據OpenAI的說法,新的CUA模型在行業中表現更強,在OSWorld和WebArena上達到了SOTA。它相對於先前版本的表現也更強,無論是在既定基準測試還是人類偏好評估中。

OpenAI用基於o3的版本替代了基於GPT‑4o的模型

OpenAI 暗示 ChatGPT Operator Agent pic.twitter.com/iGPQp9butD 將進行重大升級

— SabatAge (@sabatage) 2025 年 5 月 22 日

OpenAI用基於OpenAI o3的版本替換了現有的基於GPT‑4o的Operator模型,盡管API版本將繼續基於4o。該AI公司還聲稱,o3 Operator使用與4o版本相同的多層安全方法。

然而,與 o3 家族中的其他模型相比,o3 操作員經過了額外的安全數據微調,以用於計算機使用,包括旨在教導模型在確認和拒絕方面的決策邊界的安全數據集。

OpenAI發布了一份技術報告,顯示了o3操作員在特定安全評估中的表現。與GPT-4o操作員模型相比,o3操作員拒絕執行“非法”活動和搜索敏感個人數據的可能性較低,並且對一種稱爲“提示注入”的AI攻擊形式的敏感性較低。

“o3 Operator採用與我們爲4o版本的Operator使用的相同多層次安全方法……雖然o3 Operator繼承了o3的編碼能力,但它沒有對編碼環境或終端的本地訪問。”

– 開放人工智能

該人工智能公司還披露,新推出的基於 o3 的模型經過了標準安全評估,並且 Operator 繼續作爲研究預覽向全球的 ChatGPT Pro 用戶開放。然而,該升級模型僅在 ChatGPT 的 Operator 中可用。

Knoop懷疑運行OpenAI的o3模型可能比預期的更昂貴

上周,維護和管理ARC-AGI的Arc Prize Foundation更新了o3的近似計算成本。該組織最初估計其測試的o3最佳配置o3 high解決單個ARC-AGI問題的成本約爲$3K。然而,該基金會現在認爲成本可能比之前估計的高出10倍,可能達到每個任務約$30K。

此外,雖然OpenAI尚未對o3定價或完全發布,但Arc Prize Foundation的共同創始人Mike Knoop認爲o1-pro模型的定價是一個合理的代理,並且更接近o3的真實成本。然而,他補充說,在官方定價公布之前,o3將繼續在排行榜上被標記爲預覽,以反映不確定性。

根據Arc Prize Foundation的說法,o3 high的高價格並非不可能,因爲該模型 reportedly 使用的計算資源量。o3 high使用的計算資源是o3低配置(o3的最低計算配置)的172倍,以應對ARC-AGI。

自三月初以來,關於OpenAI考慮爲企業客戶推出高價計劃的傳聞四起。報道稱,該公司可能會對專門的AI“代理”收取每月高達2萬美元的費用,例如軟件開發代理。

然而,盡管一些人認爲即使是OpenAI最昂貴的模型成本也遠低於典型人類承包商或員工的費用,人工智能研究人員托比·奧德指出,這些模型可能效率並不高。例如,o3 high在ARC-AGI的每個任務上需要1,024次嘗試才能達到最佳分數。

關鍵差異線:加密項目獲取保證媒體報道的祕密工具

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)