OpenAI的運營代理通過新的AI模型獲得提升

2025-05-24 08:51:03

OpenAI將驅動Operator的AI模型從之前的定制版GPT-4o更新爲基於o3的模型，這是OpenAI最新的“推理”模型系列中的一員。o3 Operator經過額外的計算機使用安全數據的微調，並包含旨在教導模型決策邊界的安全數據集。

OpenAI 在 ChatGPT 中升級了 Operator，推出了基於 OpenAI o3 版本的新計算機使用代理 (CUA) 模型。使用新模型後，Operator 在與瀏覽器交互時變得更加持久和準確，提高了整體任務成功率。它還提供了更結構化的響應，內容更清晰、全面。

根據OpenAI的說法，新的CUA模型在行業中表現更強，在OSWorld和WebArena上達到了SOTA。它相對於先前版本的表現也更強，無論是在既定基準測試還是人類偏好評估中。

OpenAI用基於o3的版本替代了基於GPT‑4o的模型

OpenAI 暗示 ChatGPT Operator Agent pic.twitter.com/iGPQp9butD 將進行重大升級

— SabatAge (@sabatage) 2025 年 5 月 22 日

OpenAI用基於OpenAI o3的版本替換了現有的基於GPT‑4o的Operator模型，盡管API版本將繼續基於4o。該AI公司還聲稱，o3 Operator使用與4o版本相同的多層安全方法。

然而，與 o3 家族中的其他模型相比，o3 操作員經過了額外的安全數據微調，以用於計算機使用，包括旨在教導模型在確認和拒絕方面的決策邊界的安全數據集。

OpenAI發布了一份技術報告，顯示了o3操作員在特定安全評估中的表現。與GPT-4o操作員模型相比，o3操作員拒絕執行“非法”活動和搜索敏感個人數據的可能性較低，並且對一種稱爲“提示注入”的AI攻擊形式的敏感性較低。

“o3 Operator採用與我們爲4o版本的Operator使用的相同多層次安全方法……雖然o3 Operator繼承了o3的編碼能力，但它沒有對編碼環境或終端的本地訪問。”

– 開放人工智能

該人工智能公司還披露，新推出的基於 o3 的模型經過了標準安全評估，並且 Operator 繼續作爲研究預覽向全球的 ChatGPT Pro 用戶開放。然而，該升級模型僅在 ChatGPT 的 Operator 中可用。

Knoop懷疑運行OpenAI的o3模型可能比預期的更昂貴

上周，維護和管理ARC-AGI的Arc Prize Foundation更新了o3的近似計算成本。該組織最初估計其測試的o3最佳配置o3 high解決單個ARC-AGI問題的成本約爲$3K。然而，該基金會現在認爲成本可能比之前估計的高出10倍，可能達到每個任務約$30K。

此外，雖然OpenAI尚未對o3定價或完全發布，但Arc Prize Foundation的共同創始人Mike Knoop認爲o1-pro模型的定價是一個合理的代理，並且更接近o3的真實成本。然而，他補充說，在官方定價公布之前，o3將繼續在排行榜上被標記爲預覽，以反映不確定性。

根據Arc Prize Foundation的說法，o3 high的高價格並非不可能，因爲該模型 reportedly 使用的計算資源量。o3 high使用的計算資源是o3低配置（o3的最低計算配置）的172倍，以應對ARC-AGI。

自三月初以來，關於OpenAI考慮爲企業客戶推出高價計劃的傳聞四起。報道稱，該公司可能會對專門的AI“代理”收取每月高達2萬美元的費用，例如軟件開發代理。

然而，盡管一些人認爲即使是OpenAI最昂貴的模型成本也遠低於典型人類承包商或員工的費用，人工智能研究人員托比·奧德指出，這些模型可能效率並不高。例如，o3 high在ARC-AGI的每個任務上需要1,024次嘗試才能達到最佳分數。

關鍵差異線：加密項目獲取保證媒體報道的祕密工具

AGENT-9.72%

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
#PI#
291k 帖子
#BTC#
261k 帖子
#ETH#
171k 帖子
4#GateioInto11#
83k 帖子
5#ContentStar#
69k 帖子
6#GT#
68k 帖子
7#DOGE#
62k 帖子
8#BOME#
62k 帖子
9#MAGA#
53k 帖子
10#SLERF#
51k 帖子