L'agent Opérateur d'OpenAI bénéficie d'un coup de pouce avec un nouveau modèle d'IA

2025-05-24 08:51:03

OpenAI a mis à jour le modèle d'IA alimentant l'Opérateur de la version personnalisée précédente de GPT-4o à un modèle basé sur o3, l'un des derniers de la série o des modèles de « raisonnement » d'OpenAI. L'Opérateur o3 a été affiné avec des données de sécurité supplémentaires pour une utilisation informatique et a inclus des ensembles de données de sécurité conçus pour enseigner au modèle des limites de décision.

OpenAI a mis à niveau l'Opérateur dans ChatGPT avec un nouveau modèle d'Agent Utilisateur d'Ordinateur (CUA) basé sur une version de OpenAI o3. Avec le nouveau modèle, l'Opérateur est devenu plus persistant et plus précis lors de ses interactions avec le navigateur, améliorant le taux de réussite global des tâches. Il fournit également des réponses mieux structurées, plus claires et plus complètes.

Selon OpenAI, le nouveau modèle CUA a montré de meilleures performances par rapport à l'industrie, atteignant l'état de l'art sur OSWorld et WebArena. Il a également montré de meilleures performances par rapport à la version précédente, tant dans les benchmarks établis que dans les évaluations de préférence humaine.

OpenAI remplace le modèle basé sur GPT‑4o par une version basée sur o3.

OpenAI laisse entendre une grande mise à niveau pour l'Agent Opérateur ChatGPT pic.twitter.com/iGPQp9butD

— SabatAge (@sabatage) 22 mai 2025

OpenAI a remplacé le modèle existant basé sur GPT‑4o pour l'Opérateur par une version basée sur OpenAI o3, bien que la version API reste basée sur 4o. La société d'IA a également affirmé que l'Opérateur o3 utilise la même approche de sécurité multi-niveaux utilisée pour la version 4o.

Cependant, par rapport à d'autres modèles de la famille o3, l'Opérateur o3 a été ajusté avec des données de sécurité supplémentaires pour l'utilisation informatique, y compris des ensembles de données de sécurité conçus pour enseigner au modèle les frontières de décision sur les confirmations et les refus.

OpenAI a publié un rapport technique montrant les performances de l'opérateur o3 sur des évaluations de sécurité spécifiques. Comparé au modèle d'opérateur GPT-4o, l'opérateur o3 était moins enclin à refuser d'effectuer des activités "illicites" et à rechercher des données personnelles sensibles, et moins susceptible à une forme d'attaque par IA connue sous le nom d'"injection de prompt".

« L'opérateur o3 utilise la même approche multicouche en matière de sécurité que celle que nous avons utilisée pour la version 4o de l'opérateur... Bien que l'opérateur o3 hérite des capacités de codage d'o3, il n'a pas d'accès natif à un environnement de codage ou à un terminal. »

–OpenAI

La société d'IA a également révélé que le nouveau modèle basé sur o3 avait passé des évaluations de sécurité standard, et l'Opérateur continuait d'être disponible en tant qu'aperçu de recherche pour les utilisateurs de ChatGPT Pro dans le monde entier. Cependant, ce modèle amélioré n'était disponible que dans l'Opérateur de ChatGPT.

Knoop soupçonne que faire fonctionner le modèle o3 d'OpenAI pourrait coûter plus cher que prévu.

La semaine dernière, la Fondation Arc Prize, qui maintient et administre l'ARC-AGI, a mis à jour ses coûts de calcul approximatifs pour o3. L'organisation avait initialement estimé que la configuration la plus performante de o3 qu'elle avait testée, o3 high, coûtait environ 3 000 $ pour résoudre un seul problème ARC-AGI. Cependant, la Fondation pense maintenant que le coût pourrait être 10 fois plus élevé que ce qui avait été estimé précédemment, peut-être autour de 30 000 $ par tâche.

De plus, bien qu'OpenAI n'ait pas encore fixé de prix pour o3 ni même complètement lancé le produit, l'un des co-fondateurs de l'Arc Prize Foundation, Mike Knoop, estime que le prix du modèle o1-pro est un proxy raisonnable et une comparaison plus proche du véritable coût de o3. Cependant, il a ajouté que o3 continuerait d'être étiqueté comme un aperçu sur le classement pour refléter l'incertitude jusqu'à ce que le prix officiel soit annoncé.

Selon la Arc Prize Foundation, un prix élevé pour o3 high ne serait pas hors de question, étant donné la quantité de ressources informatiques que le modèle aurait apparemment utilisées. o3 high a utilisé 172 fois plus de puissance de calcul qu'o3 low, la configuration la moins gourmande en ressources d'o3, pour s'attaquer à ARC-AGI.

Des rumeurs circulent depuis début mars concernant les plans coûteux qu'OpenAI envisageait d'introduire pour les clients d'entreprise. Les informations rapportées indiquent que l'entreprise pourrait facturer jusqu'à 20 000 $ par mois pour des "agents" IA spécialisés, comme des agents développeurs de logiciels.

Cependant, bien que certains aient soutenu que même les modèles les plus chers d'OpenAI coûteraient bien moins que ce qu'un contractant humain typique ou un membre du personnel exigerait, le chercheur en IA Toby Ord a souligné que les modèles pourraient ne pas être aussi efficaces. Par exemple, o3 high a nécessité 1 024 essais pour chaque tâche dans ARC-AGI afin d'atteindre son meilleur score.

Différence clé Wire : l'outil secret que les projets crypto utilisent pour obtenir une couverture médiatique garantie

AGENT-4.6%

Voir l'original

Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#PI#
291k publications
#BTC#
261k publications
#ETH#
171k publications
4#GateioInto11#
83k publications
5#ContentStar#
69k publications
6#GT#
68k publications
7#DOGE#
62k publications
8#BOME#
62k publications
9#MAGA#
53k publications
10#SLERF#
51k publications

Épingler