Đại lý Operator của OpenAI được tăng cường với mô hình AI mới

2025-05-24 08:51:03

OpenAI đã cập nhật mô hình AI cung cấp sức mạnh cho Operator từ phiên bản tùy chỉnh trước đó của GPT-4o sang một mô hình dựa trên o3, một trong những mô hình mới nhất trong sê-ri mô hình "lập luận" của OpenAI. Operator o3 đã được tinh chỉnh với dữ liệu an toàn bổ sung cho việc sử dụng máy tính và bao gồm các tập dữ liệu an toàn được thiết kế để dạy cho mô hình ranh giới quyết định.

OpenAI đã nâng cấp Operator trong ChatGPT với một mô hình Computer-Using Agent (CUA) mới dựa trên một phiên bản của OpenAI o3. Với mô hình mới, Operator trở nên kiên trì hơn và chính xác hơn khi tương tác với trình duyệt, cải thiện tỷ lệ thành công của các nhiệm vụ tổng thể. Nó cũng cung cấp phản hồi được cấu trúc tốt hơn, rõ ràng và đầy đủ hơn.

Theo OpenAI, mô hình CUA mới cho thấy hiệu suất mạnh mẽ hơn so với ngành, đạt SOTA trên OSWorld và WebArena. Nó cũng cho thấy hiệu suất tương đối mạnh mẽ hơn so với phiên bản trước, cả trong các chuẩn mực đã được thiết lập và đánh giá sở thích của con người.

OpenAI thay thế mô hình dựa trên GPT‑4o bằng một phiên bản dựa trên o3

OpenAI gợi ý về một bản nâng cấp lớn cho ChatGPT Operator Agent pic.twitter.com/iGPQp9butD

— SabatAge (@sabatage) Ngày 22 tháng 5, 2025

OpenAI đã thay thế mô hình dựa trên GPT‑4o hiện có cho Operator bằng một phiên bản dựa trên OpenAI o3, mặc dù phiên bản API sẽ vẫn dựa trên 4o. Công ty AI cũng tuyên bố rằng Operator o3 sử dụng cùng một phương pháp an toàn nhiều lớp như phiên bản 4o.

Tuy nhiên, so với các mô hình khác trong gia đình o3, o3 Operator đã được tinh chỉnh với dữ liệu an toàn bổ sung cho việc sử dụng máy tính, bao gồm các tập dữ liệu an toàn được thiết kế để dạy cho mô hình các ranh giới quyết định về xác nhận và từ chối.

OpenAI đã phát hành một báo cáo kỹ thuật cho thấy hiệu suất của trình điều khiển o3 trong các đánh giá an toàn cụ thể. So với mô hình trình điều khiển GPT-4o, trình điều khiển o3 ít có khả năng từ chối thực hiện các hoạt động "bất hợp pháp" và tìm kiếm dữ liệu cá nhân nhạy cảm, đồng thời ít bị ảnh hưởng bởi một dạng tấn công AI được gọi là "tiêm lệnh".

"o3 Operator sử dụng cùng một cách tiếp cận đa lớp để đảm bảo an toàn mà chúng tôi đã sử dụng cho phiên bản 4o của Operator…Mặc dù o3 Operator kế thừa khả năng lập trình của o3, nhưng nó không có quyền truy cập gốc vào môi trường lập trình hoặc Terminal."

–OpenAI

Công ty AI cũng đã tiết lộ rằng mô hình mới dựa trên o3 đã trải qua các đánh giá an toàn tiêu chuẩn, và Operator vẫn tiếp tục có sẵn như một bản xem trước nghiên cứu cho người dùng ChatGPT Pro trên toàn cầu. Tuy nhiên, mô hình nâng cấp này chỉ có sẵn trong Operator trên ChatGPT.

Knoop nghi ngờ việc chạy mô hình o3 của OpenAI có thể tốn kém hơn mong đợi

Tuần trước, Quỹ Giải thưởng Arc, tổ chức duy trì và quản lý ARC-AGI, đã cập nhật chi phí tính toán gần đúng cho o3. Tổ chức này ban đầu ước tính rằng cấu hình o3 có hiệu suất tốt nhất mà họ đã thử nghiệm, o3 high, có chi phí khoảng $3K để giải quyết một vấn đề ARC-AGI. Tuy nhiên, Quỹ hiện tin rằng chi phí có thể cao gấp 10 lần so với ước tính trước đó, có thể khoảng $30K cho mỗi nhiệm vụ.

Ngoài ra, trong khi OpenAI vẫn chưa định giá o3 hoặc phát hành hoàn toàn, một trong những người đồng sáng lập Quỹ Arc Prize, Mike Knoop, tin rằng định giá mô hình o1-pro là một đại diện hợp lý và là sự so sánh gần gũi hơn với chi phí thực sự của o3. Tuy nhiên, ông đã thêm rằng o3 sẽ tiếp tục được gán nhãn là bản xem trước trên bảng xếp hạng để phản ánh sự không chắc chắn cho đến khi giá chính thức được công bố.

Theo Quỹ Giải thưởng Arc, một mức giá cao cho o3 high sẽ không phải là điều không thể xảy ra, xét về lượng tài nguyên máy tính mà mô hình này được cho là sử dụng. o3 high đã sử dụng nhiều gấp 172 lần so với o3 low, cấu hình máy tính thấp nhất của o3, để giải quyết ARC-AGI.

Đã có nhiều tin đồn xuất hiện từ đầu tháng Ba về các kế hoạch đắt đỏ mà OpenAI đang xem xét để giới thiệu cho khách hàng doanh nghiệp. Thông tin cho biết công ty có thể tính phí lên đến 20.000 USD mỗi tháng cho các "đại lý" AI chuyên biệt, như các đại lý phát triển phần mềm.

Tuy nhiên, trong khi một số người tranh luận rằng ngay cả những mô hình đắt nhất của OpenAI cũng sẽ có giá dưới mức mà một nhà thầu hoặc nhân viên con người điển hình yêu cầu, nhà nghiên cứu AI Toby Ord đã chỉ ra rằng các mô hình có thể không hiệu quả như vậy. Ví dụ, o3 high cần 1.024 lần thử cho mỗi nhiệm vụ trong ARC-AGI để đạt được điểm số tốt nhất của nó.

SỰ Khác Biệt CHÍNH Wire: công cụ bí mật mà các dự án tiền điện tử sử dụng để đảm bảo được sự phủ sóng truyền thông.

AGENT-2.22%

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#PI#
291k Trạng thái
#BTC#
261k Trạng thái
#ETH#
171k Trạng thái
4#GateioInto11#
83k Trạng thái
5#ContentStar#
69k Trạng thái
6#GT#
68k Trạng thái
7#DOGE#
62k Trạng thái
8#BOME#
62k Trạng thái
9#MAGA#
53k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web