Những ngày vừa qua, AI Agent Manus của Trung Quốc đã gây xôn xao cộng đồng công nghệ thế giới. Theo nhà phát triển, công cụ có thể làm được những công việc phức tạp như rà quét hồ sơ ứng viên, lên lịch trình du lịch, phân tích cổ phiếu khi người dùng đưa ra hướng dẫn cơ bản.
Trước khi Manus ra mắt AI Agent, một “ông lớn” AI của Mỹ là OpenAI đã giới thiệu Operator với người dùng ChatGPT Pro tại Mỹ. Theo OpenAI, tác nhân AI này có thể thay mặt chủ nhân thực hiện các nhiệm vụ đơn giản trên một trình duyệt như đặt vé xem hòa nhạc hay đặt hàng qua mạng.
Operator dựa trên mô hình mới có tên Computer-Using Agent - CUA, được xây dựng trên mô hình ngôn ngữ lớn đa phương thức GPT-4o. Nhà nghiên cứu Yash Kumar của OpenAI thừa nhận nó mới đang ở giai đoạn đầu và vẫn còn thiếu sót.
Tương tự các AI Agent khác, Operator chụp ảnh màn hình máy tính, quét các điểm ảnh để xác định những hành động cần thực hiện. CUA, mô hình phía sau, được đào tạo để tương tác với giao diện đồ họa như các nút, trình đơn, hộp thoại văn bản vốn quen thuộc với con người.
Theo Reiichiro Nakano, một nhà khoa học khác của OpenAI, các mô hình truyền thống sử dụng phần mềm thông qua API (giao diện lập trình ứng dụng) chuyên biệt, dẫn đến nhiều hạn chế.
CUA còn chia công việc thành những bước nhỏ hơn và cố gắng thực hiện từng bước một, cũng như quay lại ban đầu nếu gặp trục trặc. Hiện tại, Operator chỉ làm được một số việc trong trình duyệt riêng.
OpenAI dự định mở rộng khả năng của CUA trong tương lai thông qua một API (giao diện lập trình ứng dụng) để các nhà phát triển viết ứng dụng riêng dựa trên nó.
Ngoài ra, OpenAI cũng thử nghiệm tính an toàn của CUA, sử dụng nhóm Red Team để xác định những gì sẽ xảy ra nếu người dùng yêu cầu AI Agent làm những nhiệm vụ không thể chấp nhận được (chẳng hạn sản xuất vũ khí sinh học).