Với tên gọi Gemini 2.5 Computer Use, công cụ này cho phép các tác nhân AI thực hiện những tác vụ trong các giao diện được thiết kế cho con người, thay vì cho robot. Mô hình sử dụng "khả năng hiểu và lập luận trực quan" để phân tích yêu cầu của người dùng và thực hiện các tác vụ như điền và gửi biểu mẫu.

Gemini không chỉ hiểu mà còn hành động trên internet ẢNH: ZDNET

Gemini 2.5 Computer Use có thể được áp dụng để kiểm tra giao diện người dùng (UI), điều hướng các giao diện không có API hoặc kết nối trực tiếp khác. Trước đó, các phiên bản khác của mô hình này đã được sử dụng cho các tính năng trong Chế độ AI và Dự án Mariner - một nguyên mẫu nghiên cứu cho phép AI tự thực hiện các tác vụ trong trình duyệt, chẳng hạn như thêm hàng vào giỏ dựa trên danh sách nguyên liệu.

Gemini 2.5 Computer Use là câu trả lời đối với ChatGPT Agent

Thông báo của Google được đưa ra chỉ một ngày sau khi OpenAI công bố các ứng dụng mới cho ChatGPT, nhấn mạnh vào tính năng ChatGPT Agent có khả năng hoàn thành các tác vụ phức tạp. Đồng thời, Anthropic cũng đã phát hành phiên bản mô hình AI Claude với "khả năng sử dụng máy tính" vào năm ngoái.

Google đã chia sẻ một số video demo cho thấy cách thức hoạt động của mô hình này, đồng thời cho biết nó nhanh gấp 3 lần so với các lựa chọn khác. Tuy nhiên, khác với ChatGPT Agent và công cụ của Anthropic, mô hình AI mới của Google chỉ có thể truy cập vào trình duyệt, không phải toàn bộ môi trường máy tính.

Google cũng lưu ý rằng mô hình này "chưa được tối ưu hóa để điều khiển ở cấp độ hệ điều hành máy tính để bàn" và hiện hỗ trợ 13 thao tác, bao gồm mở trình duyệt web, nhập văn bản, cũng như kéo và thả các thành phần.

Gemini 2.5 Computer Use hiện đã có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, cùng với một bản demo trên Browserbase, nơi người dùng có thể theo dõi quá trình hoàn thành các nhiệm vụ khác nhau.