Chia sẻ tại Hội nghị Robot Thế giới diễn ra ở Bắc Kinh (Trung Quốc) cuối tuần trước, ông Wang Xingxing, nhà sáng lập công ty robot đình đám Unitree, cho rằng ngành công nghiệp robot đã có nhiều bước tiến lớn nhưng chưa đủ để tạo ra "khoảnh khắc ChatGPT".

"Khoảnh khắc ChatGPT" Wang muốn nhắc đến là việc công nghệ gây được tiếng vang lớn và trở nên phổ biến trong đời sống một cách tự nhiên, như OpenAI đem AI đến mọi người dùng trên toàn cầu.

Thách thức lớn nhất là AI

Theo ông Wang, từ phần cứng robot như bàn tay khéo léo đến dữ liệu đào tạo đều đã đủ tốt để thực hiện kỳ tích. Tuy nhiên, yếu tố quan trọng là "AI dành cho bộ não robot" vẫn chưa đáp ứng được yêu cầu.

Ông đặt nghi vấn các mô hình thị giác - ngôn ngữ - hành động (VLA) đang được sử dụng phổ biến hiện nay hoạt động trên một cấu trúc khác "ngớ ngẩn" và có thể không đủ mạnh để thực hiện đầy đủ các nhiệm vụ. Các robot của Unitree cũng dùng mô hình tương tự, kết hợp học tăng cường để cải thiện VLA. Tuy nhiên Wang cho rằng phương pháp này vẫn cần phải tối ưu hóa rất nhiều, đó là lý do "khoảnh khắc ChatGPT" của ngành robot phải mất 2 - 3 năm nữa mới xuất hiện.

Mẫu robot hình người có thể trò chuyện trực tiếp với con người được giới thiệu tại Triển lãm công nghệ Gitex Asia 2025, diễn ra ở Singapore hồi tháng 4.2025 ẢNH: KHƯƠNG NHA

Ông Wang gợi ý một cách tiếp cận khác, tạo video hoặc mô hình tương tác dựa trên các câu lệnh bằng văn bản, yêu cầu robot thực hiện các nhiệm vụ. Xác suất thành công của phương pháp này có thể cao hơn trong việc điều khiển chuyển động của robot.

Ông đánh giá mô hình Genie 3 đa năng của Google, được ra mắt đầu tuần trước có thể tạo được đa mô hình thông tin về các đặc tính vật lý là bước tiến lớn, có thể giúp tương lai robot hình người đến sớm hơn.

Unitree cũng đang thử nghiệm phương pháp mô hình hóa, nhưng gặp vấn đề là chúng yêu cầu số lượng lớn bộ xử lý đồ họa (GPU) để đảm bảo chất lượng hình ảnh phục vụ đào tạo robot. Tuy nhiên Wang vẫn lạc quan về tương lai robot, ông tin rằng những tiến bộ nhanh chóng của ngành công nghiệp AI sẽ mang đến nhiều đột phá.

' Khoảnh khắc ChatGPT' của robot hình người

Theo mô tả của ông Wang, "khoảnh khắc ChatGPT" của ngành robot là thời khắc công nghệ này trở nên bình dân hóa, xuất hiện trong mọi ngóc ngách của đời sống. Khi đó con người có thể thấy một robot thực hiện các nhiệm vụ tại địa điểm nó chưa từng đặt chân tới, ví dụ dọn dẹp phòng hoặc mang nước cho người được chỉ định. Hiện tại robot hình người mới chỉ làm việc trên những bản đồ được lập trình sẵn.

"Nếu so với ngành công nghiệp AI, robot hình người vẫn trong giai đoạn 1 - 3 năm trước khi ChatGPT xuất hiện. Chúng ta biết chúng nên đi theo hướng nào, chỉ là chưa ai hiện thực hóa được điều đó", Wang nói.

Robot "thông minh nhất thế giới" nói chuyện với con người.

Dự báo của ông Wang được đưa ra trong bối cảnh cuộc chạy đua robot hình người của Trung Quốc và phương Tây ngày càng khốc liệt. Các công ty Trung Quốc đã đưa robot vào thử nghiệm tại các nhà máy để làm các công việc phân loại vật liệu, kiểm tra chất lượng. Unitree cũng nhận được nhiều sự quan tâm từ các nhà đầu tư dù ứng dụng thực tế của các mô hình này vẫn chưa thực sự rõ ràng.

Năm 2025, người máy Trung Quốc đã chạy marathon, tham gia một giải đấu kick-boxing và chơi bóng đá. Nhưng những sự kiện đó không hẳn là những thành tựu công nghệ, hầu hết robot tham gia cuộc thi chạy đều vấp ngã, lóng ngóng hoặc không hoàn thành chặng đua. Tuy nhiên, chúng vẫn cho thấy tham vọng của Trung Quốc trong cuộc đua với Mỹ về lĩnh vực này.