Google ra AI tạo video, cạnh tranh Sora của OpenAI

15/05/2024 12:00 GMT+7

AI tạo video mang tên Veo có khả năng biến câu lệnh văn bản thành video ở độ phân giải 1.080p, dài hơn một phút và sẽ là đối thủ của Sora do OpenAI phát triển.

Tại sự kiện Google I/O 2024 diễn ra rạng sáng 15.5 (giờ Việt Nam), CEO Google Deepmind - ông Demis Hassabis đã giới thiệu trí tuệ nhân tạo (AI) tạo video có tên Veo với khả năng mang đến những clip chất lượng cao và sử dụng nhiều phong cách điện ảnh khác nhau.

Google cho biết Veo có khả năng hiểu ngôn ngữ tự nhiên, nắm bắt âm điệu của lệnh để tạo ra video thể hiện sát nhất với tầm nhìn sáng tạo của người dùng. AI tạo video của Google cũng hiểu được thuật ngữ trong lĩnh vực điện ảnh như timelapse (tua nhanh thời gian) hay phong cảnh từ trên không, tạo ra được cảnh quay có tính nhất quán, mạch lạc. Những chủ thể xuất hiện trong video như con người, động vật, đồ vật đều có chuyển động chân thực trong toàn bộ "cảnh quay".

Veo sẽ là đối thủ của Sora trong cuộc đua AI tạo video

Veo sẽ là đối thủ của Sora trong cuộc đua AI tạo video

Chụp màn hình

Dù đưa ra video minh họa có thời lượng chỉ khoảng 8 giây, đại diện Google khẳng định Veo có khả năng tạo ra video dài tới 70 giây ở thời điểm này, có thể tinh chỉnh bằng lời nhắc bổ sung để thay đổi kết quả. Cách đây 3 tháng, OpenAI đã ra mắt AI tạo video mang tên Sora gây sốt trên thị trường nhưng thời lượng xuất tối đa chỉ được một phút.

Google cho biết Veo được xây dựng trên các mô hình tạo video khác nhau gồm Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, đi cùng với nhiều kỹ thuật khác nhằm cải thiện chất lượng và độ phân giải của sản phẩm đầu ra. Hãng tiết lộ đã cải tiến kỹ thuật cách mô hình học cách "hiểu" nội dung của video, hiển thị hình ảnh độ phân giải cao cũng như biết cách mô phỏng tính chất vật lý của thế giới thực tại.

Ngoài AI tạo video, "gã khổng lồ tìm kiếm" cũng ra mắt AI tạo hình mang tên Imagen 3, với lời quảng cáo tạo ra được "những tấm hình có độ chi tiết đáng kinh ngạc, chân thực, sống động như thật" và ít chi tiết gây mất tập trung hơn so với các mô hình tồn tại trước đây. Tương tự Veo, Imagen 3 cũng hiểu rõ ngôn ngữ tự nhiên, dự đoán được mục đích của người dùng và tạo ra ảnh mang nhiều phong cách khác nhau.

Cả Veo và Imagen 3 đều chưa được phát hành tới cộng đồng mà chỉ dành cho một số nhà sáng tạo nội dung sử dụng, phục vụ mục đích thử nghiệm. Hãng cho biết người dùng sẽ cần đăng ký vào danh sách chờ nếu muốn sử dụng. Thời gian tới, YouTube Shorts (thể loại video ngắn trên YouTube) và những sản phẩm hình ảnh khác của hãng có thể được tích hợp một số tính năng của Veo.

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.