Startup tung công nghệ giọng nói AI hệt như giọng người thật

Theo CNN, video quảng cáo này là một phần của bản thử video được WellSaid Labs đăng tải trên YouTube. Đoạn video gồm nhiều quảng cáo ngắn nhưng gây ấn tượng vì dù người mẫu là người thật nhưng giọng đọc quảng cáo thì không.

tin liên quan

Chiêm ngưỡng hàng loạt khuôn mặt giả do thuật toán AI tạo dựng

Doanh nghiệp có trụ sở ở Seattle (Mỹ) dùng nhiều diễn viên lồng tiếng và công nghệ trí tuệ nhân tạo (AI) để tạo ra giọng nói tổng hợp nghe hệt như giọng người. Công ty tuyên bố phần mềm chuyển văn bản thành giọng nói mà họ phát triển trong năm qua có thể tạo âm thanh giống giọng người hơn các giọng nói tổng hợp khác. Lý do là vì họ không kiểm soát chặt chẽ các biến số khác nhau của lời nói như tốc độ, phát âm và âm lượng khi đào tạo mô hình giọng nói.

CEO Matt Hocking của WellSaid Labs cho hay: “Giọng nói chúng tôi cố gắng tạo ra ở đây là siêu biểu cảm và giống như thật trong kết quả cuối cùng”.

Giọng nói được vi tính hóa dường như có mặt ở mọi nơi trong thời gian gần đây. Nó có trong chiếc loa thông minh trong phòng khách cho đến tính năng chỉ đường cho ô tô. Dù vậy, Alexa, Siri, Google Assistant và nhiều trợ lý ảo vẫn có giọng nói mang sắc thái robot, ngoại trừ Google Duplex, công cụ có thể gọi đến doanh nghiệp và trò chuyện bằng giọng kích hoạt AI nhấn nhá như giọng người.

Ảnh chụp màn hình đoạn video của WellSaid Ảnh: Youtube

WellSaid Labs không có ý định chiếm lĩnh thị trường trợ lý giọng nói. Doanh nghiệp kỳ vọng bán công nghệ giọng nói cho các công ty muốn sử dụng nó trong quảng cáo, tiếp thị và khóa học trên mạng. Hãng hiện xây dựng một số giọng nói mà khách hàng có thể sử dụng, kỳ vọng rằng hãng có thể hợp tác với nhiều diễn viên lồng tiếng để tạo ra vô số bộ dữ liệu khác nhau, có thể được dùng để tạo ra nhiều loại giọng nói nhân tạo.

Để tạo tiếng nói AI của người phụ nữ trong đoạn quảng cáo, trước hết WellSaid để một diễn viên lồng tiếng đọc nhiều bài viết từ Wikipedia. Những bản sao này tạo thành tập dữ liệu mà hãng dùng để huấn luyện mạng thần kinh nhân tạo, hay hệ thống máy tính có cấu trúc mô hình hóa lỏng lẻo theo nơ-ron thần kinh trong não người.

Startup cho hay họ không cần xử lý trước hoặc chú thích văn bản được cung cấp cho phần mềm để nó tạo ra giọng nói có ngữ điệu tự nhiên. Ngữ điệu như thật là điểm mà các giọng nói nhân tạo rất khó lòng thực hiện. Nếu người dùng nhập một đoạn văn bản vào phần mềm hai lần, họ sẽ nhận được hai kết quả khác nhau.

Giáo sư ngôn ngữ Alan Black tại Đại học Carnegie Mellon cho hay việc tạo giọng nói tổng hợp tốt liên tiếp là rất khó. Giọng nói trợ lý ảo như Alexa của Amazon là âm thanh robot vì thật khó để khiến âm thanh nghe mượt và tự nhiên trong mọi tình huống. Dù vậy, ông nghe giọng nói thử của WellSaid và cho rằng nó có vẻ “khá tốt”.