Có nhiều mối lo đủ các mức độ khi công nghệ Deepfake có thể bắt chước và làm giả âm thanh giọng nói của một ai đó. Liệu tuyên bố chiến tranh của Thủ tướng Canada mà bạn nghe qua đài phát thanh là thật? Hay đơn giản như người đàn ông đang nói chuyện qua điện thoại hỏi xin mật khẩu email của bố bạn có phải chính là ông?
Những hiểm họa công nghệ trong chiến tranh trước đây chỉ gồm hạt nhân, hóa học hay sinh học, giờ với sự phát triển kỹ thuật hiện đại, Deepfake ra đời tiềm ẩn nhiều nguy cơ hơn vậy.
Audio Deepfake (Deepfake âm thanh) là gì?
Khoảng một năm trở lại đây, đa phần người dùng đã biết tới các video sử dụng Deepfake để làm giả khuôn mặt của người nổi tiếng thông qua các thuật toán học sâu có khả năng thay thế những đặc điểm nhận dạng của một cá nhân bằng người khác. Deepfake làm xuất sắc tới mức mọi thứ trông giống hệt như thật mà không mấy ai nghi ngờ. Giờ đây tới lượt công nghệ làm giả âm thanh.
Theo HowToGeek, Deepfake âm thanh là khái niệm khi giọng nói nhân bản của hệ thống có khả năng tạo ra tổ hợp phát âm không thể phân biệt được với người thật. “Nghĩ đơn giản thì giống như ứng dụng Photoshop nhưng dành cho giọng nói vậy”, Zohaib Ahmed, CEO của Resemble AI nói về công nghệ nhân bản giọng nói mà công ty đang phát triển.
Tuy nhiên, làm Photoshop dở thì rất dễ bị phát hiện, còn với Deepfake âm thanh, một công ty bảo mật tiết lộ tỷ lệ người thường có thể xác định đoạn âm thanh là giả hay thật chỉ 57%, không khá hơn việc tung đồng xu may rủi là bao. Bên cạnh đó, nhiều bản ghi giọng nói lấy từ ghi âm cuộc gọi với chất lượng thấp (hoặc ghi trong môi trường nhiều tiếng ồn) nên Audio Deepfake càng dễ khiến người nghe nhầm lẫn. Chất lượng âm thanh càng kém thì càng khó để phát hiện bản ghi là giả.
Ứng dụng của âm thanh tổng hợp
Nghe nguy hiểm nhưng các dạng âm thanh tổng hợp này vẫn được sinh ra để đáp ứng nhu cầu sử dụng ngày càng cao hiện nay.
Điều này đặc biệt đúng khi nói đến lĩnh vực game. Trước đây, lời nói là một thành phần trong trò chơi không thể tạo ra theo yêu cầu tại từng thời điểm. Với sự trợ giúp của công nghệ, các xưởng sản xuất đã có thể nhân bản giọng của diễn viên lồng tiếng và sử dụng công cụ đọc văn bản để nhân vật nói bất kỳ thứ gì trong thời gian thực.
|
Lĩnh vực quảng cáo, công nghệ và chăm sóc khách hàng cũng sử dụng âm thanh tổng hợp. Trong đó, việc sử dụng âm thanh chuẩn của con người và phản hồi từng cá nhân với ngữ cảnh hợp lý mà không cần nhân lực là điều quan trọng. Nhiều công ty chuyên nhân bản giọng nói cũng tỏ ra hào hứng với khả năng ứng dụng công nghệ này vào lĩnh vực y tế.
Thực tế, việc dùng công nghệ thay giọng nói của con người không phải điều mới trong ngành này. Thiên tài vật lý Stephen Hawking mất khả năng phát âm từ năm 1985 và kể từ đó tới cuối đời, ông phải sử dụng hệ thống máy móc tổng hợp để tạo ra giọng nói nhằm biểu đạt suy nghĩ của mình. Tất nhiên công nghệ nhân bản giọng nói hiện đại hứa hẹn nhiều điều hơn so với thời điểm năm 1985.
Năm 2008, công ty tổng hợp âm thanh CereProc đã “trả lại” giọng nói cho nhà phê bình phim Roger Ebert sau khi căn bệnh ung thư cướp mất khả năng phát âm của ông. CereProc phát hành một website cho phép người dùng gõ nội dung họ muốn nói vào đó và phát âm sử dụng giọng của cựu Tổng thống Mỹ George Bush.
“Ebert biết tới trang web và đã nghĩ rằng nếu họ có thể sao chép giọng của Bush thì sẽ làm được điều tương tự với giọng của mình”, Giám đốc Khoa học Matthew Aylett của CereProc chia sẻ. Sau đó Ebert đã liên hệ công ty để yêu cầu giúp ông thay thế giọng nói đã mất.
Vài năm trở lại đây, một số doanh nghiệp đã hợp tác cùng tổ chức phi lợi nhuận ALS trong dự án Project Revoice để mang tới giọng nói tổng hợp cho bệnh nhân mắc chứng xơ cứng teo cơ một bên (ảnh hưởng đến hệ thần kinh, gây khó khăn khi phát âm).
Cách hoạt động của âm thanh tổng hợp
Nhân bản giọng nói đã được nghiên cứu một thời gian dài và trên thế giới có vài công ty đang phát triển công cụ để ứng dụng công nghệ này. Cốt lõi nhờ có trí tuệ nhân tạo (AI), mà cụ thể hơn là các thuật toán học sâu bắt đầu có khả năng ghép nối các đoạn âm thanh ghi âm với văn bản để hiểu được âm vị thành phần tạo nên giọng nói của người. Hệ thống sau đó sử dụng các khối xây dựng ngôn ngữ để mô phỏng gần đúng từ chưa được nghe trong phần ghi âm.
Dù vậy, để có thể phát triển và ứng dụng hơn nữa, theo Aylett vẫn cần thêm nỗ lực. “Sao chép giọng nói khá khó để hoàn thành và vẫn có nhiều vấn đề phải xử lý bằng tay mới mong hoạt động được”, ông nói.
Các nhà phát triển cần lượng cực lớn dữ liệu ghi âm giọng nói để có thể thu được kết quả khả quan. Cách đây vài năm, “nút thắt” được gỡ khi các nhà khoa học phát triển mạng đối nghịch tổng hợp (GAN), lần đầu tiên có thể ngoại suy và đưa ra dự đoán dựa trên dữ liệu hiện có.
“Máy tính khi nhìn thấy tấm hình con ngựa thay vì nói ‘Đây là con ngựa’ thì mô hình của chúng tôi đã có thể nói đó là con ngựa vằn. Có thể nói sự bùng nổ trong tổng hợp âm thanh giờ đây là nhờ có những nghiên cứu trong lĩnh vực tầm nhìn máy tính”, Aylett nói.
Một trong những tiến bộ lớn nhất của nhân bản giọng nói đã giúp giảm rất nhiều lượng dữ liệu thô đầu vào cần thiết để tạo nên âm thanh. Trong quá khứ, hệ thống cần hàng tá, thậm chí hàng trăm giờ ghi âm thì nay giọng nói nhân bản có thể tạo ra chỉ với vài phút nội dung được nhập vào.
Nỗi sợ hãi hiện hữu về sự tin tưởng
Giống như năng lượng hạt nhân, in 3D…, công nghệ nhân bản giọng nói là sự giao thoa giữa tính hấp dẫn cùng nỗi sợ hãi. Trên thực tế đã có trường hợp báo cáo về việc bị giọng nói nhân bản lừa gạt. Năm 2019, một công ty tại Anh tuyên bố hãng bị cuộc gọi sử dụng Deepfake âm thanh cài bẫy lừa chuyển tiền cho tội phạm.
Không đâu xa, ngay mạng xã hội YouTube cũng có các kênh chứa video với nội dung những người nổi tiếng nói điều mà họ chưa từng nói. Ví dụ, cựu Tổng thống George W.Bush hát “In Da Club” - một bài nhạc Rap do 50 Cent thể hiện. Nhiều cựu đồng nghiệp của ông Bush như Obama, Clinton, Reagan cũng… đọc rap trên YouTube. Âm nhạc và âm thanh nền giúp các nội dung này che giấu được phần nào lỗi của máy móc tạo ra, nhưng dù vậy cũng cho thấy tiềm năng rất lớn.
|
Khi thử nghiệm hay được chỉ dẫn, người dùng biết trước kết quả là máy móc. Còn trong các tính huống hằng ngày, đa phần con người sẽ chẳng có lý do gì để tin đoạn nói chuyện mình nghe được là giả mạo.
Các chuyên gia bảo mật để mắt
Tội phạm đã vận dụng điện thoại để lừa tiền từ rất lâu trước khi nhân bản giọng nói ra đời và các chuyên gia bảo mật đã luôn cảnh giác với những cuộc gọi nhằm phát hiện và ngăn chặn kẻ xấu. Công ty bảo mật Pindrop từng ngăn vụ lừa đảo giao dịch ngân hàng bằng cách xác thực kẻ gọi tới có thực là người mà họ mạo nhận thông qua âm thanh. Pindrop tuyên bố chỉ tính trong năm 2019, hãng đã phân tích 1,2 tỉ cuộc gọi và ngăn chặn nhiều giao dịch giả mạo với tổng trị giá khoảng 470 triệu USD.
Một số tên tội phạm chuyên dùng âm thanh nền khi liên hệ với ngân hàng. “Có một kẻ lừa đảo mà chúng tôi tạm gọi là Chicken Man vì luôn có tiếng gà trống khi gọi điện. Hay một phụ nữ thường dùng tiếng trẻ em khóc trong lúc gọi điện để tăng tính thuyết phục với nhân viên tổng đài, kiểu tăng thương cảm với tình huống ‘Tôi đang trải qua giai đoạn khó khăn”, CEO Pindrop Vijay Balasubramaniyan chia sẻ.
Cũng có cả trường hợp tội phạm nam giới nhưng tìm cách lừa tiền từ tài khoản của nữ. “Chúng sử dụng công nghệ để tăng tần số giọng nói nghe cho giống nữ giới. Cách này có thể thành công, nhưng trong đa phần trường hợp, phần mềm tạo ra thứ âm thanh nghe như đám sóc chuột trong phim ‘Alvin and the Chipmunks’ vậy”, Vijay nói thêm.
Liệu có thể nhận biết giọng nói nào là giả?
Khi bàn tới vấn đề phân biệt giọng nói có bị giả hay không, điều này cho thấy công nghệ nhân bản giọng nói đang tốt lên mỗi ngày. Hệ thống học sâu đang trở nên thông minh hơn, tạo ra giọng nói giống thật hơn trong khi yêu cầu ít dữ liệu gốc để tạo ra.
Nhiều đoạn Deepfake được tạo ra nghe đầy thuyết phục đối với tai con người. Nhưng đoạn âm thanh càng dài thì càng có khả năng người nghe phát hiện ra điều bất thường. Chính vì thế, các clip âm thanh ngắn sẽ ít bị chú ý hơn, đặc biệt khi người nghe không có lý do gì để nghi ngờ.
Chất lượng âm thanh rõ ràng cũng giúp người nghe nhận biết được các dấu hiệu đoạn âm thanh bị làm giả bởi công nghệ Deepfake. Nếu người nói phát âm trực tiếp vào microphone có chất lượng phòng thu, bạn sẽ nghe được rất dễ. Nhưng nếu một bản ghi âm cuộc điện thoại với chất lượng tín hiệu kém hoặc hội thoại ghi được trong thiết bị cầm tay ở môi trường nhiều tiếng ồn sẽ rất khó để đánh giá.
Tin vui là ngay cả khi con người gặp rắc rối trong việc phân biệt âm thanh thật hay giả thì máy tính lại không bị giới hạn này. Hiện có công cụ xác minh giọng nói hoạt động. Tùy thuộc vào chất lượng âm thanh, mỗi giây của lời nói chứa từ 8.000 tới 50.000 mẫu dữ liệu có thể sử dụng để phân tích.
Bình luận (0)