Tỷ lệ lỗi nhận dạng giọng nói Microsoft ở mốc 5,1%

23/08/2017 14:05 GMT+7

Sau khi đạt thành tích ấn tượng với tỷ lệ lỗi nhận dạng giọng nói (WER) chỉ ở mức 6,3% vào tháng 10.2016, Microsoft tiếp tục đạt cột mốc mới khi chỉ số WER giảm còn 5,1% - con số tốt nhất hiện nay.

Theo Neowin, WER là chỉ số xác định tỷ lệ lỗi trong khả năng nhận dạng giọng nói của phần mềm. Chỉ số WER càng thấp thì hệ thống sẽ càng gần với khả năng nhận dạng giọng nói của con người, cho phép nó xử lý các dữ liệu đầu vào bằng giọng nói chính xác hơn.
Ngoài Microsoft, IBM cũng là công ty đầu tư mạnh mẽ vào việc giảm chỉ số WER trên hệ thống của mình. Vào tháng 3 năm nay, hệ thống của IBM đã đạt mốc WER 5,5%. Tuy nhiên, con số này đã bị đánh bại bởi hệ thống của Microsoft với thành tích ghi nhận vào ngày 21.8 chỉ ở mức 5,1% - con số được mô tả là gần như ngang bằng với con người.
Để đạt được WER 5,1%, Microsoft đã sử dụng một loạt cải tiến liên quan đến mô hình ngôn ngữ và âm thanh dựa trên mạng nơ-ron. Điều này bao gồm bổ sung hệ thống CNN-BLSTM, Microsoft Cognitive Toolkit 2.1 (CNTK), GPU Azure, dự đoán nội dung tiếp theo dựa vào lịch sử cuộc đối thoại và khả năng dự đoán nhiều mô hình âm thanh khác nhau.
Cũng theo Microsoft, một số thách thức mà hãng cần giải quyết trong tương lai để giảm lỗi nhận dạng giọng nói bao gồm khả năng nhận dạng trong môi trường ồn ào và nhận ra giọng nói có tiếng xung quanh, phong cách nói cũng như ngôn ngữ vốn bị hạn chế.
Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.