Phần mềm nhận dạng giọng nói chính xác

02/09/2012 03:01 GMT+7

Các nhà nghiên cứu tại Đại học Khoa học và công nghệ Na Uy (NTNU) đang kết hợp 2 trong số các phương pháp tiếp cận nổi tiếng nhất để tự động nhận dạng giọng nói, với thuật toán chuyển giọng nói qua ký tự hiệu quả hơn.

 Phần mềm nhận dạng giọng nói chính xác

Phần mềm này không chỉ nhanh vì khả năng nhận diện ngôn ngữ độc lập chỉ trong vòng 1 phút, mà còn giúp cho việc bảo tồn các ngôn ngữ có khả năng “tuyệt chủng”.

Những tiến bộ hằng năm theo cấp số nhân nhờ sức mạnh xử lý của máy tính giúp việc nhận dạng giọng nói ngày càng chính xác hơn. Công nghệ này được mong đợi sẽ ứng dụng vào điện thoại thông minh, máy tính bảng, máy tính cá nhân và theo đó sẽ có một ngày bàn phím không còn cần thiết nữa.

Nhận dạng giọng nói chính xác theo thời gian thực là điều không dễ dàng ngay cả khi sử dụng thiết bị thu âm tối tân có thể loại bỏ tiếng ồn. Dù nói cùng một ngôn ngữ nhưng sóng âm của mỗi người khác nhau, sắc thái khi phát âm không giống nhau. Bên cạnh đó nhiều yếu tố ảnh hưởng đến cách phát âm và ghi âm như tuổi tác, giới tính, sức khỏe…

Dù bộ vi xử lý máy tính mạnh đến đâu thì cũng vô dụng nếu không có thuật toán hiệu quả, đáng tin cậy để nhận thấy sự đa dạng của âm thanh khi chúng được phát ra từ miệng chúng ta và ghi lại được những gì ta đang nói.

Các nhà nghiên cứu tại NTNU đang đi tiên phong theo cách tiếp cận đó để chứng minh cơ chế ngôn luận của con người về cơ bản là giống nhau. Họ đang đào tạo cho máy tính phân tích áp lực của các sóng âm thanh được ghi qua micro để xác định các bộ phận của cơ quan phát âm được sử dụng để tạo ra âm vị.

Những phần mềm được cho là nhận dạng giọng nói hiệu quả nhất hiện nay yêu cầu cung cấp thông tin cá nhân như nhóm tuổi, giọng nói và phải đọc nhiều lần với nhiều loại văn bản để hiệu chỉnh thông số phần mềm phù hợp với mỗi cá nhân. Phần mềm sử dụng dữ liệu thu thập được và cải thiện độ chính xác qua các công cụ, ví dụ như suy luận Bayesian để ước tính xác suất các mẫu âm thanh.

Để thay thế cho phương pháp thống kê mô tả nói trên thì phải có người nghiên cứu âm thanh, từ ngữ, cấu trúc câu cho một loại ngôn ngữ nhất định rồi suy ra các quy tắc để ứng dụng vào phần mềm. Ví dụ về các âm vị khác nhau cho thấy tần số cộng hưởng khác nhau và phạm vi điển hình cho các tần số có thể được lập trình trong phần mềm giúp phát hiện âm thanh chính xác hơn.

Hệ thống phần mềm được phát triển tại NTNU là sự pha trộn của 2 cách tiếp cận. Nó thu thập dữ liệu để tìm hiểu về các sắc thái ngôn luận của người dùng và cải thiện độ chính xác theo thời gian. Bên cạnh đó nó cũng tiếp cận theo các quy tắc dựa trên ngữ âm học về âm thanh và giọng nói con người.

Tạ Xuân Quan (Theo Gizmag)

Top

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.