Đề tài Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động

Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và máy. Nó giúp máy móc hiểu và thực hiện các hiệu lệnh của con người. Hiện nay trên thếgiới, lĩnh vực Nhận dạng Tiếng nói đã đạt được nhiều tiến bộvượt bậc. Tuy nhiên, hầu hết các công trình vẫn còn thực hiện ởtrong phòng thí nghiệm, đặc biệt là đối với các thứtiếng ít phổbiến nhưTiếng Việt của chúng ta. Ý tưởng vềxây dựng các hệthống nhận dạng tiếng nói đã có từnhững năm 50 của thếkỷ20 và đến nay đã đạt được nhiều kết quả đáng kể. Có 3 hướng tiếp cận chính cho nhận dạng tiếng nói: Tiếp cận Âm học: Hướng tiếp cận này dựa vào các đặc điểm âm học được rút ra được từphổâmthanh. Tuy nhiên kết quảcủa hướng tiếp cận này còn thấp vì trong thực tế, các đặc trưng âmhọc có sựbiến động rất lớn. Hơn nữa phương pháp này đòi hỏi tri thức rất đầy đủvềâm học (Vốn tri thức âm học hiện nay chưa thể đáp ứng). Tiếp cận Nhận dạng mẫu thống kê:Sửdụng các phương pháp máy học dựa trên thống kê đểhọc và rút ra mẫu thamkhảo từlượng dữliệu lớn. Hướng này đang được sửdụng nhiều, chủyếu là dựa vào Mô hình Markov ẩn(HMM). Tiếp cận Trí tuệnhân tạo: là hướng kết hợp của cảhai hướng trên. Phương pháp này kết hợp được cảtri thức của chuyên gia và phương pháp mẫu thống kê. Đây sẽlà hướng tiếp cận tương lai của nhận dạng tiếng nói. Việc nhận dạng tiếng nói gặp một sốkhó khăn sau: x KHOA CNTT – ĐH KHTN Giới thiệu chung Trong môi trường sinh hoạt hàng ngày, chất lượng tiếng nói biến động rất lớn do chịu ảnh hưởng của các yếu tốngoại cảnh, tâmvà sinh lý người nói: một câu của cùng một người nói khi thâuvào máy sẽkhác nhau nếu nói ởhai tâm trạng khác nhau (lúc vui nói khác, lúc giận nói khác,…), sức khoẻkhác nhau (lúc khoẻnói khác, lúc bệnh nói khác), tốc độnói khác nhau (nói chậm thì rõ hơn nói nhanh), môi trường xung quanh khác nhau (môi trường có tiêng ồn thì âmthu vào sẽbịnhiễu), v.v… Và còn nhiều yếu tốkhác nữa tác động lên chất lượng của lờinói nhưthiết bị thu không tốt, tín hiệu bịnhiễu điện,… Do đó,việc nhận dạng trởnên rất khó khăn. Nói vềnhận dạng tiếng Việt, chúng ta đi sau thếgiới rất lâu. Vì vậy, thành quả đạt được còn hạn chế: chưa có những hệthống nhận dạng thật sựtốt, chưa có các kho dữliệu quí nhưtrong tiếng Anh,… Tuy nhiên, chúng ta được thừa hưởng nhiều thành quảcủa thếgiới vềkỹthuật nhận dạng. Hiện nay, trong khi chưa có các công trình nghiên cứu đầy đủvềngữâm tiếng Việt dưới góc độlàm tin học, hướng tiếp cận chủyếu đểnhận dạng tiếng nói tiếng Việt vẫn là nhận dạng thống kê. Và khó khăn của chúng talà xây dựng các kho dữliệu đủlớn và chính xác dùng đểhọc mẫu và kiểm tra kết quảnhận dạng. Trong hệnhận dạng tiếng nói, đơn vịcơbản phải nhận được là từ, hay còn gọi là âm tiết. Trong hầu hết các ngôn ngữ, sốlượng âmtiếtlà rất lớn. Tiếng Việt có hơn 8000 âm tiết, khoảng 6000 âm tiết được dùng phổbiến. Với sốlượng lớn như vậy, việc nhận dạng từng âm tiếtlà khó thực hiện được. Vì vậy, chúng ta phải đi theo hướng nhận dạng các đơn vịnhỏhơn cấu thành âmtiết (đơn vịdưới từ, ví dụ như âm vị) vì các đơn vịnày có sốlượng ít. Theo thống kê, trong hầu hết các ngôn ngữ, sốlượng âm vịdao động từ20 đến 60 (ít hơn nhiều so với hàng ngàn hay hàng chục ngàn âm tiết). Vì vậy, nhận dạng âm vịlà hướng thường được chọn trong số các hướng nhận dạng đơn vịdưới từ. Trong nhận dạng tiếng nói theo hướng nhận dạng từng âm vị, một khó khăn chúng ta gặp phải là: các âm vịliền nhau trong chuỗi tiếng nói không có vách ngăn rõ ràng (2 âm vịsát nhau có một phần giao nhau, khó xác định được phần giao nhau xi KHOA CNTT – ĐH KHTN Giới thiệu chung thuộc âm vịtrước hay âmvịsau).Ngay cả đối với con người, tách âm vịtừmột âm tiết (xác định vịtrí bắt đầu và vịtrí kết thúc của âm vị đó trên sóng âm của âm tiết) cũng không phải là công việc đơn giản. Hiện nay, hầu hết các hướng tiếp cận đểnhận dạng âmvịlà nhận dạng theo học mẫu thống kê. Thông thường, đểhọc mẫu, người tacung cấp cho chương trình học một nguồn dữliệu có nhiều mẫu được đã phân loại thành nhiều lớp và có gán nhãn (nhãn cho biết mỗi mẫu thuộc lớp nào). Nguồn dữliệu này phải được phân lớp và gán nhãn chính xác hoàn toàn đểmáyhọc. Tuy nhiên, do không thểtách âm vị một cách chính xác, nguồn dữliệu âmvị đưa vào khó đạt được mức độchính xác, kết quảlà việc huấn luyện giảm hiệu suất, làmcho hiệu suất của chương trình nhận dạng cũng giảm theo. Chúng tôi xin nêu ra một hướng giải quyết đểtránh việc gán nhãn âmvị không chính xác: thay vì đánh nhãn âm vị, chúng ta sẽ đánh nhãnâmtiết, đồng thời cho biết các âm vịcấu thành âmtiết đó. Nhưvậy, dữliệu mẫu cung cấp cho quá trình học là các âm tiết. Thuật toán học được sửdụng đểtách âm vịlà Embedded training. Kết quảthu được là các mô hình HMM cho từng âm vị. Do mỗi dãy âmvị được chọn tương đương với một âm tiết, công việc đánh nhãn âm vịtrên sóng âm thực chất làkhông có(chỉ đánh nhãn trên âmtiết, vốn được thực hiện dễdàng). Vì vậy, cóthểxemdữliệu đưa vào trong quá trình huấn luyện là dữliệu không gán nhãnvà phương pháp nhận dạng này được xem là nhận dạng âm vịtự động. Công việc gán nhãnâmvịbằng tay rất vất vảvà mất nhiều thời gian.Ngoài ra, hiện nay có rất ít kho dữliệu đã được gán nhãn âm vị. Vì vậy, hướng tiếp cận nhận dạng âm vịtự động,vốn hiệu quảhơn, tỏralàhướng tiếp cận đúng đắn. Tuy nhiên, huấn luyện trên dữliệu không gán nhãncũng có những khó khăn: đòi hỏi khối lượng dữliệu lớn hơn nhiều so với huấn luyên trên dữliệu có gán nhãn, đồng thời quá trình huấn luyện cũng lâu hơn.

91 trang | Chia sẻ: ttlbattu | Lượt xem: 2150 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Đề tài Nhận dạng tiếng nói tiếng việt theo hướng tiếp cận nhận dạng âm vị tự động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên