Nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA

Hiện nay, việc sử dụng các thiết bị điều khiển không tiếp xúc đang là xu hướng mới, đặc biệt là điều khiển bằng tiếng nói nhờ vào công nghệ nhận dạng tiếng nói. Trên thế giới có nhiều phần mềm nhận dạng tiếng nói được xây dựng và khai thác ứng dụng trên nền tảng vi xử lý và tài nguyên của máy tính. Bộ sản phẩmnhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA mới được nhóm tác giả giới thiệu

pdf4 trang | Chia sẻ: tranhoai21 | Lượt xem: 1227 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA Hiện nay, việc sử dụng các thiết bị điều khiển không tiếp xúc đang là xu hướng mới, đặc biệt là điều khiển bằng tiếng nói nhờ vào công nghệ nhận dạng tiếng nói. Trên thế giới có nhiều phần mềm nhận dạng tiếng nói được xây dựng và khai thác ứng dụng trên nền tảng vi xử lý và tài nguyên của máy tính. Bộ sản phẩmnhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA mới được nhóm tác giả giới thiệu Tuy nhiên, công nghệ nhận dạng tiếng nói cần phải dùng đến rất nhiều các giải thuật xử lý phức tạp khác nhau và do tính phức tạp của các giải thuật này dẫn đến thời gian thực thi giải thuật khá lớn, không đáp ứng được yêu cầu để có thể ứng dụng trên thiết bị phần cứng. Do vậy, các giải thuật nhận dạng giọng nói mới chỉ được dùng cho các ứng dụng thực hiện trên phần mềm mà ít có ứng dụng trên thiết bị phần cứng. Vì vậy, để có thể ứng dụng nhiều trong thực tế, hướng tiếp cận hợp lý là xây dựng thành công các giải thuật này trên vi mạch, dựa vào khả năng xử lý song song nhiều luồng dữ liệu để rút ngắn thời gian xử lý. Tuy nhiên, vì các giải thuật nhận dạng là rất phức tạp với nhiều luồng dữ liệu, đòi hỏi các kỹ thuật đồng bộ có độ chính xác nghiêm ngặt trong vi mạch. Hơn nữa, việc “vi mạch hóa” các giải thuật này là một thách thức rất lớn mà chưa có một công trình nào trên thế giới đã công bố là giải quyết trọn vẹn. Với Việt Nam, khó khăn trong việc “vi mạch hóa” các giải thuật nhận dạng ngôn ngữ tiếng Việt được nhân lên gấp bội do tiếng Việt là ngôn ngữ đơn âm, có dấu..., do vậy, ngay cả các giải thuật phần mềm cũng chưa tìm được giải thuật hiệu quả. Năm 2012, được sự hỗ trợ của Bộ Khoa học và Công nghệ thông qua đề tài nghiên cứu tiềm năng “Thiết kế chip nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA”, TS. Hoàng Trang và nhóm nghiên cứu trẻ của trường Đại học Bách khoa - Đại học Quốc gia TP.Hồ Chí Minh đã có cơ hội để thử sức nghiên cứu xây dựng một số cấu trúc vi mạch nhận dạng tiếng nói tiếng Việt. Sau gần một năm nghiên cứu, nhóm nghiên cứu đã gặt hái được một số kết quả bước đầu. Nhóm đã có được cấu trúc vi mạch trên nền FPGA nhận dạng tiếng nói tiếng Việt, bước đầu nhận dạng được chữ số từ 0-9 và khoảng 20 từ đơn âm khác như “trái”, “phải”, “lên”, “xuống”... với tốc độ xử lý nhanh hơn so với các vi mạch cùng tính năng đã được nghiên cứu để nhận dạng tiếng Anh. Ngoài ra, nhóm cũng đã phát triển một số cấu trúc vi mạch để xử lý được một số các câu ngắn ứng dụng cho điều khiển thiết bị điện tử trong nhà như điều hòa, đèn chiếu sáng, bình nóng lạnh... Đặc biệt, các cấu trúc vi mạch nhận dạng tiếng nói trên có độ chính xác cao khi thử nghiệm trong nhiều môi trường khác nhau, có thể đạt nhận dạng chính xác tối thiểu 80% khi so sánh với giải thuật phần mềm tương tự chạy trên máy tính. Trên cơ sở kết quả đạt được, nhóm thực hiện đề tài đang hướng tới việc cho ra đời một sản phẩm Chíp nhận dạng tiếng nói tiếng Việt đầu tiên với công nghệ 65 nm và nghiên cứu hoàn thiện sản phẩm dành cho các ứng dụng thiết bị đầu cuối trợ giúp người khiếm thính. Mặc dù, đây mới chỉ nghiên cứu đầu tiên với kết quả còn khiêm tốn nhưng chúng ta có thể hy vọng trong tương lai không xa sẽ có nhiều thiết bị đầu cuối sử dụng Chíp nhận dạng tiếng nói tiếng Việt do chính các nhà khoa học trẻ Việt Nam nghiên cứu chế tạo.
Tài liệu liên quan