Kỹ thuật xử lý âm thanh

Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từdao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận trong bộmáy phát âm và được truyền đi trong môi trường truyền âm (thường là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ- một màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độlớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói là truyền thông tin từnão người nói sang não người nghe. Có thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.

pdf31 trang | Chia sẻ: maiphuongtt | Lượt xem: 3268 | Lượt tải: 1download
Bạn đang xem trước 20 trang tài liệu Kỹ thuật xử lý âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 12 Chương 2: Kỹ thuật xử lý âm thanh 2.1. Các đặc trưng cơ bản của âm thanh 2.1.1. Khái niệm về âm thanh và các tham số đánh giá Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói là truyền thông tin từ não người nói sang não người nghe. Có thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh. Âm thanh có các tham số đánh giá đặc trưng sau đây: 1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn thì âm thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là Hz). Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều trong các thiết bị máy móc hiện nay. Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong không khí = 340m/s). Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m. Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn. Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 13 300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con người thường có dải tần số từ 300Hz đến 3400Hz. 2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một điểm gọi là thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động lên một diện tích 1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2. 3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian một giây. Công suất âm thanh P có thể tính bằng biểu thức: P = p.S.v (2.1) Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S là diện tích. Công suất âm thanh tính theo đơn vị oát (W). Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W. 4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện tích là 1cm2. I = P/S = p.v (2.2) Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm thanh càng lớn. 5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt là dB). Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm của từ. 6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối lập âm a dài (trong "tang") và âm a ngắn (trong "tăng"). 7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 14 Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non - sonants hoặc bruyants). Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự hiện diện của âm thanh đối với người nghe. Chúng bao gồm: (1) Tái tạo lại âm nhạc với độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại (synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người. Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng (enhancement) và hồi phục tiếng nói (restoration). Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử dụng tài nguyên hệ thống có hiệu quả hơn. Một ví dụ khác nữa là lưu trữ thoại số (các máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu nhiều bản tin dài hơn. Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng nói và đặc trưng hệ thống thính giác con người. 2.1.2. Các đặc điểm của hệ thống thính giác con người 2.1.2.1. Cấu trúc tai người Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp. Hình 2.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn ở trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ (tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào màng nhĩ và làm cho nó rung động. Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 15 giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp có nghĩa là ốc sên (snail) – hình 2.2. Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng, chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí. Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trở lại tại giao tiếp không khí/chất lỏng. Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng lượng sóng âm đi vào dung dịch chất lỏng của tai trong. Chẳng hạn, cá không có trống tai hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí. Phần lớn những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai (màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm thành vào trong dung dịch chất lỏng. Màng nhĩ có diện tích khoảng chừng 60 mm2, trong khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15 lần. Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum analyzer). Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt. Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường dẫn âm tới bộ não. Hình 2.1: Sơ đồ chức năng của tai người Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 16 1. Ống tai 2. Trống tai 3-5. Xương tai giữa 6. Cửa sổ oval 7. Ống thông xuống mũi 8. Ốc tai 9. Thần kinh âm thanh Hình 2.2: Cấu tạo của tai người 2.1.2.2. Sự cảm thụ của tai người đối với âm thanh Tai người rất nhạy cảm âm thanh. Chúng ta có thể nghe những sóng âm kéo dài chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại. Mắt người không cảm nhận được những thay đổi về mức độ ánh sáng trong một vài ms. Kết quả là trong quá trình truyền thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng âm thanh lớn hơn hình ảnh. 1. Ngưỡng nghe Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện được. Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây. Ngưỡng này là một hàm của tần số âm thanh. Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất trong phạm vi tần số từ 2 – 4KHz. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 17 Hình 2.3: Ngưỡng nghe 2. Mặt nạ tần số (frequency masking) Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này là gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng” qua các thành phần bên cạnh. Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được. Kết quả là có một thành phần – thành phần che khuất làm dịch ngưỡng nghe. Hình 2.4 minh họa hiện tượng này. Hình 2.4: Mặt nạ tần số Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 18 3. Mặt nạ thời gian Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất. Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau. Hình 2.5: Mặt nạ thời gian 4. Các dải băng tần tới hạn Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz. Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây. Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6). Nói cách khác, hệ thống thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn nhau, trong dải tần từ 0 đến 20kHz. Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới hạn thay vì chỉ nằm trong một dải tần. Trong thực tế, tai người không có khả năng biết phân biệt trong cùng một dải tần tới hạn do sự che tần số. Dải tần # Tần số giới hạn dưới (Hz) Tần số trung tâm (Hz) Tần số giới hạn trên (Hz) Độ rộng băng tần (Hz) 1 - 50 100 - 2 100 150 200 100 3 200 250 300 100 4 300 350 400 100 Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 19 5 400 450 510 110 6 510 570 630 120 7 630 700 770 140 8 770 840 920 150 9 920 1000 1080 160 10 1080 1170 1270 190 11 1270 1370 1480 210 12 1480 1600 1720 240 13 1720 1850 2000 280 14 2000 2150 2320 320 15 2320 2500 2700 380 16 2700 2900 3150 450 17 3150 3400 3700 550 18 3700 4000 4400 700 19 4400 4800 5300 900 20 5300 5800 6400 1100 21 6400 7000 7700 1300 22 7700 8500 9500 1800 23 9500 10500 12000 2500 24 12000 13500 15500 3500 25 15500 18775 22050 6550 Bảng 2.1: Các băng tần tới hạn và độ rộng băng tần Hình 2.6: Hệ thống các bộ lọc thông dải Một đơn vị mới được gọi là Bark, theo tên của Heinrich Barkhausen (1881-1956), một nhà khoa học về âm thanh. Một đơn vị Bark tương ứng với độ rộng của một dải tần tới hạn, với bất kỳ tần số che chắn nào. Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị Bark như sau: (2.3)3) Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 20 Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz. Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ biến nhất trong các chuẩn nén âm thanh MPEG. 2.2. Mã hóa tín hiệu thoại 2.2.1. Quá trình tạo ra tiếng nói Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết. Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng. Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại. Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi. Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi. Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống họng để hình thành nên các âm thoại giọng mũi. Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian. Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 21 Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này Hình 2.7: Bộ phận phát âm của con người Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh. Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở. Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một chu kỳ nhất định T0 tạo ra các nguyên âm. Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra các phụ âm xát - rít. Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 22 số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông qua sự chuyển động của lưỡi. Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có nhiều formant: • F1: ứng với cộng hưởng vùng yết hầu • F2: ứng với cộng hưởng khoang miệng Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác
Tài liệu liên quan