Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từdao 
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. 
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của 
các bộ phận trong bộmáy phát âm và được truyền đi trong môi trường truyền âm (thường 
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ- một 
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần 
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một 
độlớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói 
là truyền thông tin từnão người nói sang não người nghe. Có thể xem như tiếng nói 
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.
                
              
                                            
                                
            
                       
            
                 31 trang
31 trang | 
Chia sẻ: maiphuongtt | Lượt xem: 3488 | Lượt tải: 1 
              
            Bạn đang xem trước 20 trang tài liệu Kỹ thuật xử lý âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
12 
Chương 2: Kỹ thuật xử lý âm thanh 
2.1. Các đặc trưng cơ bản của âm thanh 
2.1.1. Khái niệm về âm thanh và các tham số đánh giá 
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao 
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. 
 Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của 
các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường 
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một 
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần 
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một 
độ lớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói 
là truyền thông tin từ não người nói sang não người nghe. Có thể xem như tiếng nói 
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh. 
 Âm thanh có các tham số đánh giá đặc trưng sau đây: 
1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một 
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn 
thì âm thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là 
Hz). 
 Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến 
khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay 
âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những 
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được 
các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể 
nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không 
khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều 
trong các thiết bị máy móc hiện nay. 
 Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm 
thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong 
không khí = 340m/s). Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 
0.017m. 
 Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm 
phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn. 
Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
13 
300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con 
người thường có dải tần số từ 300Hz đến 3400Hz. 
2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan 
đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một 
điểm gọi là thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động 
lên một diện tích 1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta 
thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2. 
3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian 
một giây. Công suất âm thanh P có thể tính bằng biểu thức: 
 P = p.S.v (2.1) 
 Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S 
là diện tích. Công suất âm thanh tính theo đơn vị oát (W). 
 Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải 
phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W. 
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị 
diện tích là 1cm2. 
 I = P/S = p.v (2.2) 
 Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền 
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn 
thì công suất, cường độ và áp suất của âm thanh càng lớn. 
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động 
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, 
âm thanh càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt 
là dB). Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm 
lượng của âm và trọng âm của từ. 
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh 
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên 
các nguyên âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối 
lập âm a dài (trong "tang") và âm a ngắn (trong "tăng"). 
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các 
thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định 
bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm 
thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ 
dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với 
từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi. 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
14 
Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể 
dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra 
âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động 
(non - sonants hoặc bruyants). 
 Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự 
hiện diện của âm thanh đối với người nghe. Chúng bao gồm: (1) Tái tạo lại âm nhạc với 
độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio 
compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại 
(synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người. 
 Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: 
Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng 
(enhancement) và hồi phục tiếng nói (restoration). 
 Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin 
di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén 
cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử 
dụng tài nguyên hệ thống có hiệu quả hơn. Một ví dụ khác nữa là lưu trữ thoại số (các 
máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu 
nhiều bản tin dài hơn. 
 Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra 
tiếng nói và đặc trưng hệ thống thính giác con người. 
2.1.2. Các đặc điểm của hệ thống thính giác con người 
2.1.2.1. Cấu trúc tai người 
 Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp. 
Hình 2.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai 
phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 
0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm 
thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an 
toàn ở trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ 
(tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào 
màng nhĩ và làm cho nó rung động. 
 Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của 
màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung 
động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ 
có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu 
được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
15 
giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp 
có nghĩa là ốc sên (snail) – hình 2.2. 
 Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng, 
chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, 
trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở 
kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số 
nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính 
kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong 
không khí. Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị 
phản xạ trở lại tại giao tiếp không khí/chất lỏng. 
 Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng 
lượng sóng âm đi vào dung dịch chất lỏng của tai trong. Chẳng hạn, cá không có trống tai 
hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí. Phần lớn 
những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai 
(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm 
thành vào trong dung dịch chất lỏng. Màng nhĩ có diện tích khoảng chừng 60 mm2, trong 
khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho 
diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15 
lần. 
 Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng 
12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai 
(cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về 
phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum 
analyzer). Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái 
cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như 
vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều 
này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt. 
Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường 
dẫn âm tới bộ não. 
Hình 2.1: Sơ đồ chức năng của tai người 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
16 
1. Ống tai 2. Trống tai 3-5. Xương 
tai giữa 
6. Cửa sổ 
oval 
7. Ống 
thông 
xuống mũi 
8. Ốc tai 9. Thần 
kinh âm 
thanh 
Hình 2.2: Cấu tạo của tai người 
2.1.2.2. Sự cảm thụ của tai người đối với âm thanh 
 Tai người rất nhạy cảm âm thanh. Chúng ta có thể nghe những sóng âm kéo dài 
chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại. Mắt người không cảm nhận được 
những thay đổi về mức độ ánh sáng trong một vài ms. Kết quả là trong quá trình truyền 
thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng 
âm thanh lớn hơn hình ảnh. 
1. Ngưỡng nghe 
 Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được 
đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức 
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện 
được. Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây. Ngưỡng này là một hàm 
của tần số âm thanh. Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới 
mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất 
trong phạm vi tần số từ 2 – 4KHz. 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
17 
Hình 2.3: Ngưỡng nghe 
2. Mặt nạ tần số (frequency masking) 
 Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che 
khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này là 
gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng” 
qua các thành phần bên cạnh. Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần 
bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được. Kết quả là có một 
thành phần – thành phần che khuất làm dịch ngưỡng nghe. Hình 2.4 minh họa hiện tượng 
này. 
Hình 2.4: Mặt nạ tần số 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
18 
3. Mặt nạ thời gian 
 Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong 
miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm 
thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi 
tăng âm lượng có thể bị che khuất. Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển 
hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau. 
Hình 2.5: Mặt nạ thời gian 
4. Các dải băng tần tới hạn 
 Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng 
tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được 
các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là 
khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz. 
Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng 
thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây. 
 Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải 
tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6). Nói cách khác, hệ thống 
thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn 
nhau, trong dải tần từ 0 đến 20kHz. Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm 
thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới 
hạn thay vì chỉ nằm trong một dải tần. Trong thực tế, tai người không có khả năng biết 
phân biệt trong cùng một dải tần tới hạn do sự che tần số. 
Dải tần # 
Tần số giới hạn 
dưới 
(Hz) 
Tần số 
trung tâm 
(Hz) 
Tần số giới hạn 
trên 
(Hz) 
Độ rộng 
băng tần (Hz) 
1 - 50 100 - 
2 100 150 200 100 
3 200 250 300 100 
4 300 350 400 100 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
19 
5 400 450 510 110 
6 510 570 630 120 
7 630 700 770 140 
8 770 840 920 150 
9 920 1000 1080 160 
10 1080 1170 1270 190 
11 1270 1370 1480 210 
12 1480 1600 1720 240 
13 1720 1850 2000 280 
14 2000 2150 2320 320 
15 2320 2500 2700 380 
16 2700 2900 3150 450 
17 3150 3400 3700 550 
18 3700 4000 4400 700 
19 4400 4800 5300 900 
20 5300 5800 6400 1100 
21 6400 7000 7700 1300 
22 7700 8500 9500 1800 
23 9500 10500 12000 2500 
24 12000 13500 15500 3500 
25 15500 18775 22050 6550 
Bảng 2.1: Các băng tần tới hạn và độ rộng băng tần 
Hình 2.6: Hệ thống các bộ lọc thông dải 
 Một đơn vị mới được gọi là Bark, theo tên của Heinrich Barkhausen (1881-1956), 
một nhà khoa học về âm thanh. Một đơn vị Bark tương ứng với độ rộng của một dải tần 
tới hạn, với bất kỳ tần số che chắn nào. 
Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị 
Bark như sau: 
(2.3)3)
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
20 
Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz. 
 Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các 
dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người 
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ 
biến nhất trong các chuẩn nén âm thanh MPEG. 
2.2. Mã hóa tín hiệu thoại 
2.2.1. Quá trình tạo ra tiếng nói 
 Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc 
biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ 
có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như 
ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở 
tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết. 
 Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm 
thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, 
có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện 
thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là 
phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ 
nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, 
điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao 
tiếp nhanh chóng. 
 Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có 
điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại. 
 Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ 
bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật 
ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ 
thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm 
thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để 
hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi 
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi. 
 Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với 
nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi. 
Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống 
họng để hình thành nên các âm thoại giọng mũi. 
 Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục 
theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian. 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
21 
Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số 
được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này 
Hình 2.7: Bộ phận phát âm của con người 
 Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra 
tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây 
thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người 
có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh. 
 Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra 
được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí 
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở. 
 Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một 
chu kỳ nhất định T0 tạo ra các nguyên âm. 
 Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua 
tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra 
các phụ âm xát - rít. 
 Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng 
hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần 
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh 
22 
số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông 
qua sự chuyển động của lưỡi. 
 Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn 
thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số 
được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có 
nhiều formant: 
• F1: ứng với cộng hưởng vùng yết hầu 
• F2: ứng với cộng hưởng khoang miệng 
 Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác