Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từdao
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của
các bộ phận trong bộmáy phát âm và được truyền đi trong môi trường truyền âm (thường
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ- một
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độlớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói
là truyền thông tin từnão người nói sang não người nghe. Có thể xem như tiếng nói
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.
31 trang |
Chia sẻ: maiphuongtt | Lượt xem: 3268 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Kỹ thuật xử lý âm thanh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
12
Chương 2: Kỹ thuật xử lý âm thanh
2.1. Các đặc trưng cơ bản của âm thanh
2.1.1. Khái niệm về âm thanh và các tham số đánh giá
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao
động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.
Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của
các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường
là không khí). Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một
màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần
kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định và người nghe nhận biết được lời nói. Liên lạc thông tin bằng tiếng nói
là truyền thông tin từ não người nói sang não người nghe. Có thể xem như tiếng nói
(thoại) là một trường hợp riêng nhưng phổ biến của âm thanh.
Âm thanh có các tham số đánh giá đặc trưng sau đây:
1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn
thì âm thanh càng cao và ngược lại. Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là
Hz).
Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến
khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay
âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được
các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể
nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không
khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều
trong các thiết bị máy móc hiện nay.
Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng λ của âm
thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyền của âm thanh trong
không khí = 340m/s). Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến
0.017m.
Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm
phức bao gồm một âm đơn và một số âm hài có tần số gấp 2, 3 hoặc 4… lần âm đơn.
Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
13
300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz. Tiếng nói con
người thường có dải tần số từ 300Hz đến 3400Hz.
2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyền lan
đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một
điểm gọi là thanh áp ở điểm đó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động
lên một diện tích 1cm2 một lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta
thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.
3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian
một giây. Công suất âm thanh P có thể tính bằng biểu thức:
P = p.S.v (2.1)
Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và S
là diện tích. Công suất âm thanh tính theo đơn vị oát (W).
Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải
phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W.
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị
diện tích là 1cm2.
I = P/S = p.v (2.2)
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suất của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngược lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt
là dB). Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm
lượng của âm và trọng âm của từ.
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên
các nguyên âm đối lập nhau về độ dài. Hai từ "tang" và "tăng" trong tiếng Việt có sự đối
lập âm a dài (trong "tang") và âm a ngắn (trong "tăng").
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm. Ðây là vẻ riêng biệt của một âm. Âm sắc được quyết định
bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm
thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ
dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với
từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
14
Âm sắc chính là cái sắc thái riêng của từng âm. Âm sắc còn được quyết định bởi vật thể
dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra
âm vang (sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động
(non - sonants hoặc bruyants).
Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau, và tất cả đều liên quan đến sự
hiện diện của âm thanh đối với người nghe. Chúng bao gồm: (1) Tái tạo lại âm nhạc với
độ trung thực cao (high fidelity music) như là âm thanh ở các đĩa Compact (CD – audio
compact discs); (2) Viễn thông thoại hoặc là các mạng điện thoại; (3) tổng hợp thoại
(synthetic speech) mà ở đó các máy tính tạo và nhận dạng các mẫu thoại của con người.
Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm:
Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng
(enhancement) và hồi phục tiếng nói (restoration).
Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin
di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén
cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử
dụng tài nguyên hệ thống có hiệu quả hơn. Một ví dụ khác nữa là lưu trữ thoại số (các
máy trả lời điện thoại tự động), với một dung lượng bộ nhớ cho trước, nén cho phép lưu
nhiều bản tin dài hơn.
Để có thể xử lý âm thanh/thoại cần hiểu rõ được các cơ sở của quá trình tạo ra
tiếng nói và đặc trưng hệ thống thính giác con người.
2.1.2. Các đặc điểm của hệ thống thính giác con người
2.1.2.1. Cấu trúc tai người
Hệ thống thính giác của con người - Tai người là một cơ quan cực kỳ phức tạp.
Hình 2.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai
phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính
0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm
thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an
toàn ở trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ
(tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào
màng nhĩ và làm cho nó rung động.
Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của
màng nhi tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung
động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ
có chứa dung dịch chất lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu
được minh họa ở dạng duỗi thẳng ở hình 2.1, trên thực tế, tai trong được cuộn lại và trông
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
15
giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp
có nghĩa là ốc sên (snail) – hình 2.2.
Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chất lỏng,
chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường,
trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở
kháng cơ học thấp (áp suất âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số
nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính
kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong
không khí. Chính sự khác nhau về trở kháng cơ học dẫn đến phần lớn các sóng âm bị
phản xạ trở lại tại giao tiếp không khí/chất lỏng.
Tai giữa được xem như là một mạng phối hợp trở kháng để gia tăng phần năng
lượng sóng âm đi vào dung dịch chất lỏng của tai trong. Chẳng hạn, cá không có trống tai
hoặc tai giữa bởi vì chúng không cần phải nghe trong môi trường không khí. Phần lớn
những biến đổi trở kháng xuất phát từ sự khác nhau trong vùng phạm vi giữa trống tai
(màng nhĩ) (thu nhận sóng âm từ không khí) và cửa sổ oval (oval window) – phát dẫn âm
thành vào trong dung dịch chất lỏng. Màng nhĩ có diện tích khoảng chừng 60 mm2, trong
khi đó cửa sổ ovalcó diện tích khoảng chừng 4 mm2.Vì áp suất bằng lực đẩy chia cho
diện tích, chính sự khác nhau về diện tích này làm tăng áp suất sóng âm thanh khoảng 15
lần.
Cùng với ốc tai là màng nền (basilar membrance), cấu trúc hỗ trợ cho khoảng
12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai
(cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về
phía đối diện, nó hoạt động như là một bộ phân tích phổ tần số (frequency spectrum
analyzer). Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái
cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như
vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều
này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt.
Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường
dẫn âm tới bộ não.
Hình 2.1: Sơ đồ chức năng của tai người
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
16
1. Ống tai 2. Trống tai 3-5. Xương
tai giữa
6. Cửa sổ
oval
7. Ống
thông
xuống mũi
8. Ốc tai 9. Thần
kinh âm
thanh
Hình 2.2: Cấu tạo của tai người
2.1.2.2. Sự cảm thụ của tai người đối với âm thanh
Tai người rất nhạy cảm âm thanh. Chúng ta có thể nghe những sóng âm kéo dài
chỉ vài ms (mili giây) trong khi đôi mắt thì ngược lại. Mắt người không cảm nhận được
những thay đổi về mức độ ánh sáng trong một vài ms. Kết quả là trong quá trình truyền
thông tin đa phương tiện, nếu có thay đổi trong một vài ms thì ảnh hưởng của chất lượng
âm thanh lớn hơn hình ảnh.
1. Ngưỡng nghe
Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được
đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện
được. Ngưỡng nghe này được minh họa trong hình 2.3 dưới đây. Ngưỡng này là một hàm
của tần số âm thanh. Lưu ý là trong hình 2.3 này, có các thành phần tần số thấp ở dưới
mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất
trong phạm vi tần số từ 2 – 4KHz.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
17
Hình 2.3: Ngưỡng nghe
2. Mặt nạ tần số (frequency masking)
Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che
khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này là
gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”
qua các thành phần bên cạnh. Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần
bóng” này thì các thành phần tín hiệu tần số này sẽ không nghe được. Kết quả là có một
thành phần – thành phần che khuất làm dịch ngưỡng nghe. Hình 2.4 minh họa hiện tượng
này.
Hình 2.4: Mặt nạ tần số
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
18
3. Mặt nạ thời gian
Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phần bên cạnh trong
miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm
thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi
tăng âm lượng có thể bị che khuất. Hình 2.5 minh họa hiện tượng mặt nạ thời gian điển
hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau.
Hình 2.5: Mặt nạ thời gian
4. Các dải băng tần tới hạn
Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng
tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được
các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là
khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đến 5000Hz.
Thông thường, dải tần số âm thanh có thể được phân chia thành 24 băng tới hạn (25 băng
thường được sử dụng cho các ứng dụng mã hóa), như biểu diễn ở Bảng 2.1 dưới đây.
Do đó, tai hoạt động giống như các bộ lọc thông dải, mỗi bộ lọc cho phép một dải
tần số nhất định đi qua và khóa tất cả các tần số khác (hình 2.6). Nói cách khác, hệ thống
thính giác có thể được mô hình như một băng lọc, gồm 25 bộ lọc thông dải chồng lấn
nhau, trong dải tần từ 0 đến 20kHz. Các thí nghiệm dựa trên quan sát chỉ ra rằng một âm
thanh có âm lượng không đổi sẽ có vẻ to hơn nếu nó kéo dài ranh giới giữa hai dải tần tới
hạn thay vì chỉ nằm trong một dải tần. Trong thực tế, tai người không có khả năng biết
phân biệt trong cùng một dải tần tới hạn do sự che tần số.
Dải tần #
Tần số giới hạn
dưới
(Hz)
Tần số
trung tâm
(Hz)
Tần số giới hạn
trên
(Hz)
Độ rộng
băng tần (Hz)
1 - 50 100 -
2 100 150 200 100
3 200 250 300 100
4 300 350 400 100
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
19
5 400 450 510 110
6 510 570 630 120
7 630 700 770 140
8 770 840 920 150
9 920 1000 1080 160
10 1080 1170 1270 190
11 1270 1370 1480 210
12 1480 1600 1720 240
13 1720 1850 2000 280
14 2000 2150 2320 320
15 2320 2500 2700 380
16 2700 2900 3150 450
17 3150 3400 3700 550
18 3700 4000 4400 700
19 4400 4800 5300 900
20 5300 5800 6400 1100
21 6400 7000 7700 1300
22 7700 8500 9500 1800
23 9500 10500 12000 2500
24 12000 13500 15500 3500
25 15500 18775 22050 6550
Bảng 2.1: Các băng tần tới hạn và độ rộng băng tần
Hình 2.6: Hệ thống các bộ lọc thông dải
Một đơn vị mới được gọi là Bark, theo tên của Heinrich Barkhausen (1881-1956),
một nhà khoa học về âm thanh. Một đơn vị Bark tương ứng với độ rộng của một dải tần
tới hạn, với bất kỳ tần số che chắn nào.
Việc chuyển đổi giữa tần số f với số dải tần tới hạn tương ứng b được thể hiện qua đơn vị
Bark như sau:
(2.3)3)
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
20
Theo đơn vị đo tần số mới này, số dải tần tới hạn b tương đương với 5 khi f = 500 Hz.
Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các
dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ
biến nhất trong các chuẩn nén âm thanh MPEG.
2.2. Mã hóa tín hiệu thoại
2.2.1. Quá trình tạo ra tiếng nói
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc
biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nhờ
có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như
ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở
tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiết.
Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm
thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người,
có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện
thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là
phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ
nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ,
điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao
tiếp nhanh chóng.
Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ những chuyển động có
điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại.
Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 2.7. Cơ
bản, thoại được tạo ra như là một sóng âm từ các hốc mũi và miệng khi không khí bị bật
ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ
thể con người. Sẽ rất là hữu ích khi thể hiện quá trình tạo âm thoại ở dạng bộ lọc âm
thanh. Có ba hốc quan trọng trong hệ thống tạo âm thoại là hốc mũi, miệng và hầu để
hình thành nên một bộ lọc âm thanh. Bộ lọc được kích thích bởi không khí từ các lá phổi
và gánh tải tại đầu ra chính của nó bởi trở kháng bức xạ gắn kết với môi.
Cuống họng (vocal tract) liên quan tới hầu và các hốc miệng được nhóm lại với
nhau. Cuống khứu giác (nasal tract) bắt đầu tại vòm miệng và kết thúc tại các hốc mũi.
Khi vòm miệng thấp xuống, cuống khứu giác được ghép nối về mặt âm thanh với cuống
họng để hình thành nên các âm thoại giọng mũi.
Sự hình thành và khuôn dạng của cuống họng, cuống khứu giác thay đổi liên tục
theo thời gian để tạo ra một bộ lọc âm thanh với đáp ứng tần số biến đổi theo thời gian.
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
21
Khi mà không khí từ các lá phổi chuyển động qua các cuống họng, khứu giác, phổ tần số
được định dạng bởi sự lựa chọn tần số của những cuống họng và khứu giác này
Hình 2.7: Bộ phận phát âm của con người
Thoại được tạo ra khi không khí đi từ phổi, qua các dây thanh âm (bộ phận phát ra
tiếng của thanh quản) và dọc theo cuống họng. Cuống họng bắt đầu từ vị trí mở các dây
thanh âm cho tới miệng với chiều dài trung bình khoảng 16cm. Dây thanh âm của người
có cấu trúc gồm hai sợi cơ, mỗi sợi cơ được giữ bởi một màng cơ – một khối cơ đủ mạnh.
Bình thường hai dây cơ khép lại, không khí từ buồng phổi bị đóng kín không ra
được. Khi phổi đầy khí, dưới sự điều khiển của hệ dây thần kinh, khi cần nói, không khí
ép vào cơ cấu dây thanh âm, hai dây thanh âm có thể mở ra hoặc không mở.
Khi các dây thanh âm mở, không khí được đẩy ra từ phổi từng lớp một theo một
chu kỳ nhất định T0 tạo ra các nguyên âm.
Nếu các dây thanh âm không mở, nó sẽ bị tách bật ra để không khí có thể lọt qua
tạo ra các phụ âm nổ hoặc không khí có thể lách xuyên qua khe hẹp giữa hai dây để tạo ra
các phụ âm xát - rít.
Chúng ta có thể xem cơ quan phát âm như là một bộ lọc với nhiều tần số cộng
hưởng khác nhau và được gọi là những tần số formant hoặc đơn giản là formant. Các tần
Xử lý âm thanh và hình ảnh Chương 2:Kỹ thuật xử lý âm thanh
22
số formant được điều khiển bởi việc thay đổi hình dạng của cuống họng, chẳng hạn thông
qua sự chuyển động của lưỡi.
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn
thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số
được tăng cường hơn cả gọi là đỉnh formant. Một nguyên âm do một người phát ra có
nhiều formant:
• F1: ứng với cộng hưởng vùng yết hầu
• F2: ứng với cộng hưởng khoang miệng
Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác