Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:64

Thêm vào BST

Báo xấu

20
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận văn này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ thuật phân rã theo thời gian, đánh giá thực nghiệm các phương pháp, và đưa ra những khuyến nghị. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG THÂN THẾ HUYẾN NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ THEO THỜI GIAN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2018
LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn TS. Phùng Trung Nghĩa, người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này. Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu. Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động viên giúp đỡ em trong suốt những năm học vừa qua. Em xin chân thành cám ơn! Thái Nguyên, ngày 22 tháng 06 năm 2018 Học viên Thân Thế Huyến i
LỜI CAM ĐOAN Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của TS. Phùng Trung Nghĩa Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào. Em xin chịu trách nhiệm về nghiên cứu của mình. Học viên Thân Thế Huyến ii
MỤC LỤC LỜI CẢM ƠN .................................................................................................. 1 LỜI CAM ĐOAN ............................................................................................ ii MỤC LỤC ....................................................................................................... iii DANH MỤC BẢNG ........................................................................................ v DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU ........................................... viii MỞ ĐẦU .......................................................................................................... 1 1. Lý do chọn đề tài ................................................................................... 1 2. Đối tượng và phạm vi nghiên cứu ......................................................... 2 3. Hướng nghiên cứu của luận văn ........................................................... 3 4. Những nội dung nghiên cứu chính ........................................................ 3 5. Phương pháp nghiên cứu....................................................................... 4 6. Ý nghĩa khoa học của luận văn: ............................................................ 4 CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI ...................................... 5 1.1. Thông tin tiếng nói ............................................................................. 5 1.2. Tín hiệu tiếng nói ............................................................................... 5 1.3. Quá trình tạo tiếng nói ....................................................................... 7 1.4. Cơ quan thính giác ........................................................................... 10 1.5. Xử lý tiếng nói.................................................................................. 12 1.6. Thông tin người nói trong tiếng nói ................................................. 13 1.7. Biến đổi thông tin người nói trong tiếng nói và ứng dụng .............. 15 1.8. Phương pháp biến đổi thay đổi tham số trực tiếp ............................ 16 CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI .......................... 21 2.1. Kỹ thuật phân rã tiếng nói theo thời gian......................................... 21 2.1.1. Phương pháp TD nguyên thủy ...................................................... 21 iii
2.1.2. Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD ....... 24 2.1.3. Phương pháp MRTD ..................................................................... 27 2.2. Một số kỹ thuật biến đổi thông tin người nói dùng TD ................... 32 2.2.1. Biến đổi thông tin người nói bằng TD-GMM............................... 32 2.2.2. Biến đổi thông tin người nói bằng HTD [12] ............................... 34 CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI................. 42 3.1. Ngữ âm tiếng Việt ............................................................................ 42 3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 44 3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 47 3.4. Lựa chọn cơ sở dữ liệu ..................................................................... 47 3.5. Đánh giá các phương pháp ............................................................... 48 3.5.1. Tiêu chí đánh giá ........................................................................... 48 3.5.2. Thực nghiệm các phương pháp ..................................................... 49 3.5.3. Kết quả đánh giá............................................................................ 50 3.5.4. Thảo luận ....................................................................................... 51 KẾT LUẬN .................................................................................................... 53 TÀI LIỆU THAM KHẢO ............................................................................ 54 iv
DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt.............................................................. 44 Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 44 Bảng 3.3. Các tham số thực nghiệm ............................................................... 49 Bảng 3.4. Kết quả đánh giá khách quan .......................................................... 50 Bảng 3.5. Kết quả đánh giá chủ quan ABX .................................................... 50 v
DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 6 Hình 1.2: Tiếng nói hữu thanh .......................................................................... 6 Hình 1.3: Bộ phận cung cấp làn hơi .................................................................. 7 Hình 1.4: Dây thanh âm .................................................................................... 7 Hình 1.5: Cấu trúc cơ quan phát âm ................................................................. 8 Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm.......... 9 Hình 1.7: Mô hình hóa cơ quan phát âm ........................................................... 9 Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính .... 10 Hình 1.9: Mô hình cơ quan thính giác ............................................................ 10 Hình 1.10: Thang tần số Bark ......................................................................... 11 Hình 1.11: Ngưỡng nghe ................................................................................ 11 Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 12 Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm)................................................................................................................ 12 Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 13 Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý thông tin người nói .......................................................................................... 13 Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau .................................................................... 14 Hình 2.1: Ví dụ về hai hàm sự kiện liền kề..................................................... 25 Hình 2.2: Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn”.............................................................................................................. 27 Hình 2.3: Thuật toán chuẩn hóa vector sự kiện trong MRTD ........................ 31 Hình 2.4: Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng Nhật, chỉ số trên miền thời gian là số khung. ........................................ 32 Hình 2.5: Phương pháp biến đổi TD-GMM.................................................... 34 vi
Hình 2.6: Mô hình biến đổi giọng người nói HTD ......................................... 35 Hình 2.7: Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K điểm sự kiện .................................................................................................... 37 Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa. . 43 vii
DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU Ký tự Ý nghĩa F0 Tần số dao động cơ bản TD Phân rã theo thời gian RTD Giới hạn LSF Tham số đường phố DLSF Các ràng buộc MRTD PP Phân rã tiếng nói theo thời gian giới hạn cải tiến GMM Mô hình Gaussian hỗn hợp TD- GMM Mô hình pha trộn Gausce HTD Kỹ thuật phân rã ( kết hợp HTT+TD) PI Chỉ số hiệu năng PI-LSF Hiệu năng phổ MOS Thang điểm đánh giá chủ quan trung bình AMDF Hàm hiệu biên độ trung bình LP Phương pháp dự đoán tuyến tính PCM Kỹ thuật điều chế xung mã WAV Dữ liệu âm thanh không nén PSTN Mạng điện thoại chuyển mạch công cộng LSF Tham số phổ đường ABX Thang điểm đánh giá theo cặp viii
MỞ ĐẦU 1. Lý do chọn đề tài. Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin về người nói, thông tin về cảm xúc khi nói,… Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1]. Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây [2]. Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như thông tin nhận danh chính xác người nói [5,6,7,9,10,11]. Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số ví dụ điển hình như: - Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với giọng của nhân vật lịch sử [6]. - Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống với nhân vật thật hơn,… [6] 1
- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [12]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể. Kỹ thuật phân rã tiếng nói theo thời gian là một kỹ thuật xử lý tín hiệu trên miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý tiếng nói và gần đây nhất đã được áp dụng thành công trong các hệ thống biến đổi thông tin người nói. Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói trong tiếng nói [5,6,7,9,10,11].Tại Việt Nam cũng có một số nghiên cứu ban đầu về thông tin người nói trong tiếng nói nhưng vẫn chưa có nhiều các nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói cũng như ứng dụng của kỹ thuật phân rã theo thời gian trong biến đổi thông tin người nói. Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ thuật phân rã theo thời gian, đánh giá thực nghiệm các phương pháp, và đưa ra những khuyến nghị. 2. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông tin người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây. 2
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [7], phương pháp thay thế khung tiếng nói HTT [8], và đặc biệt tập trung vào các phương pháp sử dụng kỹ thuật phân rã tiếng nói theo thời gian TD [10-11]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra các khuyến nghị. 3. Hướng nghiên cứu của luận văn Hướng nghiên cứu của luận văn là nghiên cứu về thông tin người nói trong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian. Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về thông tin người nói, và phương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã theo thời gian và ứng dụng trong biến đổi thông tin người nói. Luận văn cũng nghiên cứu đánh giá thực nghiệm một số phương pháp biến đổi thông tin người nói trong tiếng nói. 4. Những nội dung nghiên cứu chính Chương 1.Tổng quan về tiếng nói và vấn đề biến đổi thông tin người nói trong tiếng nói: Giới thiệu tổng quan về tiếng nói, thông tin người nói trong tiếng nói, vấn đề biến đổi tiếng nói theo người nói. Chương 2. Kỹ thuật phân rã theo thời gian và ứng dụng trong biến đổi thông tin người nói trong tiếng nói. - Trình bày cơ sở lý thuyết về kỹ thuật phân rã theo thời gian, phương pháp của Altal, phương pháp giới hạn RTD của Kim, và phương pháp cải tiến MRTD của N.P. Chien. - Trình bày các phương pháp biến đổi tiếng nói dùng kỹ thuật TD [10, 11,12]. Chương 3. Đánh giá thực nghiệm. 3
- Thu thập dữ liệu tiếng nói - Cài đặt một số phương pháp biến đổi thông tin người nói trong tiếng nói trên MATLAB. - Đánh giá khách quan và chủ quan các phương pháp. - Thống kê các kết quả đánh giá - Phân tích, đánh giá, đưa ra kiến nghị 5. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [1-7, 9-11] để phân tích, đánh giá về các phương pháp biến đổi thông tin người nói trong tiếng nói. Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói trong tiếng nói. 6. Ý nghĩa khoa học của luận văn: Như đã trình bày trong phần 1, nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu về ứng dụng của kỹ thuật phân rã theo thời gian trong bài toán biến đổi thông tin người nói trong tiếng nói chưa được nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn. 4
CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 1.1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1.2. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. 5
Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu. Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh 6
1.3. Quá trình tạo tiếng nói a. Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh. Hình 1.3: Bộ phận cung cấp làn hơi Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản: Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông. Hình 1.4: Dây thanh âm 7
b. Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và miệng chủ yếu đóng vai trò truyền âm. c. Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm đúng. Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau. Hình 1.5: Cấu trúc cơ quan phát âm 8
Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm d. Biễu diễn bộ phận phát âm: Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau. Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác. Hình 1.7: Mô hình hóa cơ quan phát âm 9
Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 1.4. Cơ quan thính giác Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm. Hình 1.9: Mô hình cơ quan thính giác 10
Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz. Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém. Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm nhận được sự khác biệt. Hình 1.10: Thang tần số Bark Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.12) và tần số (hình 1.13). Hình 1.11: Ngưỡng nghe 11