Nghiên cứu giải pháp giảm nhiễu nâng cao chất lượng tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:4

Thêm vào BST

Báo xấu

35
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín hiệu tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh. Việc xây dựng mô hình hồi quy với ma trận các hệ số ước lượng được thực hiện cho cả tín hiệu tiếng nói và nhiễu nhằm thay đổi cấu trúc của bộ lọc.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Nghiên cứu giải pháp giảm nhiễu nâng cao chất lượng tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 45 NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG BỘ LỌC KALMAN HIỆU CHỈNH A STUDY OF MEASURES FOR NOISE REDUCTION TO IMPROVE THE QUALITY OF SPEECH USING ADJUSTMENT KALMAN FILTER Dương Ngọc Pháp Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; phapdn@gmail.com Tóm tắt - Bài báo tập trung nghiên cứu kỹ thuật giảm nhiễu cho tín Abstract - The article focuses on noise reduction techniques for hiệu tiếng nói sử dụng bộ lọc Kalman hiệu chỉnh. Việc xây dựng mô speech using the adjusment Kalman filter. The construction of the hình hồi quy với ma trận các hệ số ước lượng được thực hiện cho regression model with matrix of estimated coefficients are made for cả tín hiệu tiếng nói và nhiễu nhằm thay đổi cấu trúc của bộ lọc. Tín both speech and noise to change the structure of the filter. Original hiệu tiếng nói ban đầu bị tác động bởi nhiễu được xử lý trước khi speech affected by noise is processed prior to the input filter using đưa đến đầu vào bộ lọc sử dụng các phương pháp ước lượng tín the signal estimation method including the determination of the hiệu, bao gồm việc xác định xác suất hiện diện tiếng nói (SPP) và kỹ speech presence probability (SPP) and spectral subtraction thuật trừ phổ. Kết quả mô phỏng được thực hiện trên cơ sở dữ liệu technique. The simulation results are performed on the NOIZEUS NOIZEUS nhằm mô phỏng kỹ thuật đã nghiên cứu với các loại nhiễu database to simulate the studied technique with different kinds of và mức nhiễu khác nhau. Thông qua các tiêu chí đánh giá, tiến hành noise and different noise levels. Through the evaluation criteria, the so sánh mức độ hiệu quả của kỹ thuật trên các môi trường nhiễu và article compares the technical efficiency on noise environments and với các phương pháp đã nghiên cứu trước đó. the methods studied previously. Từ khóa - bộ lọc Kalman; giảm nhiễu; tiếng nói; xác suất hiện diện Key words - Kalman filter; noise reduction; speech; speech tiếng nói; hồi quy presence probability; regression 1. Đặt vấn đề trong môi trường chứa nhiễu nền lớn. Như trình bày ở Hình Hầu hết chất lượng tiếng nói trong các hệ thống truyền 1, tín hiệu tiếng nói bị nhiễu y(n) nhận được tại microphone tin đều bị suy giảm do tác động bởi nhiễu. Việc nghiên cứu thực chất được tạo ra từ một nguồn tín hiệu tiếng nói sạch và đưa ra các kỹ thuật nhằm loại bỏ nhiễu đóng vai trò quan x(n) cộng với nhiễu nền v(n). trọng trong việc đảm bảo chất lượng và tính dễ hiểu của tín 3. Giảm nhiễu sử dụng bộ lọc Kalman hiệu tiếng nói trong các hệ thống thông tin liên lạc. 3.1. Cấu trúc bộ lọc Kalman Nâng cao chất lượng tiếng nói bao gồm cải thiện chất lượng, tính dễ hiểu và giảm sự khó chịu cho người nghe Cấu trúc tự hồi quy của bộ lọc cho phép dự đoán trạng bằng cách giảm tối đa nhiễu tác động vào tiếng nói. Các kỹ thái hiện tại từ những trạng thái trước đó mà không cần thuật đã được nghiên cứu để giảm nhiễu cho tín hiệu tiếng phải tốn kém bộ nhớ để lưu trữ những thông số này [1][4]. nói như trừ phổ (SS), ước lượng MMSE, lọc Wiener (WF), Phương trình sai phân tự hồi quy: biến đổi Wavelet,… x n  Fn x n 1  w n ; n  1, 2, (1) Nội dung bài báo sẽ tập trung nghiên cứu kỹ thuật giảm Và vector quan sát: nhiễu cho tín hiệu tiếng nói dựa trên phương pháp tính toán y n  H n x n  v n ; n  1, 2,  (2) truy hồi, sử dụng biến thể của bộ lọc Kalman. Kỹ thuật này khá hiệu quả với các loại nhiễu khác nhau trong môi trường ˆ 0|0và P0|0 là điều kiện đầu cho bộ lọc. Với các giá trị x thực. Kết quả nghiên cứu sẽ được so sánh, đánh giá với các Sơ đồ thực hiện lọc Kalman với sự có mặt của các phương kỹ thuật đã đề xuất. trình toán học được biểu diễn ở Hình 2: 2. Mô hình nhiễu cộng Bài báo xem xét tín hiệu tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic noise). Đặc tính cơ bản của nhiễu cộng là sự xếp chồng của tín hiệu nhiễu lên tín hiệu tiếng nói trong miền thời gian lẫn miền tần số, và nhiễu tác động lên tín hiệu tiếng nói với nhiều mức (SNR) khác nhau. Hình 1. Mô hình nhiễu cộng Nhiễu cộng tác động vào tín hiệu tiếng nói khi ghi âm Hình 2. Sơ đồ thực hiện bộ lọc Kalman
46 Dương Ngọc Pháp 3.2. Sơ đồ khối hệ thống 0  0 0 0  0 0          Bước 1. Tín hiệu tiếng nói bị nhiễu đầu vào y được phân  khung (với độ dài cửa sổ bằng W=256, hệ số chồng phổ 0,5 0  0 0 0  0 0 đối với bộ lọc Kalman trong miền thời gian và W=80, hệ   0  0  u2 0  0 0 số chồng phổ 0,75 đối với bộ lọc Kalman trong miền tần số Q (8) 0  0 0 0  0 0 [11]) sử dụng cửa sổ Hanning.            Bước 2. Ước lượng bộ hệ số của mô hình hồi quy, trong 0  0 0 0  0 0 đó ma trận hệ số được xây dựng cho cả tín hiệu tiếng nói   và nhiễu ước lượng.  0  0 0 0  0  2  Bước 3. Áp dụng bộ lọc Kalman để lọc tín hiệu tiếng p q nói và nhiễu từ tín hiệu ban đầu. Tín hiệu ở đầu vào bộ lọc H   0 0  1 0 0  1 (9) có thể ở miền thời gian hoặc được biến đổi sang miền tần p q số (FFT và STFT). 2 2 với σ và σ lần lượt là giá trị phương sai ứng với ma trận J Bước 4. Thực hiện ghép khung tín hiệu đầu. u và R của sai lệch ước lượng tiếng nói và nhiễu. So với kỹ thuật giảm nhiễu sử dụng cấu trúc cơ bản của bộ lọc Kalman [4], trong bài báo tác giả xây dựng ma trận của mô hình hồi quy sử dụng các hệ số α và β cho phép thu được tại đầu ra sau mỗi thời điểm ứng với từng khung tín hiệu cả tín hiệu tiếng nói và nhiễu ước lượng với lưu đồ thuật toán thực hiện như sau: Hình 3. Sơ đồ khối hệ thống Mô hình hệ thống theo bộ lọc Kalman hiệu chỉnh [7][9] được xây dựng với các phương trình ước lượng và quan sát có thay đổi cấu trúc các ma trận: x n =Фx n-1 +w n (3) y n =Hx n (4) với vector x n và w n có dạng là: T x n   xn - p 1 xn - p  2 ...xn -1 xn vn - q 1vn - q  2 ...vn -1vn  (5) w n   0 0 0... un 0 0 0... n  T (6) ma trận Ф, Q và H có dạng:  0 1 0  0 0 0 0  0     0 0 1 0 0 0 0 0                 0 0 0  1 0 0 0  0   p 1  p  2  1 0 0 0  0 (7) Φ p  Hình 4. Thuật toán thực hiện lọc Kalman  0 0 0  0 0 1 0  0  0 3.3. Ước lượng hệ số mô hình 0 0  0 0 0 1  0   Ứng với mỗi khung thứ i của tín hiệu tiếng nói bị nhiễu,              việc ước lượng các hệ số của mô hình hồi quy được thực  0 0 0  0 0 0 0  1 hiện thông qua các bước sau:  0 0 0  0 q  q 1  q 2   1   Bước 1. Thực thiện FFT khung tín hiệu kích thước W
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 47 Bước 2. Ước lượng công suất tín hiệu Pˆy' theo chuẩn của IEEE là tín hiệu thoại sạch. Mỗi câu dài trung bình khoảng 2s. Bước 3. Ước lượng công suất nhiễu Pˆv [2] Năm loại nhiễu được chọn để nghiên cứu trong đề tài là Bước 4. Ước lượng công suất tiếng nói Pˆx nhiễu ô tô (Car), nhiễu đám đông (Babble), nhiễu trắng Bước 5. Ước lượng các hệ số bậc p và bậc q cho tiếng (White), nhiễu từ tàu hỏa (Train) và nhiễu đường phố (Street). nói và nhiễu bằng phương pháp hàm tương quan [5], [6]. 4.2. Tiêu chí đánh giá Các phương pháp đánh giá khách quan [3], [10] được khảo sát để thực hiện đánh giá chất lượng tín hiệu tiếng nói qua các tiêu chí đánh giá, bao gồm: - Segmental Signal-to-Noise Ratio (SegSNR); - Log Likelihood Ratio (LLR); - Cepstrum Distance (CEP); - Perceptual Evaluation of Speech Quanlity (PESQ); - Weighted Spectral Slope (WSS). 4.3. Kết quả đánh giá và phân tích Bài báo sẽ thực hiện đánh giá, so sánh 3 kỹ thuật đã nghiên cứu là NSS, MMSE và LogMMSE ước lượng nhiễu sử dụng bộ lọc phần trăm (PF) với 3 kỹ thuật giảm nhiễu dùng bộ lọc Kalman trong miền thời gian (Kalman-TD), miền tần số biến đổi Fourier nhanh (Kalman-FFT), và miền tần số biến đổi Fourier thời gian ngắn (Kalman-STFT [8]). Hình 5. Sơ đồ khối ước lượng các hệ số mô hình 4.3.1. Đánh giá theo phương pháp đo tỉ số tín hiệu trên 3.4. Ước lượng nhiễu nhiễu trên từng khung SegSNR Sử dụng kỹ thuật ước lượng xác suất hiện diện tiếng nói Phương pháp đo SegSNR sẽ được lựa chọn để đánh giá SPP [2]. Các bước thực hiện: 6 kỹ thuật giảm nhiễu (bao gồm 3 kỹ thuật sử dụng bộ lọc Bước 1. Ước lượng công suất nhiễu 5 khung tín hiệu Kalman (Kalman-TD, Kalman-FFT, Kalman-STFT) và 3 ban đầu (coi tín hiệu chỉ là nhiễu). kỹ thuật đã nghiên cứu là NSS, MMSE và logMMSE sử Bước 2. Tính toán xác suất xuất hiện tiếng nói sau dụng bộ lọc phần trăm (PF)) với 4 mức nhiễu khác nhau (posteriori SPP). (0dB, +5dB, +10dB, +15dB). Kết quả thực hiện với nhiễu xe hơi được chỉ ra như ở Hình 7. Bước 3. Cập nhật xác suất với hệ số làm mượt α = 0,9. Bước 4. Ước lượng công suất nhiễu với ngưỡng mềm của xác suất hiện diện tiếng nói đã được tính toán (ngưỡng được chọn bằng 0,99). Bước 5. Cập nhật nhiễu với hệ số làm mượt β = 0,8. Hình 7. Kết quả đánh giá SegSNR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ô tô (Car) Các thuật toán giảm nhiễu đều cho chỉ số SegSNR(dB) tốt hơn nhiều so với tín hiệu ban đầu. Các thuật toán sử dụng bộ lọc Kalman cho chỉ số SegSNR khá cao, khả năng giảm nhiễu tốt hơn hẳn so với các thuật toán khác và gần bằng nhau với tỷ lệ nén nhiễu khá tương đồng cho cả 5 loại nhiễu. Hình 6. Sơ đồ ước lượng công suất nhiễu 4.3.2. Phương pháp đánh giá cảm quan chất lượng thoại PESQ 4. Thực hiện giảm nhiễu và đánh giá kết quả Thực hiện đánh giá PESQ cho kỹ thuật giảm nhiễu sử 4.1. Cơ sở dữ liệu dụng bộ lọc Kalman trong miền thời gian so sánh trên 5 Cơ sở dữ liệu đánh giá được lấy từ thư viện NOIZEUS môi trường nhiễu khác nhau như ở Hình 8. [12] gồm 30 câu thoại được ghi âm trong phòng thí nghiệm Kết quả đánh giá cho thấy ngoài nhiễu trắng thì các loại
48 Dương Ngọc Pháp nhiễu khác cũng cho chỉ số PESQ khá tốt, đặc biệt là nhiễu tiếng cường sử dụng các thuật toán đã trình bày cho thấy các tiêu ồn đám đông (babble). Điều này chứng tỏ rằng bộ lọc Kalman chí đánh giá khác nhau có sự thay đổi nhất định trong các thích hợp với việc giảm nhiễu màu cho tín hiệu tiếng nói. môi trường nhiễu khác nhau và bởi các kỹ thuật giảm nhiễu khác nhau. Tuy nhiên, nhìn chung tín hiệu tiếng nói bị tác động bởi nhiễu trắng cho kết quả sau tăng cường tốt hơn vì có mật độ phổ phẳng. Trong các kỹ thuật giảm nhiễu sử dụng bộ lọc Kalman, kỹ thuật giảm nhiễu trong miền thời gian được điều chỉnh cho kết quả khá tốt. Việc ước lượng nhiễu quá lớn cũng có thể gây ảnh hưởng đến phổ tiếng nói được tăng cường, làm méo dạng tín hiệu và cho các kết quả đánh giá không tốt theo các chỉ số WSS, PESQ, CEP. TÀI LIỆU THAM KHẢO [1] Benesty, Jacob. Springer handbook of speech processing. Springer Hình 8. Kết quả đánh giá hàm giảm nhiễu Kalman trong miền Science & Business Media, 2008. thời gian theo thông số PESQ cho 5 môi trường nhiễu [2] Gerkmann, Timo, and Richard C. Hendriks. “Noise power estimation based on the probability of speech 4.3.3. Đánh giá theo phương pháp đo LLR presence.” Applications of Signal Processing to Audio and Acoustics Thực hiện đánh giá theo chỉ số LLR giữa 6 thuật toán (WASPAA), 2011 IEEE Workshop on. IEEE, 2011. khác nhau với nhiễu trắng (white). [3] Hu, Yi, and Philipos C. Loizou. “Evaluation of objective quality measures for speech enhancement.” Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238. [4] Paliwal, K., and A. Basu. “A Speech Enhancement Method Based on Kalman Filtering, proceedings of IEEE Int.” Conf. Acoust. Speech. 1987. [5] Martin, Rainer. “Noise power spectral density estimation based on optimal smoothing and minimum statistics.” Speech and Audio Processing, IEEE Transactions on 9.5 (2001): 504-512. [6] Martin, Rainer. “Spectral subtraction based on minimum statistics.” power 6 (1994): 8. [7] Berouti, M., R. Schwartz, and John Makhoul. “Enhancement of speech corrupted by acoustic noise.” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'79.. Vol. 4. IEEE, 1979. [8] Paliwal, Kuldip, Kamil Wójcicki, and Belinda Schwerin. “Single- channel speech enhancement using spectral subtraction in the short-time modulation domain.” Speech communication 52.5 (2010): 450-475. [9] Popescu, Dimitrie C., and Ilija Zeljković. “Kalman filtering of colored noise for speech enhancement.” Acoustics, Speech and Hình 9. Kết quả đánh giá LLR của 6 thuật toán tăng cường chất Signal Processing, 1998. Proceedings of the 1998 IEEE lượng tiếng nói với loại nhiễu trắng (White) International Conference on. Vol. 2. IEEE, 1998. [10] Recommendation, I. T. U. T. “Perceptual evaluation of speech Kết quả đánh giá cho thấy với loại nhiễu có tính ổn định quality (PESQ), an objective method for end-to-end speech quality cao như nhiễu trắng, các thuật toán đều cho ra kết quả chỉ assessment of narrowband telephone networks and speech số LLR tốt hơn hẳn với dải biến thiên rộng, đặc biệt là thuật codecs.” ITU-T Recommendation (2001): 862. toán Kalman-TD. [11] So, Stephen, Kamil K. Wójcicki, and Kuldip K. Paliwal. “Single- channel speech enhancement using kalman filtering in the 5. Kết luận modulation domain.” IN TERSPEECH. 2010. [12] http://ecs.utdallas.edu/loizou/speech/noizeus/ truy cập lần cuối Kết quả đánh giá dữ liệu tiếng nói sau khi được tăng 20/05/2015. (BBT nhận bài: 27/07/2015, phản biện xong: 09/10/2015)