Một mô hình phát hiện tiếng nói kích thước nhỏ

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

Thêm vào BST

Báo xấu

8
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Một mô hình phát hiện tiếng nói kích thước nhỏ đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một mô hình phát hiện tiếng nói kích thước nhỏ

Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 MỘT MÔ HÌNH PHÁT HIỆN TIẾNG NÓI KÍCH THƯỚC NHỎ Nguyễn Duy Khánh1, Đỗ Văn Hải2 1 Trường Đại học Bách Khoa Hà Nội, 2 Trường Đại học Thủy lợi 1. GIỚI THIỆU 2.2. Tăng cường dữ liệu Hiện nay, có rất nhiều hệ thống liên quan Sử dụng tăng cường dữ liệu (data đến xử lí tiếng nói. Tuy nhiên, trong một augmentation) nhằm giúp mô hình học tránh luồng audio, tiếng nói không phải luôn liên quá khớp cũng như tăng tính tổng quát hóa. tục, sẽ có những đoạn audio không có sự tồn Trong nghiên cứu này chúng tôi sử dụng 2 tại của tiếng nói con người. Do đó, chúng ta phương pháp phổ biến được đề xuất gần đây cần một hệ thống để phát hiển tiếng nói trong là SpecAugment và SpecCutout. audio (Voice Activity Detector - VAD). Một 2.3. Kiến trúc hệ thống hệ thống VAD sẽ kiểm tra xem có tiếng nói trong một đoạn audio ngắn không, để khi áp dụng vào cả đoạn audio dài sẽ biết được phần có tiếng nói trong đó. Gần đây, có rất nhiều thiết bị cầm tay có liên quan đến xử lí tiếng nói. Tuy nhiên, do là thiết bị cầm tay, bộ nhớ và khả năng tính toán của chúng bị giới hạn. Vì thế , một mô hình có kích thước nhỏ là cần thiết. Trong nghiên cứu này, chúng tôi đề xuất một mô hình học sâu với chỉ 74k tham số nhưng vẫn có một kết quả tốt trong việc phát hiện tiếng nói. Mô hình chúng tôi sử dụng là mạng nơ ron tích chập sử dụng 1D time-channel separable convolution. Bằng việc sử dụng separable convolution, số lượng tham số giảm đi một cách đáng kể trong khi vẫn giữ được độ chính xác cao. 2. HỆ THỐNG ĐỀ XUẤT 2.1. Trích chọn đặc trưng Phương pháp trích chọn đặc trưng dùng trong nghiên cứu này là Mel frequency Hình 1. Kiến trúc hệ thống. cepstral coefficients - MFCC, một phương pháp được sử dụng rộng rãi trong các hệ Như đã đề cập, việc dùng 1D time-channel thống liên quan đến xử lí tiếng nói. separable convolution sẽ giúp làm giảm số 91
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 lượng tham số. Lớp convolution này có thể hình CNN của Hebbar [4]. Các file audio đề chia ra thành 1D depthwise convolutional và cập ở trên sẽ được cắt các đoạn dài 0.63 giây, một lớp point-wise convolutional layer mà với stride = 0.5s. hoạt động trên mỗi khung (frame) một cách Vì các đoạn audio sau khi cắt ra có cùng độc lập nhưng xuyên suốt các kênh (channel). độ dài, tần số lấy mẫu của chúng phải cùng Một lớp regular 1D convolutional với kích bằng 16000 Hz để mỗi sample đều được biểu thước kernel K, số lượng kênh đầu vào cin và diễn dưới vector có độ dài như nhau. số lượng kênh đầu ra cout có K*cin*cout tham Vì số lượng sample trong mỗi class không số. Trong khi đó, lớp time-channel separable bằng nhau, tập data sẽ được rebalance bằng convolutions có K*cin (cho lớp depthwise phương pháp “Oversampling”. conv) cộng với cin*cout (cho lớp pointwise 3.3. Huấn luyện conv) tham số. Mô hình chúng tôi đề xuất ở đây bao gồm Model được xây dựng bằng Nemo toolkit B = 2 residual blocks với R = 2 sub-blocks của Nvidia (Trên nền tảng Pytorch cho mỗi block. Mọi sub-block trong mỗi Lightning) trên Google Colab với GPU Tesla block đều có C = 64 kênh đầu ra. Một sub- T4. Drop-out rate được đặt là 0.1 và batch block gồm 1 lớp 1D time-channel separable size là 256. convolution, 11 pointwise convolution, Hình 2 và 3 biểu diễn training loss và batch norm, Relu, and dropout. validation loss theo iteration. Ta có thể thấy Bảng 1. Tham số chi tiết của mô hình rằng model hội tụ sau 14k iteration mặc dù Sub Output loss trên tập train vẫn có xu hướng giảm tiếp. Block Kernel width blocks channel Conv1 1 125 11 B1 2 64 13 B2 2 64 15 Conv2 1 128 27, dialation = 2 Conv3 1 128 1 Conv4 1 Classes 1 3. THỬ NGHIỆM 3.1. Dataset Hình 2. Training loss Để huấn luyện và đánh giá mô hình, dataset Ava-Speech được dùng. Tập data này bao gồm các video, trong đó video được gán nhãn với non-speech class hoặc 3 loại speech class khác nhau (clean speech, speech with noise, speech with music). Sau khi xử lí data, ta có 22250 audio file thuộc về speech class và 17617 audio file thuộc về non-speech class. 3.2. Tiền xử lý dữ liệu Mỗi sample được dùng cho việc huấn luyện và đánh giá sẽ là một đoạn audio dài 0.63s để có một đánh giá công bằng với mô Hình 3. Validation loss 92
Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 3.4. Kết quả 4.KẾT LUẬN Bảng 2. Kết quả thử nghiệm Trong bài viết này, chúng tôi đã đề xuất With With một mô hình nhỏ chỉ với 74k tham số nhưng All Clean vẫn có độ chính xác cao cho bài toán phát music noise Accuracy 93.1% 96.1% 91.3% 92.9% hiện tiếng nói. Trong thời gian tới, chúng tôi sẽ tiếp tục tối ưu về độ chính xác cũng như Precision 96.3% 96.3% 86.3% 91.3% hiệu năng của mô hình. Recall 91.2% 96.4% 95.2% 93.5% F1 Score 93.7% 96.3% 90.5% 92.4% 5. TÀI LIỆU THAM KHẢO [1] Fei Jia,2021, Marblenet: Deep 1d time- Bảng 2 mô tả kết quả thử nghiệm. Độ chính channel separable convolutional neural xác với 3 loại dữ liệu tiếng nói khác nhau: network for voice activity detection,  Clean: tiếng nói sạch. ICASSP 2021-2021.  With music: tiếng nói có lẫn âm nhạc. [2] Daniel S Park. Specaugment: A simple data  With noise: tiếng nói với nhiễu. augmentation method for automatic speech Và All là tính trung bình trên toàn bộ 3 tập recognition, arXiv:1904.08779, 2019. đó. Ta có thể thấy rằng độ chính xác của mô [3] Nicholas Wilkinson and Thomas Niesler. A hình đề xuất khá cao trên 90% kể cả trong hybrid cnn-bilstm voice activity detector. In ICASSP 2021-2021. mô trường có nhiễu hoặc có lẫn âm nhạc. [4] R. Hebbar, K. Somandepalli, and S. Trong khi đó kích thước mô hình chỉ có 74k Narayanan, “Robust speech activity detection tham số hoàn toàn có thể triển khai trên các in movie audio: Data resources and thiết bị di động. experimental evaluation,” in ICASSP, 2019. Tuy rằng mô hình có kết quả khá tốt, nó vẫn có những nhược điểm cần khắc phục. Khi dự đoán một đoạn audio với tiếng của con người mà không phải tiếng nói như tiếng hét, tiếng cười, tiếng ho, mô hình thường dự đoán đó là tiếng nói. Điều này có thể do chúng đều là tiếng con người tạo ra. Để giải quyết việc này, ta có thể thêm một class thứ 3, tên là “non-speech human sound” để giảm lỗi của mô hình. 93