intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Hệ thống chuyển văn bản thành giọng nói cho nhiều người nói và nhiều ngôn ngữ

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

8
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Hệ thống chuyển văn bản thành giọng nói cho nhiều người nói và nhiều ngôn ngữ trình bày các nội dung: Huấn luyện mô hình cho nhiều người nói tiếng Việt kết hợp với cả tiếng Anh; Sử dụng domain adversarial training (DAT) với tên gọi speaker classifier để phân biệt người nói tốt hơn.

Chủ đề:
Lưu

Nội dung Text: Hệ thống chuyển văn bản thành giọng nói cho nhiều người nói và nhiều ngôn ngữ

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 HỆ THỐNG CHUYỂN VĂN BẢN THÀNH GIỌNG NÓI CHO NHIỀU NGƯỜI NÓI VÀ NHIỀU NGÔN NGỮ Nguyễn Thị Hương Giang, Tạ Bảo Thắng, Đỗ Văn Hải 1 Trường Đại học Bách khoa Hà Nội, email: giang.nth200185@sis.hust.edu.vn 2 Trường Đại học Thủy lợi, email: haidv@tlu.edu.vn 1. GIỚI THIỆU CHUNG pitch, duration, speaker embedding và language embedding. Để huấn luyện cho Bài toán chuyển văn bản thành giọng nói giọng Việt, mô hình sử dụng bộ âm vị tiếng (TTS) với các mô hình như Tacotron [7], Việt dựa trên X-SAMPA. Ví dụ, âm vị “9X” TransformerTTS [4] và FastSpeech [6] đã được chuyển từ âm “â”. Thanh điệu được mang lại các hệ thống TTS chất lượng cao đánh số từ 1 đến 8. cho một người nói với việc sử dụng lượng lớn dữ liệu huấn luyện sạch. Để giảm thiểu 2.2. Mô hình chi phí phát triển và triển khai trong thương Cấu trúc tổng quan của mô hình được mô mại, việc xây dựng các hệ thống TTS cho tả như hình dưới: nhiều người trở nên hấp dẫn. Dựa trên ý Trong đó Hình 1a biểu diễn sơ đồ tổng quát tưởng này và mô hình DelightfulTTS [5], của một hệ thống TTS với đầu vào là văn bản chúng tôi hướng đến một mô hình cho nhiều sau khi qua khối acoustic model sẽ ra được đặc người nói. Bên cạnh đó, mô hình này còn có trưng tiếng nói (ví dụ như spectrogram). Các thể sử dụng cho nhiều người nói với nhiều đặc trưng này được qua một bộ vocoder để tạo ngôn ngữ khác nhau, từ đó có thể tạo ra các ra tiếng nói dạng waveform. audio mà người nói chưa từng nói ngôn ngữ kia trước đó (ví dụ: người Việt nói tiếng Anh), được gọi là bài toán cross-lingual. Đóng góp của chúng tôi trong nghiên cứu này là: 1) Huấn luyện mô hình cho nhiều người nói tiếng Việt kết hợp với cả tiếng Anh; 2) Sử dụng domain adversarial training (DAT) với tên gọi speaker classifier để phân biệt người nói tốt hơn. 2. PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Dữ liệu và tiền xử lý dữ liệu Dữ liệu được sử dụng là hai bộ dữ liệu sạch cho tiếng Việt và một bộ dữ liệu tiếng Anh cùng với textgrid. Hình 1. Kiến trúc mô hình. Hình (a) mô Trong quá trình tiền xử lý dữ liệu, model tả quy trình tổng thể cho DelightfulTTS. sẽ trích xuất các đặc trưng âm học của từng Hình (b) mô tả kiến trúc của acoustic model. audio để làm nhãn cho quá trình huấn luyện. Hình (c) mô tả khối Variance Adaptor. Các đặc trưng bao gồm mel-spectrogram, Hình (d) mô tả kiến trúc của khối Conformer. 81
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 Bảng 1. Điểm MOS (thang 5) về độ tự nhiên và độ tương đồng về người nói của tiếng nói tổng hợp (càng cao càng tốt) Cùng ngôn ngữ Cùng ngôn ngữ Cross- # Hệ thống (Tiếng Việt) (Tiếng Anh) lingual Điểm MOS về độ tự nhiên của tiếng nói 1 Baseline - 2,6 - Mô hình đề xuất không sử dụng khối phân loại 2 3,1 2,5 2,3 người nói 3 Mô hình đề xuất sử dụng khối phân loại người nói 3,0 2,5 2,3 Điểm MOS về độ tương đồng người nói 1 Baseline - 2,3 - Mô hình đề xuất không sử dụng khối phân loại 2 3,3 2,6 2,0 người nói 3 Mô hình đề xuất sử dụng khối phân loại người nói 3,2 2,7 1,9 Trong nghiên cứu này, chúng tôi sử dụng tiếng Anh. Về âm vị, tiếng Việt sử dụng bộ mô hình acoustic model dựa trên kiến trúc âm vị như đã trình bày ở phần 2, tiếng Anh Conformer [8] (Hình 1b) cụ thể: sử dụng bộ âm vị dựa vào từ điển CMU. Để Variance Adaptor: dùng để thêm các thông trích xuất speaker embedding ở quá trình tiền tin vào chuỗi ẩn và dự đoán các thông tin cần xử lý, chúng tôi sử dụng mô hình thiết cho giọng nói trong bài toán TTS như DeepSpeaker [3] đã được huấn luyện. Ngoài pitch, duration. Nhãn được lấy bằng cách trích ra, vocoder được sử dụng là HiFi-GAN. xuất từ audio gốc trong quá trình tiền xử lý để Mô hình được huấn luyện trên NVIDIA huấn luyện các khối dự đoán pitch, duration. GeForce RTX 2080 Ti với batch size bằng 2 Conformer Block: thường được sử dụng và được huấn luyện 250k bước (iterations). trong các mô hình nhận diện giọng nói để tăng độ chính xác và giảm số lượng tham số. 3.2. Metrics Kiến trúc chi tiết trong Hình 1d [8]. Có hai metric đánh giá trong tổng hợp Speaker Classifier: Trong bài nghiên cứu tiếng nói nhiều người nói được đánh giá một này, khối speaker classifier được sử dụng để cách chủ quan do nhiều người nghe khác giảm thiểu độ phụ thuộc của người nói vào nhau tự chấm điểm. biểu diễn văn bản. Khối này đính kèm cuối  Độ tự nhiên: độ tự nhiên của audio sinh khối Text Encoder, bao gồm các lớp fully ra (thang 5 điểm). connected và một lớp gradient ngược. Hàm  Độ giống: độ giống nhau của giọng nói mục tiêu là cross-entropy, dùng để ngăn việc trong audio được sinh ra với giọng nói gốc dự đoán người nói từ văn bản. Thông qua (thang 5 điểm). DAT, khối text encoder học được biểu diễn văn bản độc lập với người nói, và mô hình có 3.3. Kết quả thể tạo ra giọng nói một cách trung lập. Mô hình đã có thể tạo ra audio cho tiếng 3. THỬ NGHIỆM Việt với chất lượng khá tốt. Tuy nhiên khối speaker classifier chưa cho thấy kết quả nổi 3.1. Huấn luyện bật, do đó việc tạo ra audio từ người nói tiếng Chúng tôi sử dụng 4 giờ dữ liệu cho mỗi Anh với văn bản tiếng Việt chưa được như bộ dữ liệu tiếng Việt và 8 giờ đối với dữ liệu mong muốn. 82
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2023. ISBN: 978-604-82-7522-8 4. KẾT LUẬN [3] Chao Li, Xiaokong Ma, Bing Jiang, Xiangang Li, Xuewei Zhang, Xiao Liu, Trong nghiên cứu này, chúng tôi hướng tới Ying Cao, Ajay Kannan, and Zhenyao Zhu. việc xây dựng hệ thống TTS cho nhiều người Deep speaker: an end-to-end neural speaker nói dựa trên mô hình DelightfulTTS. Chúng embedding system. 05 2017. tôi cũng cố gắng cải thiện kết quả cho bài [4] Naihan Li, Shujie Liu, Yanqing Liu, Sheng toán cross-lingual. Kết quả cho thấy, mô hình Zhao, and Ming Liu. Neural speech có thể hỗ trợ cho nhiều giọng với nhiều ngôn synthesis with transformer network. ngữ khác nhau, từ đó giảm thiểu chi phí phát Proceedings of the AAAI Conference on triển và vận hành trong thương mại. Những Artificial Intelligence, 33(01):6706-6713, nghiên cứu bước đầu cũng cho kết quả tích Jul. 2019. cực khi cho phép xây dựng hệ thống tổng hợp [5] Yanqing Liu, Zhihang Xu, Gang Wang, nhiều người nói trong một hệ thống đơn nhất Kuan Chen, Bohan Li, Xu Tan, Jinzhu Li, cũng như cho phép người có thể tạo ra giọng Lei He, and Sheng Zhao. Delightfultts: The microsoft speech synthesis system for tiếng Anh từ giọng của người Việt và ngược blizzard challenge 2021, 10 2021. lại. Tuy nhiên, mô hình vẫn còn nhiều vấn đề [6] Yi Ren, Chenxu Hu, Tao Qin, Sheng Zhao, cần phải xử lý trong tương lai, đặc biệt là đối Zhou Zhao, and Tie-Yan Liu. Fastspeech 2: với bài toán cross-lingual. Fast and high-quality end-to-end text-to- speech, 06 2020. 5. TÀI LIỆU THAM KHẢO [7] Yuxuan Wang, R.J. Skerry-Ryan, Daisy [1] Christian Benoît, Martine Grice, and Stanton, Yonghui Wu, Ron Weiss, Navdeep Valerie Hazan. The sus test: A method for Jaitly, Zongheng Yang, Ying Xiao, Zhifeng the assessment of text-to-speech synthesis Chen, Samy Bengio, Quoc Le, Yannis intelligibility using semantically Agiomyr-giannakis, Rob Clark, and Rif unpredictable sentences. Speech Saurous. Tacotron: Towards end-to-end Communication, 18:381-392, 06 1996. speech synthesis. pages 4006-4010, 08 2017. [2] Hyunjae Cho, Wonbin Jung, Junhyeok [8] Gulati, Anmol, et al. "Conformer: Lee, and Sang Woo. Sane-tts: Stable and Convolution-augmented transformer for natural end-to-end multilingual text-to- speech recognition." arXiv preprint speech, 06 2022. arXiv:2005.08100 (2020). 83
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2