intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:6

15
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding" tiến hành khảo sát các mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC). Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding

  1. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding Bùi Thanh Hương1,2, Nguyễn Quang Sang2, Hoàng Văn Xiêm2 1 Trường Đại học Xây dựng Hà Nội 2 Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội huong1204@gmail.com, ngsang998@gmail.com, xiemhoang@vnu.edu.vn Abstract— Trong những năm gần đây, cùng với sự phát tuệ nhân tạo. Với các dữ liệu ảnh, video, kỹ thuật học triển của các hệ thống truyền thông đa phương tiện, số máy và học sâu được quan tâm nhiều bởi khả năng ứng lượng thiết bị và các loại hình video cũng gia tăng một cách dụng hiệu quả trong các bài toán phân loại, dự đoán với nhanh chóng. Nhằm đáp ứng nhu cầu về truyền tải và lưu video dữ liệu lớn. trữ nội dung video, các mô hình mã hóa video trở thành một chủ đề nghiên cứu mang tính cấp thiết. Vào tháng 7 Trong những năm gần đây, các phương pháp, thuật năm 2020, tiêu chuẩn mã hóa video mới nhất với tên toán cùng với kỹ thuật học máy, học sâu tiên tiến đã và H.266/Versatile Video Coding chính thức được chuẩn hóa đang được nghiên cứu, ứng dụng nhằm cải thiện các mô và thông qua. Mô hình mã hóa video này cho khả năng hình mã hóa video hiện đại. Các thuật toán này đã cho nén hiệu quả với các video độ phân giải cao, video 360o,… thấy hiệu quả trong việc giải quyết các vấn đề còn tồn nhờ việc tích hợp các thuật toán và kỹ thuật hiện đại. Tuy tại của các bộ mã hóa video như cải thiện mô hình phân nhiên, chuẩn mã hóa video này vẫn còn tồn tại những hạn chia hình ảnh; tối ưu thời gian cho quá trình lựa chọn chế, đặc biệt là về mặt thời gian xử lý. Do đó, các nghiên chế độ và hướng dự đoán nội khung; tối ưu tập ứng viên cứu nhằm cải thiện mô hình mã hóa video này liên tục dự đoán, thu hẹp vùng tìm kiếm thích ứng để cải thiện được đề xuất và công bố. Bài báo này tiến hành khảo sát và đánh giá một số nghiên cứu nổi bật giúp cải thiện chuẩn mô hình dự đoán liên khung. Nhiều công trình nghiên mã hóa video H.266/Versatile Video Coding. cứu đã ứng dụng các kỹ thuật trí tuệ nhân tạo, kỹ thuật học sâu, mạng nơ ron tích chập trong nâng cao chất Keywords- Truyền thông đa phương tiện, Mã hóa video, lượng hình ảnh sau giải mã cũng giúp cải thiện hiệu năng H.266/Versatile Video Coding. mã hóa, giảm thời gian xử lý, nâng cao trải nghiệm người dùng. I. GIỚI THIỆU Trong bài báo này, chúng tôi tiến hành khảo sát các Ngày nay, sự gia tăng lưu lượng video trong truyền mô hình mã hóa video được đề xuất nhằm cải thiện tải cũng như trong lưu trữ ngày càng cao. Sự gia tăng chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile này song hành cùng với sự ra đời của các thiết bị số hiện Video Coding (VVC). Cấu trúc bài báo được trình bày đại nói riêng và sự phát triển như vũ bão của nhiều lĩnh gồm 4 phần. Phần 1 giới thiệu tổng quan về chủ đề vực khoa học, kỹ thuật và công nghệ nói chung, những nghiên cứu. Phần 2 trình bày cấu trúc của chuẩn mã hóa yếu tố góp phần làm tăng nhu cầu sử dụng, truyền tải video H.266/VVC. Phần 3 trình bày khảo sát về các video. Do đó, các chuẩn mã hóa video không ngừng thuật toán được đề xuất nhằm cải thiện chuẩn mã hóa được phát triển với hiệu năng ngày càng cao để mã hóa video H.266/VVC. Phần 4 là các kết luận và định hướng hiệu quả các video thô chưa qua xử lý, đáp ứng được nhu nghiên cứu trong tương lai. cầu truyền tải, lưu trữ video, đóng vai trò quan trọng cho sự phát triển của các ứng dụng truyền thông đa phương II. CHUẨN MÃ HÓA H.266/VERSATILE tiện như truyền hình thời gian thực (streaming), thực tại VIDEO CODING ảo (VR: Virtual Reality), 3D-TV,… Cụ thể, theo thời Đứng trước sự phát triển các dịch vụ truyền thông gian, các chuẩn mã hóa video hiện nay như H.264/AVC video đáp ứng sự phát triển các ứng dụng phục vụ nhu [1], H.265/HEVC [2] và mới nhất là H.266/VVC [3], cầu ngày càng cao về chất lượng video, năm 2013 chuẩn cũng không ngừng được nghiên cứu phát triển và cải mã hóa video H.265/HEVC (High Efficiency Video tiến, đảm bảo phù hợp, bắt kịp các ứng dụng truyền Coding) được thông qua [2]. Sau đó, chuẩn mã hóa thông đa phương tiện tiên tiến. video H.266/VVC (Versatile Video Coding) [3] đã được Một trong những kỹ thuật, công nghệ quan trọng, chính thức thông qua vào tháng 7 năm 2020. Chuẩn mã đóng vai trò nền tảng trong phát triển các lĩnh vực khoa hóa video này được tích hợp các kỹ thuật tiên tiến, thích học giai đoạn mới, cuộc cách mạng 4.0, đó chính là trí hợp với các ứng dụng mã hóa video độ phân giải cao ISBN 978-604-80-7468-5 415
  2. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) (HD, FullHD, 2K, 4K,…), đồng thời cho phép mã hóa chuẩn H.265/HEVC, cụ thể là từ chuẩn H.261/MPEG- video khả chuyển (Scalable Vdeo Coding), mã hóa 1. Còn từ chuẩn HEVC, phép biến đổi sin rời rạc DST- video 360o,… VII (Discrete Sine Transform), được bổ sung trong khối Hình 1 mô tả kiến trúc tổng quan của bộ mã hóa biến đổi của kiến trúc HEVC [4-8]. Trong kiến trúc mã H.266/VVC. Tương tự với các mô hình mã hóa video hóa video hiện hành, chuẩn VVC đã bổ sung thêm phép hiện đại, VVC sử dụng kiến trúc mã hóa lai theo khối biến đổi DCT-VIII. Như vậy, 3 phép biến đổi cô sin rời (block-based hybrid coding), bao gồm các mô đun chính rạc là DCT-II, DCT-VIII, DST-VII được thực hiện linh như phân chia hình ảnh, dự đoán nội khung/liên khung, hoạt trong kiến trúc VVC [9], do đó chi phí biến dạng biến đổi, lượng tử hóa, mã hóa entropy. được giảm thiểu đáng kể, đặc biệt hữu hiệu trong việc Thông tin khác biệt Chuỗi bit đầu ra loại bỏ hệ số biến đổi tần số cao đối với video có độ phân Biến đổi / Mã hóa - Lượng tử hóa Entropy 1 0 1 0 1 00 1 giải cao, có kích thước khối lớn (lên đến 128×128). Video nguồn Các thông tin phía đầu ra của bộ biến đổi tiếp tục Lượng tử/ Biến đổi được đưa vào bộ lượng tử hóa, do vậy giúp cho số đầu Dự đoán ngược ra có thể có được giảm bớt. Tuy nhiên, tác động giảm trong khung Khung hình dự đoán bớt số trọng số này là phép toán xấp xỉ nên có hiện tượng Dự đoán liên tổn thất dữ liệu phía đầu ra của bộ lượng tử hóa. khung Phép lượng tử vô hướng mà trong đó, mỗi hệ số xấp xỉ độc lập với các giá trị xung quanh được lựa chọn áp Bộ đệm các khung hình Bộ lọc dụng trong kiến trúc VVC. Hệ số lượng tử (QP) được vòng lặp đã giải mã mở rộng, lên tới 63. Hơn nữa, để chuyển đổi QP độ xám Hình 1: Mô hình mã hóa video theo chuẩn H.266/VVC. (luma) sang QP màu sắc (chroma), ánh xạ QP linh hoạt hơn được áp dụng vào kiến trúc VVC [10]. A. Phân chia khung hình: C. Mã hóa dự đoán Một khung hình video được chia thành các đơn vị mã hóa như CTU (Coding tree unit), CU (coding unit), Có hai cách thức thực hiện dự đoán là dự đoán trong PU (prediction unit). Việc quyết định kích cỡ phân chia khung hay dự đoán liên khung. Phép dự đoán trong có thể khác nhau, tùy thuộc nội dung khung hình và đảm khung tức là phép dự đoán được thực hiện trong chính bảo phù hợp chế độ dự đoán. Trong VVC, kích thước ảnh đang được mã hóa, các khối mẫu lân cận của khối khối hình lớn nhất được cho phép lên tới 128×128 không hiện tại có thể được bộ mã hóa dùng để thực hiện dự như kích thước 64×64 của chuẩn tiền nhiệm. Thêm nữa, đoán. Còn dự đoán liên khung, bộ mã hóa tham chiếu từ chuẩn mã hóa HEVC, cấu trúc cây tứ phân (quad tree) các ảnh đã được mã hóa xong để thực hiện dự đoán cho được sử dụng. Sau đó VVC chọn thêm cây tích hợp đa ảnh hiện tại. Vì không có các ảnh nào khác phía trước để kiểu phân chia đệ quy (MTT: nested recursive Multiple- tham chiếu nên ảnh đầu tiên của video chỉ áp dụng dự Type Tree), tức là phân chia khối hình cho 2 (là cấu trúc đoán trong khung. Tùy theo các mục tiêu cần đạt (như binary split) hoặc cho 3 (là cấu trúc ternary split) (Hình tối ưu hóa tỉ lệ méo), bộ mã hóa sẽ quyết định cách thức 2). Ngoài ra, việc lựa chọn tỉ lệ chiều dài/chiều rộng của dự đoán liên khung hay dự đoán trong khung khi mã hóa khối hình theo chuẩn VVC cho phép được linh hoạt, lên các ảnh tiếp theo. tới 1/16. • Dự đoán nội khung (dự đoán không gian) Trong kiến trúc VVC, dự đoán nội khung có 67 chế độ dự đoán, bao gồm chế độ Planar (0), DC (1) và 65 chế độ dự doán theo hướng (2÷67) (Hình 3). VVC sử dụng kích thước CTU lớn hơn và hình dạng các khối PU không giới hạn là các khối vuông N×N, 2N×2N. Đối với các khối hình có dạng hình chữ nhật, một số hướng dự đoán bị thay thế, tuy nhiên tổng số hướng vẫn là 67 và phương pháp dự đoán không thay đổi [11]. Hình 2: Các dạng phân chia đệ quy trong VVC. B. Phép biến đổi và lượng tử hóa Với mục đích giảm sự tương đồng ở khối thông tin khác biệt, phép biến đổi sẽ tác động vào các hệ số, làm cho hệ số dư thừa càng nhỏ càng tốt, do đó, làm nổi lên các hệ số có biên độ lớn trong vùng biến đổi. Phép biến đổi cosin rời rạc DCT-II (Discrete Cosine Hình 3: Các chế độ dự đoán nội khung trong VVC. Transform), được dùng nhiều trong các chuẩn trước ISBN 978-604-80-7468-5 416
  3. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Các góc độ được thay đổi qua các thế hệ nén video nhóm tác giả này cũng đề xuất một mô hình mạng nơ nhằm tăng hiệu quả của phép dự đoán, ngày càng thu ron tích chập và hàm mất mát giúp kết thúc sớm quá được các hướng biên tùy ý của các video tự nhiên bất trình phân vùng hình ảnh trong VVC. Mô hình mạng học kỳ. sâu này sử dụng thông tin về kích thước và nội dung khối • Dự đoán liên khung (dự đoán thời gian) hình để đưa ra quyết định kết thúc hoặc tiếp tục quá trình Việc mã hóa trực tiếp các giá trị pixel thô cho mỗi phân chia. Kết quả kiểm thử cho thấy phương pháp này block nội tại, có thể được thay thế bằng cách tìm kiếm giúp giảm từ 44.65% - 66.88% thời gian mã hóa, trong một khối tương tự trên khung đã được mã hoá trước đó khi hiệu năng mã hóa không ảnh hưởng quá nhiều với rồi mã hoá khối này bởi một vector chuyển động. Cách 1.322%-3.188% lượng BDBR tăng thêm. này chính là thao tác ước lượng chuyển động và có gây Nhóm tác giả G. Tang [15] đề xuất phương pháp kết ra lỗi hay giá trị dư thừa do dự báo. Vậy cần có 2 phần hợp tính toán gradient và mạng học sâu CNN để kết thúc tử để khôi phục các pixel thô của khối là vector chuyển sớm quá trình phân chia CU trong VVC. Đầu tiên, bộ động và lỗi dự báo (hay thông tin khác biệt). mã hóa tính toán gradient của CU hiện tại và đưa ra Bộ mã hóa HEVC sử dụng tập các vector dự đoán quyết định dừng hoặc tiếp tục quá trình phân chia dựa nâng cao AMVP (advanced Motion Vector prediction), trên ngưỡng. Nếu quá trình phân chia được tiếp tục, một còn VVC bổ sung thêm tập vector dự đoán dựa trên lịch mô hình mạng học sâu CNN được sử dụng để đưa ra sử (History-based Motion Vector Prediction - HMVP) quyết định về chế độ phân chia của CU. Kết quả cho thấy [12]. phương pháp này giúp giảm 33% thời gian mã hóa trong khi chỉ tốn thêm 0.99% lượng BDBR. D. Bộ lọc Trong bài báo [16], nhóm tác giả N. Zouidi đề xuất Các khung hình sau khi tái tạo được đưa qua bộ lọc tái sử dụng mô hình mạng mơ ron tích chập ETH-CNN để nâng cao chất lượng hình ảnh, do đó nâng cao hiệu áp dụng cho quá trình phân chia các khối hình có dạng quả trong mã hóa video. hình vuông trong VVC Mô hình mạng ETH-CNN này Hai bộ lọc lặp (In-Loop) được dùng trong HEVC là được đề xuất bởi nhóm tác giả Mai Xu và cộng sự [17] Bộ lọc nhiễu khối (DBF: Deblocking Filter) và Bù mẫu áp dụng cho mô hình mã hóa video chuẩn H.265/HEVC. thích ứng (SAO: Sample Adaptive Offset). Bộ lọc DBF Mô hình mạng học sâu này sử dụng thông tin về nội là bộ lọc đầu tiên, được áp dụng thực hiện lọc tín hiệu dung khung hình và hệ số lượng tử để đưa ra quyết định trên một khu vực hoặc toàn bộ ảnh. Còn bộ lọc SAO tiếp kết thúc hoặc tiếp tục quá trình phân chia CU trong theo áp dụng thực hiện lọc trên phạm vi không gian cục HEVC sử dụng cấu trúc cây chia tư (quad-tree). Bên bộ của ảnh. cạnh đó, bài báo này cũng đề xuất một phương pháp lựa Ngoài ra, bộ lọc thứ ba được bổ sung trong chuẩn chọn nhanh chế độ dự đoán nội khung sử dụng phân tích, VVC là Bộ lọc vòng lặp thích ứng (ALF: Adaptive Loop thống kê. Kết quả cho thấy thời gian xử lý của bộ mã Filter), các bộ lọc hình dạng kim cương 7×7 và 5×5 được hóa VVC giảm từ 51.81% - 60.04% trong khi lượng áp dụng để cải tiến các bộ lọc In-Loop trong VVC [13]. BDBR tăng thêm khoảng 3.59%. E. Mã hóa nhị phân thích ứng Nhóm tác giả Q. Zhang và cộng sự đề xuất trong bài báo [18] thuật toán quyết định nhanh kích thước CU cho Qua khối này, để tiếp tục đạt thêm hiệu năng cao, VVC dựa trên đặc tính về nội dung video kết hợp với thông tin dư thừa hay thông tin khác biệt được mã hóa ngưỡng động. Thuật toán này bao gồm 2 quá trình: 1) bởi bộ mã hóa số học, nhị phân tương thích ngữ cảnh xác định tiếp tục hoặc kết thúc quá trình phân chia CU CABAC (Context Adaptive Binary Arithmetic Coding) và 2) lựa chọn chế độ phân chia cho CU. Kết quả kiểm [10]. thử cho thấy thời gian xử lý của bộ mã hóa giảm trung III. CÁC THUẬT TOÁN CẢI THIỆN CHUẨN bình 48.58% trong khi lượng BDBR tăng thêm 0.91%. MÃ HÓA VIDEO H.266/VVC B. Cải thiện mô hình dự đoán nội khung A. Cải thiện mô hình phân chia hình ảnh Như đã đề cập, VVC sử dụng 67 chế độ dự đoán nội H.266/VVC sử dụng cơ chế phân chia hình ảnh theo khung so với 35 chế độ trong HEVC khiến cho thời gian cấu trúc QTMT. Cấu trúc phân chia này giúp việc phân lựa chọn chế độ dự đoán tối ưu tăng lên đáng kể. Do đó, chia trở nên linh động và hiệu quả hơn. Tuy nhiên, do số các nghiên cứu liên quan đến giảm thời gian cho quá lượng kích thước và hình dạng khối hình lớn khiến cho trình lựa chọn chế độ dự đoán nội khung trở nên rất quan thời gian phân chia tăng cao so với các chuẩn mã hóa trọng và cấp thiết. video trước đó. Do đó, các nhóm nghiên cứu trên thế Nhóm tác giả H. Yang đề xuất trong bài báo [19] giới đã tiến hành thử nghiệm và ứng dụng các mô hình thuật toán tìm kiếm nhanh chế độ dự đoán nội khung tối học sâu nhằm giảm thời gian phân chia hình ảnh trong ưu cho VVC. Dựa trên giá trị sai khác sau biên đổi VVC. Hadamard (SATD), một hướng khởi tạo cho quá trình Nhóm tác giả T.Li [14] đề xuất một tập dữ liệu lớn tìm kiếm được lựa chọn. Sau đó, bộ mã hóa tiến hành với nội dung video đa dạng phục vụ quá trình huấn luyện tìm kiếm và cập nhật hướng dự đoán nội khung tối ưu các mô hình học sâu cho mã hóa video. Bên cạnh đó, với bước nhảy lần lượt bằng 4, 2. Tập ứng viên dự đoán ISBN 978-604-80-7468-5 417
  4. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) cuối cùng sử dụng cho quá trình RDO bao gồm chế độ thấy phương pháp này giúp giảm 30.63% thời gian xử lý Planar, chế độ DC và hướng dự đoán có giá trị SATD của bộ mã hóa và tiêu tốn thêm 3.18% lượng BDBR. nhỏ nhất. Kết quả kiểm thử cho thấy thuật toán này giúp Input Trích chọn đặc trưng Hợp nhất đặc trưng Output giảm 25.51% thời gian xử lý trong khi lượng BDBR tăng IL FL thêm 0.54%. S=1 S=2 Trong bài báo [20], nhóm tác giả Y. Chen đề xuất Thành phần Luma C = 16 C = 32 FRESI C FConcat phương pháp giảm thời gian lựa chọn chế độ dự đoán IRESI OConfidence nội khung cho VVC. Phương pháp này bao gồm 2 quá Thông tin sai khác S=1 C = 16 S=2 C = 32 S=1 C = 32 S=1 C=2 trình: 1) thiết lập tập ứng viên các chế độ dự đoán nội FMF IMF khung dựa trên giá trị sai khác sau biến đổi Hadamard và tập MPM; 2) sắp xếp lại tập các ứng viên và kết thúc Vector chuyển S=1 C = 16 S=2 C = 32 sớm quá trình lựa chọn chế độ dự đoán tối ưu dựa trên động 2 chiều ngưỡng động. Thuật toán này cho thấy khả năng giúp Hình 5: Kiến trúc mạng CNN sử dụng trong thuật toán kết thúc giảm tới 30.59% thời gian mã hóa với lượng BDBR tăng sớm quá trình phân chia CU trong dự đoán liên khung. thêm 0.86%. Trong quá trình ước lượng chuyển động, kích thước Một kiến trúc mạng nơ ron tích chập được nhóm tác vùng tìm kiếm có ảnh hưởng lớn tới thời gian xử lý của giả T. Lin đề xuất trong nghiên cứu [21]. Mô hình mạng bộ mã hóa. Trên cơ sở phân tích ảnh hưởng của kích tích chập này đưa ra tập các ứng viên dự đoán nội khung thước vùng tìm kiếm tới độ phức tạp thuật toán, nhóm cho các khối có kích thước 16×16 trong VVC dựa trên tác giả Z. Pan [23] đề xuất phương pháp thu hẹp vùng thông tin về giá trị điểm ảnh của khối hình hiện tại và tìm kiếm thích ứng dựa trên việc khai thác thông tin về khối hình tái tạo. chuyển động của các khối hình lân cận và khối hình ở C. Cải thiện mô hình dự đoán liên khung độ sâu phân chia trước đó. Bên cạnh đó, nhóm tác giả Đối với dự đoán liên khung, vector chuyển động của cũng đề xuất một phương pháp lựa chọn khung hình CU là một trong những thông tin quan trọng cho biết tham chiếu trong dự đoán liên khung bằng việc khai thác tương quan về mặt thời gian giữa các khung hình. thông tin về vector dự đoán chuyển động. Thuật toán này Nhóm tác giả L. Zhang đề xuất phương pháp khai giúp giảm số lượng khung hình tham chiếu cần tìm kiếm, thác thông tin về vector chuyển động của các khối hình qua đó giúp giảm thời gian xử lý chung của bộ mã hóa. đã được mã hóa trước đó để xây dựng một tập ứng viên Kết quả kiểm thử cho thấy phương pháp đề xuất giúp bộ dự đoán liên khung cho CU trong VVC, với tên gọi tập mã hóa giảm 34.27% thời gian xử lý trong khi lượng bit các vector dự đoán dựa trên lịch sử [12]. Tập các vector mã hóa tăng thêm 0.49%. ứng viên được điều khiển và cập nhật với cơ chế nhập D. Nâng cao chất lượng hình ảnh sau giải mã trước xuất trước (first-in-first-out). Các vector ứng viên Tác giả F. Zhang và cộng sự đề xuất trong bài báo mới được thêm lần lượt vào vị trí cuối của bảng lưu trữ. [24] một phương pháp nâng cao chất lượng video sau Khi có một vector ứng viên mới giống với vector ứng giải mã. Phương pháp trình bày và kiểm thử một kiến viên cũ, vector cũ bị loại bỏ, các vector phía sau được di trúc mạng nơ ron tích chập bao gồm 2N+2 lớp tích chập. chuyển về phía trước với chỉ số giảm đi 1 (Hình 4). Kết quả cho thấy phương pháp này giúp tiết kiệm 5.84% Phương pháp này giúp bộ mã hóa VVC tiết kiệm lên tới lượng bitrate đối với bộ các hệ số lượng tử cao, và 5.8% 1.2% lượng bit mã hóa, trong khi thời gian xử lý tăng lượng bitrate khi kiểm thử với bộ các hệ số lượng tử thêm khoảng 1-7%. thấp. Tác giả F. Nasiri và cộng sự [25] đề xuất mô hình mạng học sâu giúp nâng cao chất lượng các khung hình trong video. Mô hình mạng học sâu này sử dụng thông tin về hệ số lượng tử kết hợp với khung hình tái tạo Hình 4: Cơ chế cập nhật bảng các ứng viên HMVP. (prediction-unaware) và khung hình dự đoán (prediction-aware). Kết quả cho thấy phương pháp này Nghiên cứu [22] lần đầu tiên đề xuất một phương giúp tiết kiệm từ 5.8% đến 7.4% lượng bitrate khi kiểm pháp sử dụng học sâu giúp tăng tốc quá trình phân chia thử với chuẩn mã hóa video H.266/VVC. CU trong VVC. Phương pháp này đề xuất một kiến trúc Tác giả Q. Xing và cộng sự đề xuất trong bài báo mạng nơ ron tích chập sử dụng đầu vào là thông tin về [26] một mô hình mạng học sâu kết hợp CNN và thành phần Luma của CU, thông tin dư thừa và vector BiLSTM, cho phép khai thác tương quan về mặt thời dự đoán chuyển động 2 chiều (Hình 5). Kiến trúc mạng gian giữa các khung hình đề nâng cao chất lượng hình này được sử dụng cho việc dự đoán chế độ phân chia của ảnh video. Ban đầu, phương pháp này được kiểm thử các CU có kích thước lớn hơn 16×16. Bên cạnh đó, tác cho chuẩn mã hóa H.265/HEVC, và sau đó được kiểm giả cũng đề xuất thuật toán quyết định nhanh chế độ hợp thử cho chuẩn mã hóa H.266/VVC trong bài báo [27]. nhất (Merge mode) trong ước lượng chuyển động, sử dụng thông tin dư thừa sau mã hóa của CU. Kết quả cho ISBN 978-604-80-7468-5 418
  5. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Bên cạnh đó, các phương pháp [28, 29] đề xuất các Một số nhận xét rút ra như sau: mô hình mạng học sâu giúp cải thiện bộ lọc vòng (in- - Phương pháp [14] giúp giảm thời gian xử lý của bộ loop filter) trong chuẩn mã hóa video H.266/VVC. mã hóa H.266/VVC nhiều nhất với 63.79% trong khi phương pháp [20] giảm ít thời gian nhất với IV. NHẬN XÉT VÀ ĐÁNH GIÁ 30.59%. Các thuật toán nêu trên được các nhóm tác giả kiểm - Phương pháp [23] có hiệu quả tốt nhất với tỉ lệ thử và đánh giá hiệu năng trên tập dữ liệu chuẩn gồm 8 ΔT/BDBR lên tới 69.94 trong khi phương pháp [22] video. Đặc tính của các video được thống kê trong Bảng có hiệu quả kém nhất với tỉ lệ ΔT/BDBR chỉ đạt 1. 9.63. Bảng 1: Đặc tính các chuỗi video kiểm thử. - Phương pháp [23] cũng là phương pháp tiêu tốn Chuỗi video Độ phân giải Số lượng Tốc độ thêm ít bit nhất với 0.49% lượng BDBR. khung hình khung hình Hiệu quả của một số phương pháp nâng cao chất PeopleOnStreet 2560×1600 150 30 Hz lượng hình ảnh về mặt BDBR cho một số chuỗi video Kimono 1920×1080 240 24 Hz được thống kê trong Bảng 3. Nhìn chung, phương pháp ParkScene 1920×1080 240 24 Hz [25] có hiệu quả cao nhất khi tiết kiệm 7.04% lượng bit PartyScene 832×480 500 50 Hz mã hóa khi so sánh ở cùng mức chất lượng. RaceHorsesC 832×480 300 30 Hz Hình 7 cho thấy đường cong RD (Rate – Distortion) của một số chuỗi video sử dụng thuật toán nâng cao chất BasketballPass 416×240 500 50 Hz lượng MFQE [27] khi kiểm thử với cấu hình mã hóa BlowingBubbles 416×240 500 50 Hz Low-Delay-P. RaceHorsesD 416×240 300 30 Hz Bảng 3: Hiệu quả của một số phương pháp nâng cao chất lượng Bảng 2: Hiệu quả của một số thuật toán giảm thời gian xử lý cho hình ảnh (BDBR). chuẩn mã hóa video H.266/VVC. Video [24] [25] [26] [27] [28] Phương BDBR PeopleOnStreet N/A N/A -3.22 N/A N/A ΔT (%) ΔT/BDBR pháp (%) Kimono N/A N/A -4.35 N/A N/A [14] 63.79 3.19 20.00 ParkScene N/A N/A -7.10 N/A N/A [15] 33.41 0.99 33.75 PartyScene -4.3 -6.1 -6.23 -1.46 -3.91 [16] 60.04 3.59 16.72 RaceHorsesC -2.09 -4.2 -1.35 -1.68 -3.11 [18] 48.58 0.91 53.38 BasketballPass -5.61 -8.9 -6.23 -1.73 -4.59 [19] 62.46 1.93 32.36 BlowingBubbles -3.75 -7.0 -8.61 -0.8 -3.79 [20] 30.59 0.86 35.57 [22] 30.63 3.18 9.63 RaceHorsesD -4.2 -9.0 -3.84 -2.19 -4.9 [23] 34.27 0.49 69.94 Trung bình -3.99 -7.04 -5.12 -1.57 -4.06 Hiệu quả của một số thuật toán giảm thời gian mã hóa cho chuẩn H.266/VVC được mô tả trong Bảng 2 và Hình 6. Trong đó ΔT cho biết thời gian mã hóa tiết kiệm của mỗi phương pháp, chỉ số BDBR [30] cho biết lượng bit thay đổi khi so sánh với phương pháp tham chiếu ở cùng mức chất lượng (BDBR > 0 tức là lượng bit cần cho quá trình mã hóa tăng thêm). Tỉ lệ ΔT/BDBR giúp đánh giá hiệu quả của thuật toán trên cả 2 phương diện: thời gian tiết kiệm và hiệu năng nén. Tỉ lệ này càng cao thì thuật toán càng hiệu quả. Hình 7: Đường cong RD của một số chuỗi video sử dụng thuật toán nâng cao chất lượng MFQE. V. KẾT LUẬN Trong bài báo này, chúng tôi tiến hành khảo sát một Hình 6: Hiệu quả của một số thuật toán giảm thời gian xử lý cho số nghiên cứu giúp cải thiện chuẩn mã hóa video chuẩn mã hóa video H.266/VVC. ISBN 978-604-80-7468-5 419
  6. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) H.266/VVC. Các phương pháp được khảo sát chủ yếu [13] M. Karczewicz et al., "VVC In-Loop Filters," in IEEE Transactions on Circuits and Systems for Video Technology, tập trung giải quyết vấn đề giảm thời gian xử lý cho bộ vol. 31, no. 10, pp. 3907-3925, 2021. mã hóa H.266/VVC, cải thiện bộ lọc và và nâng cao chất [14] T. Li, M. Xu, R. Tang, Y. Chen and Q. Xing, "DeepQTMT: A lượng hình ảnh sau giải mã. Bên cạnh những phương Deep Learning Approach for Fast QTMT-Based CU Partition pháp sử dụng phân tích, thống kê toán học truyền thống, of Intra-Mode VVC," in IEEE Transactions on Image các phương pháp sử dụng học sâu, học máy cũng cho Processing, vol. 30, pp. 5377-5390, 2021. thấy hiệu quả cao khi ứng dụng trong việc giải quyết [15] G. Tang, M. Jing, X. Zeng and Y. Fan, "Adaptive CU Split Decision with Pooling-variable CNN for VVC Intra Encoding," những vấn đề của mã hóa video hiện đại. Những khảo 2019 IEEE Visual Communications and Image Processing sát và phân tích nêu trên là tiền đề, định hướng cho (VCIP), 2019. những nghiên cứu tiếp theo trong tương lai. [16] N. Zouidi et al., "Complexity reduction of versatile video coding standard: a deep learning approach," Journal of VI. LỜI CẢM ƠN Electronic Imaging, vol. 30, no. 2, 2021. [17] M. Xu, T. Li, Z. Wang, X. Deng, R. Yang and Z. Guan, Nghiên cứu này được tài trợ bởi Quỹ Phát triển khoa "Reducing Complexity of HEVC: A Deep Learning Approach," học và công nghệ Quốc gia (NAFOSTED) trong đề tài in IEEE Transactions on Image Processing, vol. 27, no. 10, pp. mã số 102.01-2020.15. 5044-5059, 2018. [18] Q. Zhang, Y. Zhao, B. Jiang, L. Huang and T. Wei, "Fast CU TÀI LIỆU THAM KHẢO Partition Decision Method Based on Texture Characteristics for H.266/VVC," in IEEE Access, vol. 8, pp. 203516-203524, [1] T. Wiegand, G.J. Sullivan, G. Bjontegaard, A. Luthra, 2020. “Overview of the H.264/AVC video coding standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 7, pp. 560– [19] H. Yang et al., "Low-Complexity CTU Partition Structure 576, 2003. Decision and Fast Intra Mode Decision for Versatile Video [2] G.J. Sullivan, et al., “Overview of the High Efficiency Video Coding," in IEEE Transactions on Circuits and Systems for Coding (HEVC) Standard”, IEEE Transactions on Circuits and Video Technology, vol. 30, no. 6, pp. 1668-1682, 2020. Systems for Video Technology, vol. 22, no. 12, pp. 1649-1668, [20] Y. Chen et al., “A novel fast intra mode decision for versatile 2012. video coding,” in Journal of Visual Communication and Image [3] B. Bross et al., "Overview of the Versatile Video Coding (VVC) Representation, vol. 71, pp. 102849-102859, 2020. Standard and its Applications," in IEEE Transactions on [21] T. Lin et al., “Intra mode prediction for H.266/FVC video Circuits and Systems for Video Technology, vol. 31, no. 10, pp. coding based on convolutional neural network,” in Journal of 3736-3764, 2021. Visual Communication and Image Representation, vol. 71, pp. [4] N. Ahmed, T. Natarajan, and K. Rao, “Discrete Cosine 102686-102690, 2020. Transform,” in IEEE Transactions on Computers, vol. C-23, no. [22] Z. Pan, P. Zhang, B. Peng, N. Ling and J. Lei, "A CNN-Based 1, pp. 90–93, 1974. Fast Inter Coding Method for VVC," in IEEE Signal Processing [5] M. Budagavi, A. Fuldseth, G. Bjontegaard, V. Sze, and M. Letters, vol. 28, pp. 1260-1264, 2021. Sadafale, “Core Transform Design in the High Efficiency Video [23] Z. Pan et al., “Low complexity versatile video coding for traffic Coding (HEVC) Standard,” IEEE J. Sel. Topics Signal Process., surveillance system,” in International Journal of Sensor pp. 1029– 1041, Vol. 7, No. 6, Dec. 2013. Networks, vol. 30, no. 2, pp. 116-125, 2019. [6] V. Britanak, P. C. Yip, and K. R. Rao, “Discrete Cosine and [24] F. Zhang, C. Feng and D. R. Bull, "Enhancing VVC Through Sine Transforms: General Properties, Fast Algorithms and Cnn-Based Post-Processing" 2020 IEEE International Integer Approximations,” Elsevier, Sep. 2006. Conference on Multimedia and Expo (ICME), 2020. [7] R. K. Chivukula and Y. A. Reznik, “Fast Computing of Discrete [25] F. Nasiri, W. Hamidouche, L. Morin, N. Dhollande and G. Cosine and Sine Transforms of Types VI and VII,” in Proc. Cocherel, "A CNN-Based Prediction-Aware Quality SPIE 8135, Applications of Digital Image Processing XXXIV, Enhancement Framework for VVC," in IEEE Open Journal of pp. 1–10, No. 813505, Sep. 2011. Signal Processing, vol. 2, pp. 466-483, 2021. [8] Y. A. Reznik, “Relationship between DCT-II, DCT-VI, and [26] Z. Guan et al., "MFQE 2.0: A New Approach for Multi-Frame DST-VII transforms,” in Proc. 2013 IEEE International Quality Enhancement on Compressed Video," in IEEE Conference on Acoustics, Speech and Signal Processing, pp. Transactions on Pattern Analysis and Machine Intelligence, vol. 5642–5646, May. 2013. 43, no. 3, pp. 949-963, 1 March 2021. [9] X. Zhao et al., "Transform Coding in the VVC Standard," in [27] X. HoangVan and H. -H. Nguyen, "Enhancing Quality for VVC IEEE Transactions on Circuits and Systems for Video Compressed Videos with Multi-Frame Quality Enhancement Technology, vol. 31, no. 10, pp. 3878-3890, 2021. Model," 2020 International Conference on Advanced [10] H. Schwarz et al., "Quantization and Entropy Coding in the Technologies for Communications (ATC), 2020. Versatile Video Coding (VVC) Standard," in IEEE [28] Y. Wang, Z. Chen, Y. Li, L. Zhao, S. Liu, and X. Li, “Ce13: Transactions on Circuits and Systems for Video Technology, Dense residual convolutional neural network based in-loop vol. 31, no. 10, pp. 3891-3906, Oct. 2021. filter (ce13-2.2 and ce13-2.3),” in the JVET meeting, no. JVET- [11] J. Pfaff et al., "Intra Prediction and Mode Coding in VVC," in N0254. ITU-T, ISO/IEC, 2019. IEEE Transactions on Circuits and Systems for Video [29] S. Wan, M.-Z. Wang, H. Gong, C.-Y. Zou, Y.-Z. Ma, J.-Y. Huo, Technology, vol. 31, no. 10, pp. 3834-3847, 2021. Y.-F. Yu, and Y. Liu, “CE10: Integrated in-loop filter based on CNN (Tests 2.1, 2.2 and 2.3),” in the JVET meeting, no. JVET- [12] L. Zhang, K. Zhang, H. Liu, H. C. Chuang, Y. Wang, J. Xu, P. O0079. ITU-T, ISO/IEC, 2019. Zhao, D. Hong, “History-based Motion Vector Prediction in Versatile Video Coding”, Data Compression Conference [30] G. Bjontegaard, “Calculation of average PSNR differences (DCC), 2019. between RD curves,” document VCEG-M33, 13th ITU-T VCEG Meeting, VCEG, Austin, TX, USA, Apr. 2000. ISBN 978-604-80-7468-5 420
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2