Định hướng phân mảnh đối tượng người trong video dựa trên thông tin tư thế người

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:5

Thêm vào BST

Báo xấu

19
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong nghiên cứu này, nhóm tác giả đề xuất sử dụng thông tin về khung xương để định hướng Mask R-CNN phân mảnh cá thể người trong mỗi frame của video nhằm cải thiện kết quả phân mảnh Nhóm tác giả đề xuất các giải pháp sửa lỗi khung xương trong video như nội suy, tinh chỉnh khung xương nhằm tối ưu hóa việc dùng khung xương để điều hướng mạng nơ-ron phân mảnh.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Định hướng phân mảnh đối tượng người trong video dựa trên thông tin tư thế người

Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học ĐỊNH HƯỚNG PHÂN MẢNH ĐỐI TƯỢNG NGƯỜI TRONG VIDEO DỰA TRÊN THÔNG TIN TƯ THẾ NGƯỜI Ninh Văn Tú*, Lê Tử Khiêm Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP. Hồ Chí Minh *Tác giả liên lạc: nvtu@apcs.vn TÓM TẮT Trong nghiên cứu này, nhóm tác giả đề xuất sử dụng thông tin về khung xương để định hướng Mask R-CNN phân mảnh cá thể người trong mỗi frame của video nhằm cải thiện kết quả phân mảnh Nhóm tác giả đề xuất các giải pháp sửa lỗi khung xương trong video như nội suy, tinh chỉnh khung xương nhằm tối ưu hóa việc dùng khung xương để điều hướng mạng nơ-ron phân mảnh. Nhóm tác giả áp dụng trường ngẫu nhiên có điều kiện dày đặc với bộ lọc trung vị để tinh chỉnh đường biên của mask kết quả và lọc nhiễu nhằm nâng cao chất lượng của kết quả. Giải pháp của nhóm tác giả được đánh giá và so sánh với Mask R-CNN trên tập train-val của bộ dữ liệu DAVIS Challenge 2017 chỉ bao gồm đối tượng người. Các thí nghiệm cho thấy cấu hình tốt nhất của nhóm tác giả cải thiện kết quả định lượng, tức trung bình của điểm J và F, cao hơn 0,232% so với phương pháp Mask R-CNN gốc và đạt độ chính xác trung bình 74.858%. Từ khóa: Phân mảnh đối tượng người, tinh chỉnh khung xương, tinh chỉnh đường biên mask. POSE GUIDANCE FOR HUMAN INSTANCE SEGMENTATION IN VIDEOS Ninh Van Tu*, Le Tu Khiem University of Science – VNU Ho Chi Minh City *Corresponding Author: nvtu@apcs.vn ABSTRACT In this project, the Authors propose to use pose information to guide Mask R-CNN segmenting human instance in each frame of a video with the aim to enhance segmented results. The Authors propose pose interpolation, pose keypoints refinement to optimize the use of pose information in human instance segmentation. The Authors also apply Dense Conditional Random Field with median filter to refine mask boundary and eliminate noises to enhance final output. Our remedy is evaluated and compared with Mask R-CNN on train-val set of DAVIS Challenge 2017 dataset which contains only human instances. The experiments show that our best configuration improves the quantitative result, which is mean J and F score, by 0.232% compared to the original Mask R-CNN method and achieve 74.858% in this metric. Keywords: Human instance segmentation, pose refinement, mask boundary refinement. MỞ ĐẦU triển của máy tính với khả năng xử lý Thị giác máy tính (Computer Vision) vượt trội và sự bùng nổ dữ liệu, các là một phần không thể thiếu của lĩnh thuật tóa n học sâu (Deep Learning) đã vực Trí tuệ nhân tạo. Cùng với sự phát ra đời và tạo nên nhiều đột phá. Nhận 147
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học diện vật thể là một trong số các bài tóa trúc cố định với đầy đủ các bộ phận n đạt được độ chính xác cao nhờ các (đầu, tay, chân…). Tuy có sự biến thuật tóa n học sâu như Faster R-CNN, thiên về vị trí tương đối của các bộ SSD, YOLO, … Chưa dừng lại ở đó, phận, nhưng có thể quy đổi chúng về để máy tính có được sự thấu hiểu về một đơn vị duy nhất: Tư thế người những thứ chúng “nhìn thấy”, các bài (Human Pose). Trong bài nghiên cứu tóa n về phân mảnh ảnh theo ngữ nghĩa này, chúng tôi kết hợp thông tin tư thế (Semantic Segmentation) dần được người với các phương pháp học sâu, quan tâm. Bởi vì, không chỉ dừng lại ở nhằm đạt được độ chính xác tốt hơn so khung giới hạn (Bounding Box) như với các thuật tóa n hiện có trong bài tóa các thuật tóa n nhận diện vật thể, phân n phân mảnh đối tượng người trong mảnh ảnh đòi hỏi máy tính phải phân video. biệt ở mức độ pixel của ảnh, để quyết định mỗi pixel trong ảnh thuộc về lớp VẬT LIỆU VÀ PHƯƠNG PHÁP vật thể nào (Object Class). Tuy nhiên, Phương pháp chúng tôi đề xuất kế thừa phân mảnh ảnh chỉ dừng lại ở việc và cải thiện kết quả đầu ra của mạng phân biệt các lớp vật thể trong hình, nơ-ron Mask R-CNN được công bố bởi còn các đối tượng trong cùng một lớp Kaiming He và đồng tác giả (2017). thì không. Điều đó dẫn đến sự xuất Trong quá trình cải thiện, chúng tôi hiện của bài tóa n thách thức hơn: Phân dùng mã nguồn mở Openpose được đề mảnh đối tượng (Instance xuất bởi Zhe Cao và đồng tác giả Segmentation). (2017) để ước lượng khung xương Bài tóa n phân mảnh đối tượng người người trong ảnh. mà nhóm tác giả lựa chọn để giải quyết Mở rộng khung xương là một nhánh con trong bài tóa n phân Chúng tôi sử dụng thông tin về khung mảnh đối tượng. Động lực của nhóm xương người được sinh ra từ mã nguồn tác giả bắt nguồn từ việc nhận thấy mở Openpose để hướng Mask R-CNN tiềm năng của phân mảnh ảnh trong tập trung vào đối tượng người cần việc tự động hóa quá trình dựng được phân mảnh. Cụ thể, chúng tôi ảnh/video mới từ ảnh/video đã có. Ví giãn nở khung xương sao cho phần dụ, việc ghép ảnh người hiện nay phải diện tích nở rộng chứa đủ thông tin của thực hiện thủ công với Photoshop, đối tượng người cần phân mảnh trong hoặc ghép người vào cảnh mới trong ảnh để tạo ra các mask ảnh màu riêng video phải dùng đến nền xanh trong lẻ được cắt ra từ ảnh gốc. Sau cùng, quá trình quay, việc áp dụng phân Mask R-CNN được áp dụng lên các mảnh ảnh sẽ khiến các công việc này mask ấy để thực hiện việc phân mảnh trở nên dễ dàng hơn. Ngoài ra, động đối tượng người. lực thứ hai đến từ việc nhóm tác giả Tuy nhiên, Mask R-CNN có thể bị nhận thấy các thuật tóa n máy học hiện nhầm lẫn mà dự đóa n toàn thể phần tại còn thiếu khả năng tổng hợp các sáng trong mask là phần phân mảnh kiến thức chung (Common Sense của đối tượng người do biên phần tối Knowledge), chúng chỉ hoạt động dựa và sáng trong ảnh chuyển tiếp khá đột trên việc bắt chước theo những gì đã ngột khiến cho mạng nơ-ron hiểu nhầm được huấn luyện trong bộ dữ liệu để rằng phần sáng trong ảnh là quan trọng tạo ra kết quả, dẫn đến sự phụ thuộc lớn nhất. Để giải quyết vấn đề này, chúng vào dữ liệu. Khác với các vật dụng, cá tôi bổ sung bước tinh chỉnh các mask thể thông thường, con người có cấu ảnh bằng bộ lọc Gaussian để làm mượt 148
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học các giá trị pixel của biên mask trải dần thể chẳng hạn như thân trên, thân dưới, trong khoảng [0, 255] thay vì 0 hoặc chân, hông, hoặc cánh tay. Nguyên 255 như các mask gốc nhằm tạo ra nhân của việc này là do phép tính nội attention map khiến cho mạng nơ-ron suy tuyến tính phụ thuộc vào khung tập trung hoàn toàn vào đối tượng xương của hai frame ngưỡng chặn trên người trong vùng mask ấy. và dưới (khung xương của hai frame Khôi phục khung xương toàn cục này có thể đã bị thiếu bộ phận ngay từ Phương pháp của chúng tôi phụ thuộc đầu). Để giải quyết vấn đề này, chúng khá nhiều vào chất lượng của khung tôi đề xuất sử dụng phép tóa n xương được ước lượng. Vì vậy, việc convolution một chiều trong xử lý tín khôi phục và bổ sung các keypoint hiệu số được tái định nghĩa với công trong khung xương là một bước quan thức riêng biệt để phù hợp với bài tóa trọng trong đóng góp của chúng tôi vào n của chúng tôi. Cụ thể hơn, chúng tôi việc cải thiện kết quả phân mảnh. Mục trượt màn lọc Gaussian trên chiều thời tiêu của chúng tôi trong khôi phục gian của video để ước lượng vị trí trung khung xương toàn cục hướng đến việc bình của khung xương và các bộ phận nội suy khung xương cho những frame tại một frame ảnh nhất định dựa trên ảnh mà Openpose không thể ước lượng những frame lân cận. được trong trường hợp đối tượng người Phối hợp các mask kết quả bị che khuất nửa dưới phần thân, bị mờ Mask R-CNN chỉ học được kiến thức do di chuyển nhanh, hoặc đối tượng khái quát về đối tượng thuộc nhiều lớp đang thực hiện những tư thế lạ. nhưng không hiểu rõ cấu trúc, đặc Chúng tôi dựa trên các keypoint của trưng cũng như kiến thức cụ thể về đối khung xương trước và sau frame hiện tượng của từng lớp. Chính vì thế mà có tại mà khung xương còn xuất hiện để nhiều trường hợp Mask R-CNN không tạo ra phương trình tuyến tính nhằm thể phân mảnh người hoặc kết quả có khôi phục khung xương cho những thể bị thiếu mất bộ phận cơ thể người frame ảnh không thể ước lượng được do bị nhiễu bởi các đối tượng của các khi dùng Openpose. Với giả định rằng lớp khác nếu đầu vào là ảnh gốc tổng đối tượng không thể di chuyển quá thể. Tuy việc sử dụng tư thế người để nhanh theo quỹ đạo phi tuyến tính định hướng Mask R-CNN thành công trong khoảng thời gian dưới một giây, trong việc phân mảnh chi tiết hơn các chúng tôi chỉ áp dụng phương pháp này bộ phận cơ thể, việc chỉ lấy một phần đối với những frame mà trong phạm vi nội dung ảnh có chứa đối tượng người 6 frame trái và phải tính từ frame ảnh khiến cho Mask R-CNN mất khái niệm hiện tại mà khung xương của đối tượng tổng quát về các vật thể hoặc phần ảnh còn xuất hiện (tức 0.5 giây đối với nền dẫn đến việc Mask R-CNN không chuẩn fps của định dạng video thông phân mảnh được đối tượng ấy do thiếu dụng). Với điều kiện ấy, chúng tôi có thông tin. đủ cơ sở để khôi phục được khung Tinh chỉnh đường biên mask và lọc xương cho đối tượng người trong nhiễu những trường hợp Openpose không thể Sau khi quan sát kết quả cuối cùng xử lý. được sinh ra từ các bước nêu trên, Khôi phục khung xương cục bộ chúng tôi nhận thấy rằng đường biên Nhìn toàn cục, khung xương đã được của mask kết quả không ôm sát đối khôi phục, nhưng vẫn xảy ra trường tượng người được phân mảnh. Ngoài hợp khung xương bị thiếu bộ phận cơ ra, có những trường hợp mask kết quả 149
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học phân mảnh loang ra cả những vùng khớp và cạnh nối một cách hợp lí. Mục không thuộc đối tượng người. Những tiêu của thí nghiệm này là chọn ra tỷ số trường hợp như thế là nguyên nhân làm mở rộng hợp lí cho khớp và cạnh nối cho cả hai tiêu chí đánh giá là điểm J cũng như kích thích màn lọc Gaussian và F đều bị giảm so với ban đầu. phù hợp cho giải pháp. Để nâng cao chất lượng đầu ra, chúng Bên cạnh đó, với màng lọc Gaussian, tôi tiến hành tinh chỉnh đường biên của sự chuyển giao giữa background và mask kết quả bằng thuật tóa n Dense foreground trở nên dịu hơn, do đó tăng Conditional Random Field (Dense độ chính xác của kết quả phân mảnh. CRF) được đề xuất bởi Philipp Thí nghiệm trên kích thước của màng Krähenbühl và Vladlen Koltun (2012). lọc, biểu đồ được thể hiện trong hình 8 Thuật tóa n này giúp tinh chỉnh đường cho thấy sự biến thiên của J-mean và biên của mask kết quả áp sát dần vào F-mean đạt cực đạt tại điểm có giá trị đường viền của đối tượng người dựa kích thước là 99. Do đó, chúng tôi cấu trên quan hệ đồ thị giữa các pixel ảnh hình cho màng lọc Gaussian rộng 99 theo một mask nhị phân định hướng trong việc mở rộng khung xương. cho trước. Ngoài ra, thuật tóa n này còn Thí nghiệm tinh chỉnh khung xương giúp chúng tôi loại đi những phân Với phương pháp nội suy khung xương mảnh không liên quan đến đối tượng được trình bày trong mục Vật Liệu và người. Phương pháp, chúng tôi có thể khôi phục được sự thiếu hụt khung xương KẾT QUẢ VÀ THẢO LUẬN trong một số số frame ảnh, tinh chỉnh Xây dựng tập dữ liệu thí nghiệm khung xương cũng là một bước quan Nhóm tác giả sử dụng tập dữ liệu trọng nằm khôi phục các bộ phận bị DAVIS Challenge 2017 (Densely thiếu của khung xương. Để tinh chỉnh Annotated VIdeo Segmentation), được khung xương cần một cửa sổ trượt xuất bản trong DAVIS challenge – (sliding window) trên một tập hợp các cuộc thi quốc tế trong chủ đề phân frame nhằm tích chập với frame cần mảnh vật thể trong video. Để phù hợp khôi phục khung xương. với mục tiêu của đề tài, nhóm tác giả Đánh giá tổng quát đã tiền xử lí bộ dữ liệu bằng cách loại Trung bình trên tập dữ liệu bỏ các video không chứa đối tượng Bằng cách thí nghiệm phương pháp đề người và hiệu chỉnh tập dữ liệu đánh xuất với tất cả các cấu hình và lấy trung giá (ground-truth), xóa đi các mask bình điểm F-mean và J-mean của tất cả không phải người. Tập dữ liệu mà 91 đối tượng người trong tập dữ liệu, chúng tôi xây dựng được gọi là tập dữ bảng 1 cho thấy cấu hình cuối cùng – liệu DAVIS-Human, bao gồm 57 phương pháp kết hợp tư thế người với video, trong đó có tất cả 91 đối tượng mạng nơ-ron phân mảnh cùng với người cần phân mảnh. phương pháp tinh chỉnh khung xương Thí nghiệm và đánh giá và tinh chỉnh đường viền mask, đạt độ Như đã mô tả trong mục Phương pháp, chính cao nhất với tỷ lệ 74.858%. mở rộng khung xương có ý nghĩa quan Trong đó, cấu hình này có điểm F- trọng trong việc kết hợp thông tin tư mean cao nhất với 78.110% cho thấy thế người với mạng nơ-ron phân mảnh. độ chính xác của đường viền và độ Trong cấu trúc của khung xương bao hoàn thiện của mask được nâng cao. gồm các khớp và cạnh nối, do đó để mở Kết quả trong kỳ thi DAVIS Challenge rộng khung xương, cần phải mở rộng 2018 150
Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học Phương pháp của nhóm tác giả đã được hợp thông tin dáng người với mạng nơ- sử dụng bởi nhóm nghiên cứu thuộc ron phân mảnh. Bên cạnh đó, chúng tôi Trường Đại học Khoa học Tự nhiên cũng đề xuất các phương pháp tinh trong kỳ thi quốc tế DAVIS Challenge chỉnh khung xương và tinh chỉnh 2018 và nâng độ chính xác của kết quả đường biên mask nhằm tăng cường độ 2.5% so với lần tham dự vào năm chính xác của kết quả. Hướng tiếp cận 2017. trên đã thể hiện tính tiềm năng qua các kết quả thí nghiệm được tiến hành, với KẾT LUẬN VÀ ĐỀ NGHỊ độ chính xác trung bình trên tập dữ liệu Bài tóa n phân mảnh đối tượng có thể đánh giá đạt 74.858%. áp dụng cho việc tự động hóa các công Trong tương lai, nhóm tác giả mong việc thủ công trong cắt ghép ảnh và tạo muốn tiếp tục nghiên cứu phương pháp dựng video, cũng như ứng dụng vào đề xuất bằng cách kết hợp thêm các các hệ thống phức tạp hơn như xe tự lái phương pháp tăng cường trong phân để tăng cường sự an toàn. mảnh đối tượng, cũng như thử nghiệm Trong bài nghiên cứu, tác giả đã để trên các tập dữ liệu khác để hiểu rõ hơn xuất phương pháp phân mảnh đối về tiềm năng của hướng tiện cận trên. tượng người trong video bằng cách kết TÀI LIỆU THAM KHẢO KAIMING HE, GEORGIA GKIOXARI, PIOTR DOLLAR, AND ROSS B. GIRSHICK. (2017) Mask R-CNN. IEEE International Conference on Computer Vision (ICCV). PHILIPP KRÄHENBÜHL AND VLADLEN KOLTUN. (2011) Efficient inference in fully connected crfs with gaussian edge potentials. Advances in Neural Information Processing Systems 24. pp. 109 – 117. USA: Curran Associates, Inc. SHAOQING REN, KAIMING HE, ROSS B. GIRSHICK, AND JIAN SUN. (2015) Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems 28. pp. 91-99. USA: Curran Associates, Inc. ZHE CAO, TOMAS SIMON, SHIH-EN WEI, AND YASER SHEIKH. (2017) Realtime multi-person 2d pose estimation using part affinity fields. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 151