Tóm tắt Luận án Tiến sĩ Kỹ thuật máy tính: Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

17
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tóm tắt Luận án Tiến sĩ Kỹ thuật máy tính "Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương" trình bày các nội dung chính về: Biểu diễn hiệu quả hoạt động của người; Nâng cao hiệu quả nhận dạng hoạt động trên các tập dữ liệu khung xương có nhiều nhiễu; Đề xuất một mô hình rút gọn cho nhận dạng hoạt động. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật máy tính: Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI PHẠM ĐÌNH TÂN NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU TRONG BIỂU DIỄN VÀ NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI TỪ DỮ LIỆU KHUNG XƯƠNG Ngành: Kỹ thuật máy tính Mã số: 9480106 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT MÁY TÍNH Hà Nội −2022
Công trình này được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Vũ Hải 2. PGS.TS. Lê Thị Lan Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi giờ , ngày tháng năm 2022 Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU Động lực nghiên cứu Nhận dạng hoạt động của người là bài toán xác định lớp hoạt động mà một người nào đó đang thực hiện dựa trên dữ liệu thu thập từ các thiết bị, cảm biến. Các cảm biến được sử dụng có thể là các cảm biến đeo trên người hoặc các cảm biến tích hợp trên các thiết bị điện tử như cảm biến quán tính trên điện thoại thông minh, các thiết bị camera như Microsoft Kinect hoặc các camera giám sát (CCTV). Nhận dạng hoạt động khả năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như trong tương tác giữa con người - máy tính, các ứng dụng giám sát, trò chơi, chăm sóc người già từ xa, các ứng dụng cho nhà/văn phòng/thành phố thông minh và rất nhiều ứng dụng giám sát khác. Tuy nhiên, bài toán nhận dạng hoạt động là một bài toán có nhiều thách thức cần được nghiên cứu và phát triển. Giới thiệu bài toán Luận án tập trung vào đề xuất các kỹ thuật nhận dạng hoạt động sử dụng một nguồn dữ liệu là dữ liệu khung xương.Trong nghiên cứu này, các chuỗi dữ liệu khung xương mô tả hoạt động đã được phân đoạn. Mỗi chuỗi dữ liệu khung xương tương ứng với một lớp hoạt động. Bài toán nhận dạng hoạt động thực hiện việc dự đoán nhãn hoạt động từ dữ liệu khung xương. Các thách thức Nhận dạng hoạt động của người là một chủ đề nghiên cứu có nhiều thách thức do sự đa dạng của các hoạt động, sự khác nhau giữa các lần thực hiện của cùng một hoạt động và sự tương đồng giữa các lớp hoạt động khác nhau. Bốn thách thức chính được đề cập, bao gồm (1) các biến thể trong cùng lớp hoạt động và sự tương đồng giữa các lớp hoạt động khác nhau (2) nhiễu trong dữ liệu khung xương, (3) che khuất do các bộ phận cơ thể khác hoặc do người/vật bên ngoài, và (4) thiếu dữ liệu được dán nhãn. Mục tiêu Nghiên cứu có các mục tiêu chính như sau: • Biểu diễn hiệu quả hoạt động của người: Các khớp có vai trò khác nhau trong mỗi hoạt động. Mục tiêu đầu tiên là xác định các kỹ thuật biểu diễn hoạt động nhằm nâng cao hiệu quả nhận dạng hoạt động. • Nâng cao hiệu quả nhận dạng hoạt động trên các tập dữ liệu khung xương có nhiều nhiễu: Mục tiêu thứ hai là thiết kế mạng học sâu nhằm nâng cao hiệu quả nhận dạng trên dữ liệu khung xương có nhiều nhiễu. • Đề xuất một mô hình rút gọn cho nhận dạng hoạt động: Các thiết bị biên thường có năng lực tính toán hạn chế. Do đó, để có thể triển khai được ứng dụng trên các thiết bị 1
biên, cần có các nghiên cứu nhằm rút gọn mô hình mạng học sâu. Mục tiêu thứ ba của luận án là xây dựng mô hình rút gọn cho nhận dạng hoạt động. Giới hạn và phạm vi nghiên cứu Trong luận án, các giới hạn và phạm vi nghiên cứu được liệt kê như sau. • Ba tập dữ liệu phổ biến và một tập dữ liệu tự thu được sử dụng trong đánh giá. Đây là các tập dữ liệu chứa các chuỗi dữ liệu khung xương đã được phân đoạn được thu thập bằng cảm biến Kinect của hãng Microsoft. Mỗi tập dữ liệu có một danh sách hoạt động của người được xác định trước. Các tập dữ liệu chứa các hoạt động được thực hiện bởi một người hoặc tương tác giữa hai người. Trong phạm vi luận án không sử dụng hoặc đánh giá trên các tập dữ liệu khác. • Luận án chỉ sử dụng các lớp hoạt động thường ngày. Các lớp hoạt động trong biểu diễn nghệ thuật hoặc các lĩnh vực đặc thù khác không nằm trong phạm vi nghiên cứu của luận án. • Trên cả bốn tập dữ liệu, cách chia dữ liệu huấn luyện/đánh giá và phương pháp đánh giá được giữ nguyên như trong các bài báo giới thiệu các tập dữ liệu. • Đánh giá chéo theo người thực hiện được áp dụng trên tất cả các tập dữ liệu, với một nửa số người được dùng để huấn luyện và nửa còn lại được dùng để đánh giá. • Đánh giá chéo theo góc nhìn được thực hiện trên tập dữ liệu NTU RGB+D. Dữ liệu từ camera 2 và camera 3 được sử dụng để huấn luyện. Dữ liệu từ camera 1 được sử dụng để đánh giá. Luận án sử dụng dữ liệu đơn góc nhìn. Xử lý dữ liệu kết hợp góc nhìn không nằm trong phạm vi nghiên cứu của luận án. • Nghiên cứu hướng đến việc triển khai ứng dụng dựa trên các phương pháp đề xuất. Ứng dụng được phát triển để thực hiện đánh giá định lượng các bài tập. Công cụ MediaPipe của hãng Google được sử dụng để ước lượng khung xương cho một người thực hiện. Do giới hạn về thời gian, luận án chỉ trình bày về mô-đun nhận dạng hoạt động. Các mô-đun có liên quan khác như phát hiện hoạt động, ước lượng khung xương và đánh giá điểm bài tập không nằm trong phạm vi nghiên cứu của luận án. Đóng góp Luận án có ba đóng góp chính như sau: • Đóng góp 1: Đề xuất hai phương pháp chọn tập khớp (JSS) cho nhận dạng hoạt động của người: phương pháp chọn tập khớp xác định trước (Preset JSS) và phương pháp chọn tự động các khớp giàu thông tin (MIJ). • Đóng góp 2: Đề xuất mô-đun kết hợp đặc trưng (FF) để kết hợp các đặc trưng không gian và thời gian cho mạng tích chập đồ thị thích nghi có chú ý (AAGCN) sử dụng vận tốc khớp và tọa độ tương đối của khớp. Phương pháp đề xuất được đặt tên là FF- 2
AAGCN. Phương pháp đề xuất có hiệu năng vượt trội so với phương pháp gốc trên các tập dữ liệu thách thức có nhiều nhiễu trong dữ liệu khung xương. • Đóng góp 3: Đề xuất mô hình rút gọn LW-FF-AAGCN có số lượng tham số mô hình giảm đi đáng kể so với mô hình gốc trong khi vẫn đảm bảo hiệu quả nhận dạng. Mô hình đề xuất cho phép phát triển các ứng dụng nhận dạng hoạt động của người trên các thiết bị có năng lực tính toán hạn chế. Cấu trúc của luận án Ngoài phần mở đầu và kết luận, luận án gồm 4 chương và được cấu trúc như sau: • Giới thiệu: Phần này giới thiệu bài toán, mục tiêu, các thách thức, phạm vi nghiên cứu và các đóng góp của luận án. • Chương 1 có tên "Các nghiên cứu liên quan": Chương này tóm tắt các nghiên cứu liên quan về nhận dạng hoạt động của người. • Chương 2 có tên "Các kỹ thuật chọn tập khớp cho nhận dạng hoạt động của người sử dụng dữ liệu khung xương": Chương này trình bày kỹ thuật chọn tập khớp xác định trước (Preset JSS) và kỹ thuật chọn tự động các khớp giàu thông tin (MIJ). • Chương 3 có tên "Kỹ thuật kết hợp đặc trưng cho mạng tích chập đồ thị": Chương này đề xuất mô-đun kết hợp đặc trưng (FF) thực hiện chức năng tiền xử lý dữ liệu. Mạng học sâu dựa trên đồ thị FF-AAGCN cho hiệu quả vượt trội trên CMDFALL, một tập dữ liệu thách thức có nhiều nhiễu trong dữ liệu khung xương. • Chương 4 có tên "Mạng tích chập đồ thị rút gọn": Chương này đề xuất mạng tích chập đồ thị rút gọn LW-FF-AAGCN với ít tham số hơn so với phương pháp gốc AAGCN. LW-FF-AAGCN phù hợp cho việc phát triển ứng dụng trên các thiết bị biên có năng lực tính toán hạn chế. • Kết luận và hướng nghiên cứu tiếp theo: Phần này tóm tắt các đóng góp của luận án và giới thiệu các hướng nghiên cứu tiếp theo về nhận dạng hoạt động của người. 3
CHƯƠNG 1 CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Tổng quan về nhận dạng hoạt động Do miền ứng dụng rộng rãi, các nghiên cứu về nhận dạng hoạt động từ hình ảnh và video đã được tiến hành trong nhiều thập kỷ. Các nghiên cứu về nhận dạng hoạt động thường dựa trên cơ chế thị giác của con người. Hệ thống thị giác của con người có thể phát hiện chuyển động và hình trạng cơ thể người trong một khoảng thời gian rất ngắn. Hình ảnh về hoạt động được truyền đến cơ quan thần kinh để phân biệt các hoạt động như đi bộ, chạy. Hệ thống cảm thụ thị giác của con người nhận dạng hoạt động rất chính xác và ổn định. Trong nhiều thập kỷ, các nhà nghiên cứu luôn hướng tới việc xây dựng các hệ thống nhận dạng hoạt động trên máy tính có hiệu năng cao. Tuy nhiên, hiệu năng của các hệ thống thị giác máy tính hiện tại vẫn còn kém xa so với hệ thống thị giác của con người do tính đa dạng của môi trường, các biến thể trong cùng lớp hoạt động, sự đa dạng về góc nhìn khác nhau, sự che khuất. 1.2 Các thể thức dữ liệu dùng trong nhận dạng hoạt động Hoạt động có thể được nhận dạng dựa trên nhiều nguồn dữ liệu khác nhau như nhận dạng hoạt động dựa trên dữ liệu ảnh màu, dữ liệu ảnh độ sâu và dữ liệu khung xương, dữ liệu gia tốc, v.v. Các thể thức dữ liệu có thể được chia thành hai nhóm: thể thức dữ liệu trực quan và các thể thức dữ liệu không trực quan. Các thể thức dữ liệu trực quan như ảnh màu, ảnh độ sâu, dữ liệu khung xương có thể biểu diễn các hoạt động một cách trực quan. Các thể thức dữ liệu trực quan được sử dụng rất phổ biến trong nhận dạng hoạt động. Dữ liệu khung xương lưu trữ thông tin chuyển động của từng khớp xương. Dữ liệu khung xương có thể biểu diễn rất hiệu quả các hoạt động không bao gồm đối tượng hay thông tin ngữ cảnh. Thể thức dữ liệu trực quan được sử dụng rất nhiều trong các hệ thống giám sát. Trong lĩnh vực rô-bốt hoặc xe tự lái, dữ liệu ảnh độ sâu với thông tin khoảng cách thường được sử dụng cho nhận dạng hoạt động. Các thể thức dữ liệu không trực quan như dữ liệu gia tốc không thể biểu diễn trực quan hoạt động của con người. Tuy nhiên, các thể thức dữ liệu không trực quan được sử dụng trong những trường hợp yêu cầu đảm bảo sự riêng tư của thông tin cá nhân. Mỗi thể thức dữ liệu đều có ưu điểm riêng, được dùng trong nhận dạng hoạt động tùy theo mục đích ứng dụng. Trong các dữ liệu trực quan, các nghiên cứu trước đây thường sử dụng loại dữ liệu phổ biến là dữ liệu ảnh màu. Gần đây, nhờ sự phổ biến của các cảm biến ảnh độ sâu và các tiến bộ trong kỹ thuật ước lượng khung xương, việc thu thập dữ liệu khung xương ngày càng trở nên dễ thực hiện với chất lượng khung xương ngày càng được nâng cao. 1.3 Thu thập dữ liệu khung xương Dữ liệu khung xương là các chuỗi tọa độ khớp xương theo thời gian. Các khớp được kết nối trong mô hình động học theo cấu trúc tự nhiên của cơ thể người. Mô hình động học của 4
khung xương giúp biểu diễn các hoạt động một cách dễ dàng. Dữ liệu khung xương có thể được thu thập bởi các hệ thống thu nhận chuyển động như MoCap, cảm biến ảnh độ sâu hoặc ước lượng khung xương dựa trên ảnh màu hoặc ảnh độ sâu. Trong hệ thống thu nhận chuyển động, các điểm đánh dấu được đặt trên các vị trí khớp. Dữ liệu khung xương được thu thập bởi hệ thống thu thập chuyển động có độ chính xác cao. Tuy nhiên, trong nhiều ứng dụng thực tế, các thiết bị thu nhận chuyển động thường có chi phí cao và yêu cầu cài đặt phức tạp. Vì vậy, luận án tập trung vào dữ liệu khung xương được thu thập bởi các cảm biến ảnh độ sâu được sử dụng tương đối phổ biến trên thị trường. 1.4 Các bộ dữ liệu dùng trong đánh giá Có nhiều bộ dữ liệu đã được xây dựng phục vụ cho mục đích triển khai và đánh giá các phương pháp nhận dạng hoạt động. Luận án sử dụng bốn bộ dữ liệu dùng chung như sau: 1.4.1 MSR-Action3D MSR-Action3D là bộ dữ liệu bao gồm 20 hoạt động được thực hiện bởi 10 người. Mỗi người thực hiện một hoạt động hai hoặc ba lần. Mô hình khung xương gồm 20 khớp xương. Tổng cộng có 557 mẫu hoạt động. Các hoạt động trong MSR-Action3D được chia thành ba tập con: tập hoạt động 1 (AS1), tập hoạt động 2 (AS2) và tập hoạt động 3 (AS3). Mỗi tập con có 8 lớp hoạt động do đó một số lớp hoạt động tồn tại ở nhiều tập con. 1.4.2 MICA-Action3D MICA-Action3D là bộ dữ liệu được thu nhận tại Viện nghiên cứu quốc tế MICA, Trường Đại học Bách khoa Hà Nội. Tập dữ liệu được xây dựng nhằm mục đích thực hiện đánh giá chéo cơ sở dữ liệu do đó MICA-Action3D có cùng 20 lớp hoạt động như MSR-Action3D. Dữ liệu trong MICA-Action3D được thu bằng cảm biến Kinect v1. Mỗi người thực hiện một hoạt động hai hoặc ba lần. Các hoạt động được thực hiện bởi 20 người tạo ra tổng cộng 1196 chuỗi hoạt động. 1.4.3 CMDFALL Bộ dữ liệu CMDFALL được xây dựng với mục tiêu chính là để đánh giá các phương pháp để phát hiện sự kiện ngã. Bảy cảm biến Kinect v1 đã được lắp đặt trong một phòng để thu thập dữ liệu. Tập dữ liệu có 20 lớp hoạt động. Các hoạt động được thực hiện bởi 50 người (20 nữ và 30 nam) trong độ tuổi từ 21 đến 40. 1.4.4 NTU RGB+D Tập dữ liệu NTU RGB+D gồm nhiều thể thức dữ liệu thu từ cảm biến Kinect v2. Trong tập dữ liệu này, mô hình khung xương có 25 khớp, với một hoặc hai người trong mỗi cảnh thu. NTU RGB+D hiện là tập dữ liệu cỡ lớn được sử dụng phổ biến nhất để đánh giá các phương pháp nhận dạng hoạt động sử dụng dữ liệu khung xương. Tập dữ liệu có 56880 mẫu, được chia thành 60 lớp hoạt động. Tổng cộng có 40 người tham gia thực hiện các hoạt động. Ba cảm biến Kinect được gắn ở cùng độ cao nhưng ở các góc nhìn khác nhau. Nhóm tác giả của tập dữ liệu NTU RGB+D đã đề xuất hai tiêu chuẩn đánh giá: (1) Đánh giá chéo theo người thực hiện (Cross Subject - CS) trong đó có 40320 mẫu được dùng để huấn luyện và 16560 mẫu được dùng để đánh giá. (2) Đánh giá chéo theo góc nhìn (Cross View - CV): tập huấn 5
luyện bao gồm 37920 mẫu từ camera 2 và 3, tập đánh giá có 18960 mẫu được thu bởi camera 1. 1.5 Nhận dạng hoạt động sử dụng dữ liệu khung xương Dữ liệu khung xương có thể được sử dụng để biểu diễn các hoạt động của người một cách hiệu quả. Dữ liệu khung xương có rất nhiều ưu điểm như không phụ thuộc vào trang phục và không gian nền. Dữ liệu khung xương có thể dễ dàng được thu thập nhờ sự phổ biến của các cảm biến độ sâu và những đột phá trong kỹ thuật ước lượng khung xương của người từ dữ liệu ảnh màu và ảnh độ sâu. Do hiệu quả lưu trữ và tính toán của dữ liệu khung xương, nhận dạng hoạt động sử dụng dữ liệu khung xương hiện đang trở nên phổ biến. Nhiều phương pháp nhận dạng hoạt động sử dụng dữ liệu khung xương đã được đề xuất như trong Hình 1.1. Để nhận dạng hoạt động, đặc trưng không gian và thời gian có thể được trích chọn từ các tọa độ khớp xương. Thông tin không gian chủ yếu liên quan đến mối liên hệ giữa các khớp trong cùng một khung hình, trong khi thông tin thời gian đề cập đến sự phụ thuộc giữa các khớp trong các khung hình khác nhau. Trong những năm gần đây, với sự phát triển của kỹ thuật học sâu, các kiến trúc mạng học sâu dựa trên dữ liệu đã được đề xuất cho nhận dạng hoạt động với kết quả rất khả quan. Mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) và mạng tích chập đồ thị (GCN) là một số kiến trúc mạng học sâu đã được phát triển cho nhận dạng hoạt động dựa trên dữ liệu khung xương. Hình 1.1 Các phương pháp đã được đề xuất cho nhận dạng hoạt động sử dụng dữ liệu khung xương. 1.6 Một số nghiên cứu về nhận dạng hoạt động ở Việt Nam Một số nhóm nghiên cứu ở Việt Nam đã thực hiện các nghiên cứu về nhận dạng hoạt động của người. Nhận dạng hoạt động đang và sẽ tiếp tục là một chủ đề nghiên cứu thu hút và có nhiều thách thức. 1.7 Tiểu kết chương Chương này đã tóm tắt các tiến bộ trong lĩnh vực nhận dạng hoạt động. Các thể thức dữ liệu và các phương pháp nhận dạng khác nhau đã được xem xét. Nội dung tổng quan tập trung vào dữ liệu khung xương và các phương pháp nhận dạng hoạt động sử dụng dữ liệu khung xương, chính là trọng tâm của luận án. Các ứng dụng của nhận dạng hoạt động trong 6
nhiều lĩnh vực khác nhau được thảo luận. Mặc dù đã có một số đột phá trong nghiên cứu nhận dạng hoạt động, vẫn còn nhiều khó khăn trong việc phát triển ứng dụng. Các thách thức bao gồm sự giống nhau giữa các hoạt động, nhiễu, che khuất và dữ liệu gán nhãn. Do đó cần có thêm nhiều nghiên cứu để nâng cao hiệu quả của các hệ thống nhận dạng hoạt động. CHƯƠNG 2 CÁC KỸ THUẬT CHỌN TẬP KHỚP CHO NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI SỬ DỤNG DỮ LIỆU KHUNG XƯƠNG 2.1 Giới thiệu Các nghiên cứu trước đó cho thấy, các khớp có vai trò khác nhau trong việc biểu diễn và nhận dạng hoạt động. Do đó, các kỹ thuật lựa chọn khớp xương được đề xuất bao gồm hai cách tiếp cận chính: kỹ thuật chọn tập khớp xác định trước và kỹ thuật chọn tập khớp tự động. Với kỹ thuật lựa chọn tập khớp xác định trước, các khớp được xác định trước nhằm đơn giản hóa quá trình chọn khớp. Kỹ thuật này giúp tránh được sự phức tạp trong tính toán và phân lớp trong khi vẫn chọn được các khớp giàu thông tin. Trong cách tiếp cận thứ hai, các khớp được chọn tự động thông qua các độ đo thống kê như giá trị trung bình / phương sai của tọa độ khớp / góc khớp. Với cách tiếp cận này, với từng lớp hoạt động, số lượng các khớp và chỉ số của các lớp được lựa chọn có thể khác nhau. Ở chương này, phương pháp chọn tập khớp xác định trước được đề xuất dựa trên phương pháp gốc là phương pháp sử dụng tọa độ khớp (JP). Hai phương pháp chọn tập khớp tự động được đề xuất có tên là chọn khớp giàu thông tin với số lượng khớp cố định (FMIJ) và chọn khớp giàu thông tin với số lượng khớp thích nghi (AMIJ). Với FMIJ, số khớp được chọn là như nhau cho tất cả các lớp hoạt động. Với AMIJ, số khớp được chọn thay đổi theo đặc điểm của từng lớp hoạt động. Hình 2.1 mô tả phương pháp nhận dạng được sử dụng với tập khớp được lựa chọn từ các kỹ thuật đề xuất. Hình 2.1 Kỹ thuật chọn tập khớp trong hệ thống nhận dạng hoạt động từ dữ liệu khung xương. 7
2.2 Các phương pháp đề xuất 2.2.1 Kỹ thuật chọn tập khớp xác định trước Với kỹ thuật lựa chọn tập khớp xác định trước, tùy vào cơ sở dữ liệu, một tập các khớp sẽ được lựa chọn từ trước nhằm biểu diễn hoạt động. Dựa trên quan sát cho thấy các hành động chủ yếu liên quan đến các vị trí khớp trên đầu, tay và chân, do đó luận án sử dụng 13 khớp này trong biểu diễn và nhận dạng hoạt động (xem Hình 2.2). Với các khớp đã lựa chọn, Hình 2.2 Các khớp được lựa chọn trong biểu diễn hoạt động (các khớp màu xanh). sơ đồ hệ thống của phương pháp nhận dạng với tập khớp xác định trước được mô tả trong Hình 2.3. Các vec-tơ đặc trưng được tổng hợp bằng cách kết hợp các tọa độ khớp và vận tốc khớp. Với mỗi khung xương có N khớp. Tọa độ của khớp thứ i tại khung thời gian t được biểu diễn dưới dạng: pi (t) = [xi (t), yi (t), zi (t)] (2.1) Hình trạng khung xương ở khung thời gian t được biểu diễn bởi N khớp xương như sau: p(t) = [p1 (t), p2 (t), . . . , pN (t)] (2.2) Dựa trên hướng tiếp cận của Ghorbel và các đồng tác giả, tọa độ khớp p(t) và vận tốc khớp V (t) được sử dụng để biểu diễn hoạt động. Vận tốc khớp được định nghĩa bởi: V (t) = {pi (t + 1) − pi (t − 1)|i = 1..N } (2.3) Sau đó, chuẩn hóa theo thời gian được thực hiện bằng kỹ thuật Dynamic Time Warping (DTW). Fourier Temporal Pyramid (FTP) giúp giảm bớt ảnh hưởng của nhiễu trong dữ liệu khung xương. Việc phân loại được thực hiện bằng phương pháp máy vec-tơ hỗ trợ (SVM). Phương pháp đề xuất được đánh giá trên MSR-Action3D và CMDFALL. 8
Hình 2.3 Sơ đồ hệ thống của phương pháp nhận dạng dựa trên tập khớp xác định trước. Giá trị vận tốc khớp ở khung đầu/khung cuối được thiết lập bằng với giá trị vận tốc khớp của khung liền kề. Vector đặc trưng F được tạo bằng cách kết hợp tọa độ khớp với vận tốc khớp: F (t) = [p(t), V (t)] (2.4) 2.2.2 Kỹ thuật chọn tập khớp tự động Kỹ thuật lựa chọn khớp cố định ở trên có hạn chế là số lượng khớp và các khớp được lựa chọn là như nhau cho toàn bộ hoạt động trong cơ sở dữ liệu. Để giải quyết hạn chế này, trong phần này hai kỹ thuật lựa chọn tập khớp tự động FMIJ (Most Informative Joints) và AMIJ (Adaptive number of Most Informative Joints) được đề xuất. Lựa chọn tập khớp tự động được thực hiện thông qua hai bước: xác định trọng số cho từng khớp và lựa chọn các khớp. Đầu tiên, trọng số của từng khớp được xác định dựa trên mức độ tham gia củacác khớp trong mỗi loại hoạt động. Xác định trọng số của các khớp có thể được coi là phép ánh xạ từ tọa độ của khớp trong chuỗi sang một giá trị số thực như sau: Θ(a) : R(T ) → R(1). (2.5) Nhiều độ đo có thể được sử dụng như trung bình, phương sai của tọa độ/góc của các khớp. Trong luận án này, giá trị phương sai của tọa độ các khớp được sử dụng. Các khớp được sắp xếp theo trật tự giảm dần về phương sai. Trọng số của khớp thứ i trong mẫu j được xác định như sau: j j wi = vari × weights(index(i)) (2.6) trong đó weights(index(i)) là trọng số trong danh sách được sắp xếp. 9
Sau khi trọng số của khớp được xác định cho mỗi mẫu, trọng số của khớp trên toàn bộ mẫu của một lớp hoạt động được xác định như sau: N bc j j=1 wi wi = (2.7) N bc trong đó N bc là số lượng mẫu trong lớp hoạt động c. Với kỹ thuật FMIJ, sau khi tính toán trọng số của các khớp cho mỗi mẫu, M khớp có giá trị trọng số cao nhất sẽ được giữ lại và được xem là tập các khớp giàu thông tin tiềm năng. Sau đó, các khớp giàu thông tin nhất sẽ được lựa chọn dựa trên tần xuất của các khớp này trong các danh sách các khớp tiềm năng. Giá trị M được cố định cho toàn bộ các lớp hoạt động. Kỹ thuật AMIJ dựa trên quan sát rằng số lượng khớp cần thiết để mô tả mỗi hành động có thể khác nhau. Thay vì lựa chọn số lượng khớp cố định như trong FMIJ, với AMIJ, số lượng khớp giàu thông tin nhất có thể khác nhau tùy thuộc vào đặc điểm của từng hoạt động. Một ngưỡng được đặt để chọn các khớp có nhiều thông tin nhất. Điều này cho thấy rằng các khớp có trọng số lớn hơn ngưỡng sẽ được giữ để biểu diễn hành động. Giá trị ngưỡng được lựa chọn từ tập huấn luyện. Hình 2.4 minh họa kết quả các khớp được lựa chọn (màu đỏ) cho hoạt động high throw ở cơ sở dữ liệu MSR-Action3D bằng kỹ thuật FMIJ. Hình 2.4 Các khớp được lựa chọn bằng kỹ thuật FMIJ (đánh dấu màu đỏ) cho hoạt động high throw ở cơ sở dữ liệu MSR-Action3D. Sau khi lựa chọn xong tập khớp, sơ đồ hệ thống đề xuất được mô tả như trong Hình 2.5. Phương pháp được đề xuất có đầu vào là dữ liệu khung xương. Các chuỗi này được cung cấp trực tiếp bởi cảm biến độ sâu hoặc ước lượng từ chuỗi ảnh màu hoặc ảnh độ sâu thông qua các thuật toán ước lượng khung xương như OpenPose. Đối với mỗi lớp hoạt động, một tập hợp các khớp giàu thông tin (MIJ) sẽ được xác định trong quá trình huấn luyện. Sau đó, các bộ mô tả hiệp phương sai được tính trên tọa độ khớp và vận tốc khớp của các khớp giàu thông tin. Cuối cùng, bộ phân lớp máy vec-tơ hỗ trợ (SVM) được huấn luyện cho từng lớp hoạt động. Với mỗi chuỗi dữ liệu đánh giá, các tập hợp MIJ khác nhau sẽ được xác định cho các lớp hoạt động khác nhau. Sau đó, các bộ mô tả hiệp phương sai được tính toán trên các 10
tập hợp này. Một sơ đồ bao gồm C khối SVM được sử dụng để dự đoán lớp hoạt động. Hình 2.5 Sơ đồ hệ thống của các phương pháp đề xuất FMIJ/AMIJ. 2.3 Các kết quả thử nghiệm Bảng 2.1 so sánh độ chính xác của phương pháp đề xuất với các phương pháp khác trên MSR-Action3D. Phương pháp SMIJ sử dụng so sánh trực tiếp nên kết quả nhận dạng có độ chính xác thấp. Ba phương pháp cuối là các phương pháp dựa trên ma trận hiệp biến. Khi so với phương pháp gốc Cov3DJ và CovP3DJ, phương pháp đề xuất có độ chính xác cao hơn, lần lượt là 5,67% và 5,22%. Bảng 2.2 so sánh các kết quả nhận dạng trên tập dữ liệu CMDFALL. 11
Bảng 2.1 So sánh độ chính xác (%) của các phương pháp chọn tập khớp trên MSR-Action3D. TT Phương pháp AS1 AS2 AS3 1 Action Graph, 2010 72.9 71.9 79.2 2 Histogram, 2012 87.98 85.48 63.46 3 EigenJoints, 2012 74.5 76.1 96.4 4 Cov3DJ, 2013 88.04 89.29 94.29 5 Joint Position (JP), 2014 93.36 85.53 99.55 6 Relative JP (RJP), 2014 95.77 86.9 99.28 7 Joint Angle (JA), 2014 84.51 68.05 96.17 8 Absolute SE(3), 2014 90.3 83.91 95.39 9 LARP, 2014 94.72 86.83 99.02 10 Spline Curve, 2015 83.08 79.46 93.69 11 Multi-fused, 2017 90.8 93.4 95.7 12 CovP3DJ, 2018 93.48 84.82 94.29 13 CovMIJ, 2018 93.48 90.18 97.14 14 Đại số Lie với VFDT, 2020 94.66 85.08 96.76 15 Preset JSS 95.86 91.27 99.47 16 Preset JSS với Covariance Descriptors 95.7 91.1 96.2 17 Proposed (FMIJ) 95.7 92.9 98.1 18 Proposed (AMIJ) 96.7 92.9 99.0 Bảng 2.2 Đánh giá hiệu năng của FMIJ/AMIJ trên tập dữ liệu CMDFALL. TT Phương pháp Năm Chỉ số F1 (%) 1 Cov3DJ 2013 61 2 Joint Position (JP) 2014 49.18 3 Res-TCN 2017 39.38 4 CovMIJ 2018 62.5 5 CNN 2019 40.34 6 CNN-LSTM 2019 39.24 7 CNN-Velocity 2019 46.13 8 CNN-LSTM-Velocity 2019 45.23 9 RA-GCN 2019 58.63 10 Preset JSS 2019 52.86 11 Preset JSS using Covariance Descriptors - 60.2 12 Proposed (FMIJ) - 64 13 Proposed (AMIJ) - 64 2.4 Tiểu kết chương Cả phương pháp chọn tập khớp dựa trên dựa trên kinh nghiệm và phương pháp chọn tập khớp tự động dựa trên số liệu thống kê đều giúp nâng cao hiệu quả nhận dạng hoạt động. Phương pháp chọn tập khớp xác định trước giúp đơn giản hóa quá trình chọn khớp. FMIJ và AMIJ là các phương pháp được đề xuất để lựa chọn tập khớp tự động. Các bộ mô tả hiệp phương sai được tính toán cho tọa độ khớp và vận tốc khớp. Cả FMIJ và AMIJ đều hoạt động tốt hơn phương pháp gốc Cov3DJ trên các bộ dữ liệu đánh giá. FMIJ/AMIJ tốt hơn JSS xác 12
định trước nhưng yêu cầu nhiều thời gian tính toán hơn. Các phương pháp JSS được đề xuất có hiệu năng ổn định trên dữ liệu khung xương được thu thập từ các nguồn khác nhau. Các kết quả chính trong chương này được công bố trong các bài báo [C1], [C2], and [J2]. CHƯƠNG 3 KỸ THUẬT KẾT HỢP ĐẶC TRƯNG CHO MẠNG TÍCH CHẬP ĐỒ THỊ 3.1 Giới thiệu Các khớp trên cơ thể người được sắp xếp theo một trật tự nhất định có bản chất là cấu trúc đồ thị. Tuy nhiên, các phương pháp đề cập trong Chương 2 chưa tập trung vào khai thác bản chất đồ thị của dữ liệu khung xương. Các phương pháp tiếp cận ban đầu sử dụng kỹ thuật trích chọn đặc trưng thủ công theo các quy tắc thiết lập trước. Kỹ thuật trích chọn đặc trưng thủ công có độ chính xác hạn chế và gặp khó khăn trong việc tổng quát hóa. Các kiến trúc mạng học sâu như CNN và RNN gần đây đã được sử dụng trong nhận dạng hoạt động sử dụng dữ liệu khung xương. Tuy nhiên các phương pháp này không thể khai thác được thông tin về trật tự khớp trong mô hình khung xương, một yếu tố quan trọng trong nhận dạng hoạt động của người. Một phương pháp được phát triển gần đây là biểu diễn các chuỗi dữ liệu khung xương dưới dạng đồ thị. Trong chương này, các mô hình học sâu dựa trên đồ thị được nghiên cứu để nâng cao hiệu quả nhận dạng hoạt động. Mục đích là tạo ra một kỹ thuật hiệu quả sử dụng các độ lệch khớp trong các chuỗi dữ liệu khung xương. 3.2 Các nghiên cứu liên quan về mạng tích chập đồ thị Phép tính tích chập cho hình ảnh được mở rộng thành phép tính tích chập cho đồ thị trong Mạng tích chập đồ thị (GCN). Mạng GCN đầu tiên được sử dụng trong nhận dạng hoạt động là mạng GCN không gian - thời gian (ST-GCN). Mạng tích chập đồ thị thích nghi có chú ý (AAGCN) được giới thiệu gần đây có khả năng xây dựng các đồ thị thích nghi. Sơ đồ hệ thống của AAGCN bao gồm một dãy 10 khối cơ bản. 3.3 Phương pháp đề xuất Trong chương này, một phương pháp nhận dạng dựa trên mạng tích chập đồ thị thích nghi có chú ý (AAGCN) và mô đun kết hợp đặc trưng được đề xuất. Sơ đồ của phương pháp đề xuất được mô tả trong Hình 3.1. Mục tiêu chính của mô-đun kết hợp đặc trưng là kết hợp nhiều đặc trưng trích xuất từ khớp xương, nhằm đưa ra biểu diễn giàu thông tin cho phép nhận dạng hiệu quả hơn hoạt động. Dữ liệu đầu ra của mô-đun kết hợp đặc trưng được chuẩn hóa bằng cách sử dụng chuẩn hóa lô (BN). AAGCN có 10 khối cơ bản bao gồm B1 , B2 , . . . , B10 . Bốn khối đầu tiên B1 , B2 , B3 , B4 mỗi khối có 64 kênh đầu ra. Ba khối tiếp theo B5 , B6 , B7 mỗi khối có 128 kênh đầu ra. Ba khối cuối cùng B8 , B9 , B10 mỗi khối có 256 kênh đầu ra. Số lượng 13
kênh đầu ra cho mỗi khối chính là số lượng bộ lọc được sử dụng trong phép tính tích chập. Mục tiêu là sử dụng các tham số được huấn luyện để trích xuất các đặc trưng của đồ thị ở các cấp độ khác nhau. Với hai khối cơ bản B5 , B8 , giá trị bước dịch được thiết lập bằng 2 để giảm chiều dài khung. Lớp kết hợp trung bình toàn cục (GAP) được sử dụng để kết hợp các bản đồ đặc trưng. GAP là cơ chế hiệu quả giúp giảm kích thước tensor và tăng tốc độ tính toán. Một ưu điểm của lớp GAP là nó ánh xạ giữa các bản đồ đặc trưng và các lớp hoạt động. Do đó, các bản đồ đặc trưng có thể được hiểu là bản đồ tin cậy cho các lớp hoạt động. Một lợi ích khác của lớp GAP là không có tham số được điều chỉnh do đó không gây ra overfit dữ liệu. Softmax được sử dụng để phân lớp hoạt động. Hình 3.1 Một mô-đun kết hợp đặc trưng, một lớp chuẩn hóa theo lô (BN), mười khối cơ bản không gian - thời gian, một lớp pooling (GAP) và một lớp softmax. Hình 3.2 cho thấy sơ đồ của một khối cơ bản AAGCN. Khối tính tích chập không gian (Convs), mô-đun chú ý và khối tính tích chập thời gian (Convt). Mỗi lớp tích chập không gian và thời gian có một lớp BN và một lớp ReLU đi kèm. Mỗi khối cơ bản đều sử dụng một đường nối tắt để tránh hiện tượng suy biến gradient. Hình 3.2 Khối cơ bản không-thời gian. • Số kênh: Do có 3 thành phần tọa độ (x, y, z) nên số kênh trong AAGCN là 3. Mô-đun kết hợp đặc trưng kết hợp tọa độ khớp tương đối với vận tốc khớp nên số kênh đầu ra của khối kết hợp đặc trưng là 6 kênh. • Số khung: Chiều dài khung lớn nhất Tmax dùng để biểu diễn hoạt động. Các chuỗi khung xương ngắn hơn Tmax sẽ được chuẩn hóa về cùng chiều dài Tmax bằng cách lặp lại chuỗi khung xương. • Số khớp: Số lượng khớp trong mô hình khung xương. 14
• Số người: Số người tối đa trong mỗi khung hình. Thiết lập tham số của các tập dữ liệu được mô tả trong Bảng 3.1. Bảng 3.1 Thiết lập tham số của các tập dữ liệu. TT Tập dữ liệu Số kênh Số khung Số khớp Số người 1 CMDFALL 3 600 20 1 2 MICA-Action3D 3 175 20 1 3 NTU RGB+D 3 300 25 2 AAGCN sử dụng dữ liệu đầu vào là các tọa độ khớp. Nhiễu trong dữ liệu khung xương có thể làm giảm độ chính xác của nhận dạng hoạt động. Việc sử dụng tọa độ khớp tương đối có thể giúp giảm bớt những sai lệch này. Một số lớp hoạt động có những chuỗi tọa độ khớp tương tự nhau. Các hoạt động này có thể được phân tách bởi tốc độ thực hiện. Trong luận án, khối kết hợp đặc trưng được đề xuất bằng cách kết hợp hai đặc trưng: tọa độ khớp tương đối và vận tốc khớp. Tọa độ khớp thứ i ở khung thời gian t được biểu diễn bởi: pi (t) = [xi (t), yi (t), zi (t)] (3.1) Khung xương ở khung thời gian t gồm có N khớp xương: p(t) = [p1 (t), p2 (t), . . . , pN (t)] (3.2) Trong mô hình khung xương, tọa độ khớp tương đối là độ lệch giữa khớp xương với khớp trung tâm pc , như trong Hình 3.3. Trong các tập dữ liệu được sử dụng, khớp ở vị trí bụng được chọn làm khớp trung tâm pc . RJP được biểu diễn toán học bởi: Hình 3.3 Tọa độ khớp tương đối RJP là độ lệch giữa khớp xương với khớp trung tâm. (a) Mô hình Microsoft Kinect v1 với 20 khớp (b) Mô hình Microsoft Kinect v2 với 25 khớp. 15
RJP (t) = {pi (t) − pc (t)|i = 1..N } (3.3) Vận tốc khớp được định nghĩa theo công thức (2.3). Vector đặc trưng F được tạo ra bằng cách kết hợp tọa độ khớp tương đối và vận tốc khớp theo số chiều: F (t) = [RJP (t), V (t)] (3.4) 3.4 Các kết quả thử nghiệm Ba tập dữ liệu CMDFALL, MICA-Action3D, and NTU-RGBD được sử dụng để đánh giá. Dữ liệu từ một nửa số người thực hiện được sử dụng để huấn luyện trong khi dữ liệu từ phần còn lại được sử dụng để đánh giá. Hiệu năng của phương pháp đề xuất được đánh giá trên máy chủ có CPU Intel i7-8700, bộ nhớ 32 GB và GPU GeForce GTX 1080Ti. Bảng 3.2 tổng hợp kết quả đánh giá hiệu năng từng phần trên tập dữ liệu CMDFALL sử dụng tọa độ khớp, vận tốc khớp, RJP và mô-đun kết hợp đặc trưng. Bảng 3.2 Đánh giá hiệu năng từng phần trên CMDFALL. TT Phương pháp Precision (%) Recall (%) F1 (%) 1 AAGCN dùng tọa độ khớp 65.7 65.57 65.11 2 AAGCN dùng vận tốc khớp 68.64 69.7 68.54 3 AAGCN dùng RJP 69.15 69.72 69.04 4 Đề xuất (FF-AAGCN) 77.87 78.52 77.59 Bảng 3.3 so sánh phương pháp đề xuất và các phương pháp khác trên tập dữ liệu CMDFALL. Trên tập dữ liệu CMDFALL, phương pháp đề xuất hoạt động tốt hơn phương pháp gốc AAGCN. Phương pháp được đề xuất đạt được hiệu quả cao với chỉ số F1 lên đến 77,59 %, trong khi phương pháp gốc chỉ đạt được chỉ số F1 là 65,11 %. Hình 3.4 là biểu diễn trực quan các lớp hoạt động của CMDFALL sử dụng biểu diễn lân cận dạng thống kê phân bố (t-SNE). 16
Bảng 3.3 Đánh giá hiệu năng trên CMDFALL với các chỉ số Precision, Recall và F1 [%]. TT Phương pháp Năm Prec. (%) Recall (%) F1 (%) 1 Cov3DJ 2013 - - 61 2 Joint Position (JP) 2014 - - 49.18 3 Res-TCN 2017 - - 39.38 4 CovMIJ 2018 - - 62.5 5 CNN 2019 48.68 41.78 40.34 6 CNN-LSTM 2019 45.24 40.58 39.24 7 CNN-Velocity 2019 49.97 47.89 46.13 8 CNN-LSTM-Velocity 2019 47.64 46.51 45.23 9 RA-GCN 2019 61.18 59.28 58.63 10 AAGCN 2020 65.7 65.57 65.11 11 AS-RAGCN 2020 75.82 74.81 74.9 12 Preset JSS 2019 - - 52.86 13 Preset JSS using Covariance 2019 - - 60.2 14 FMIJ (Chương 2) 2021 - - 64 15 AMIJ (Chương 2) 2021 - - 64 16 Đề xuất (FF-AAGCN) - 77.87 78.52 77.59 Bảng 3.4 Đánh giá độ chính xác (%) trên NTU RGB+D. TT Phương pháp Year CS CV 1 Bi-directional RNN 2015 59.1 64.0 2 Part-based LSTM 2016 60.7 67.3 3 ST-LSTM 2016 69.2 77.7 4 STA-LSTM 2016 73.4 81.2 5 VA-LSTM 2017 79.2 87.7 6 ARRN-LSTM 2018 80.7 88.8 7 IndRNN 2018 81.8 88.0 8 SRN+TSL 2018 84.8 92.4 9 Res-TCN 2017 74.3 83.1 10 Clip CNN 2017 79.6 84.8 11 Synthesized CNN 2017 80.0 87.2 12 Motion CNN 2017 83.2 89.3 13 Multi-scale CNN 2017 85.0 92.3 14 ST-GCN 2018 81.5 88.3 15 GCNN 2018 83.5 89.8 16 Dense IndRNN 2019 86.7 94.0 17 AS-GCN 2019 86.8 94.2 18 AGCN 2019 87.3 93.7 19 3s RA-GCN 2020 87.3 93.6 20 AS-RAGCN 2020 87.7 92.9 21 AAGCN 2020 88.0 95.1 22 Proposed (FF-AAGCN) - 88.2 94.8 17
(a) AAGCN (b) Proposed Hình 3.4 Phân bố của 20 lớp hoạt động trong CMDFALL với AAGCN (trái) và phương pháp đề xuất (phải) sử dụng t-SNE. 3.5 Tiểu kết chương Chương này đã trình bày phương pháp nhận dạng hoạt động được đề xuất dựa trên việc tích hợp mô-đun kết hợp đặc trưng và mô hình AAGCN. Phương pháp đề xuất được đặt tên là FF-AAGCN. Trong mô đun kết hợp đặc trưng, tọa độ khớp tương đối và vận tốc khớp được trích chọn cho toàn bộ khớp trên một khung xương. FF-AAGCN có hiệu quả nhận dạng vượt trội so với phương pháp gốc AAGCN trên tập dữ liệu thách thức như CMDFALL. Trên NTU RGB+D, phương pháp được đề xuất đạt được độ chính xác khi đánh giá chéo theo người là 88,2% và độ chính xác khi đánh giá chéo theo góc nhìn là 94,8%. Kết quả của phương pháp đề xuất có hiệu quả tương đương với phương pháp gốc AAGCN trên NTU RGB+D. Feature Fusion giúp tăng hiệu quả nhận dạng hoạt động khi sử dụng đặc trưng vận tốc với các hiệu số khung hình khác nhau. Các kết quả trong chương này được công bố trong các bài báo [C3], [J1], và [J3]. 18