Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:140

Thêm vào BST

Báo xấu

18
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của đề tài "Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người" là nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh người dựa trên học sâu. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai trong nhiều điều kiện thực tế, mục tiêu nghiên cứu có thể được mở rộng hơn bao gồm nén mạng hướng tới triển khai trên các thiết bị phần cứng.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ Kỹ thuật điện tử: Nghiên cứu và phát triển phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI ĐỊNH DANH NGƯỜI LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Hà Nội−2024
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI Nguyễn Hồng Quân NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN HỌC SÂU TRONG TÁI ĐỊNH DANH NGƯỜI Ngành: Kỹ thuật điện tử Mã số: 9520203 LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. VÕ LÊ CƯỜNG 2. TS. NGUYỄN VŨ THẮNG Hà Nội−2024
LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của bản thân nghiên cứu sinh trong thời gian học tập và nghiên cứu tại Đại học Bách khoa Hà Nội dưới sự hướng dẫn của tập thể hướng dẫn khoa học. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực. Các kết quả sử dụng tham khảo đều đã được trích dẫn đầy đủ và theo đúng quy định. Hà Nội, ngày 19 tháng 01 năm 2024 Tập thể hướng dẫn Nghiên cứu sinh TS Võ Lê Cường TS Nguyễn Vũ Thắng Nguyễn Hồng Quân ĐẠI HỌC BÁCH KHOA HÀ NỘI TL.GIÁM ĐỐC TRƯỞNG BAN ĐÀO TẠO
LỜI CẢM ƠN Trong quá trình nghiên cứu và hoàn thành luận án này, nghiên cứu sinh đã nhận được nhiều sự giúp đỡ và đóng góp quý báu. Đầu tiên, nghiên cứu sinh xin được bày tỏ lòng biết ơn sâu sắc tới tập thể hướng dẫn: Tiến sĩ Võ Lê Cường và tiến sĩ Nguyễn Vũ Thắng. Các thầy cô đã tận tình hướng dẫn, giúp đỡ nghiên cứu sinh trong suốt quá trình nghiên cứu và hoàn thành luận án. Nghiên cứu sinh xin chân thành cảm ơn Khoa Điện tử, Trường Điện - Điện Tử Đại học Bách Khoa Hà Nội. Tôi cũng xin cám ơn các thầy cô và các anh chị em Viện Nghiên cứu quốc tế Mica Đại học Bách khoa Hà Nội đã giúp tôi có được một môi trường nghiên cứu tuyệt vời. Tôi xin cám ơn trường Đại học Công nghiệp Việt - Hung đã tạo nhiều điều kiện thuận lợi cho tôi về mọi mặt trong suốt thời gian tôi làm nghiên cứu sinh. Xin chân thành cảm ơn Ban Đào tạo - Đại học Bách Khoa Hà Nội đã tạo điều kiện để nghiên cứu sinh có thể hoàn thành các thủ tục bảo vệ luận án tiến sĩ. Cuối cùng, nghiên cứu sinh xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đồng nghiệp đã luôn động viên, giúp đỡ nghiên cứu sinh vượt qua khó khăn để đạt được những kết quả nghiên cứu như hôm nay.
MỤC LỤC LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT . . . . . . . . . . . . . vi DANH MỤC CÁC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ . . . . . . . . . . . . . . . . . . . . . . . . . x MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Chương 1. NGHIÊN CỨU TỔNG QUAN . . . . . . . . . . . . . . . . . . . . . 12 1.1. Trích chọn đặc trưng hình ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2. Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3. Mạng Nơ-ron hồi quy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.4. Bài toán tái định danh người . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.4.1. Định nghĩa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.4.2. Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.4.3. Độ đo khoảng cách và độ đo tương tự . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1.4.4. Độ đo đánh giá kết quả tái định danh. . . . . . . . . . . . . . . . . . . . . . . . . . 43 1.5. Nén mạng học sâu và triển khai trên FGPA . . . . . . . . . . . . . . . . . . . . . . . . 44 1.6. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Chương 2. TRÍCH CHỌN ĐẶC TRƯNG HỌC SÂU CỤC BỘ TRONG TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.2. Các đề xuất cho trích chọn đặc trưng mức ảnh trong tái định danh 49 2.2.1. Đề xuất 1: Trích đặc trưng cục bộ cho ảnh dựa trên thay đổi kiến trúc ResNet50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2.2. Đề xuất 2: Kết hợp các đặc trưng theo chiến lược kết hợp muộn 51 2.2.3. Đề xuất 3: Tính khoảng cách giữa hai tập đặc trưng cục bộ bằng độ đo EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3. Thử nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.3.1. Cơ sở dữ liệu cho bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . . 55 2.3.2. Kết quả thử nghiệm của đề xuất 1 - Trích đặc trưng cục bộ ảnh với kiến trúc ResNet50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 iii
2.3.3. Kết quả thử nghiệm đề xuất 2 - Chiến lược kết hợp muộn đặc trưng 60 2.3.4. Kết quả thử nghiệm của đề xuất 3- So sánh đặc trưng cục bộ với khoảng cách EMD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Chương 3. KHAI THÁC ĐẶC TRƯNG VIDEO DỰA TRÊN MẠNG NƠ-RON HỒI QUY TÁI ĐỊNH DANH NGƯỜI . . . . . . . . . . . . . . . 67 3.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2. Một số kiến trúc mạng Nơ-ron hồi quy phổ biến . . . . . . . . . . . . . . . . . . . 69 3.2.1. Recurrent Neural Network (RNN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.2.2. Long Short-term Memory (LSTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.2.3. Long Short-term Memory với cặp cổng (LSTMC) . . . . . . . . . . . . . . 71 3.2.4. Long Short-term Memory với kết nối Peephole (LSTMP). . . . . . . 72 3.2.5. Gated Recurrent Unit (GRU) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3. Đánh giá hiệu quả của các mạng Nơ-ron hồi quy cho bài toán tái định danh sử dụng chuỗi hình ảnh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4. Đề xuất cải thiện đặc trưng mức chuỗi ảnh với mạng VGG16 và kiến trúc GRU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.4.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.5. Đề xuất nâng cao hiệu quả mô hình bằng đặc trưng thủ công (GOG) kết hợp sử dụng thuật toán học độ đo khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . 80 3.5.1. Mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.5.2. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.6. Triển khai và đánh giá một hệ thống tái định danh . . . . . . . . . . . . . . . . 84 3.6.1. Mô tả hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.6.2. Xây dựng cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.6.3. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.7. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Chương 4. NÉN MẠNG HỌC SÂU ĐỊNH HƯỚNG TRIỂN KHAI TRÊN PHẦN CỨNG - FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.1. Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.2. Kỹ thuật nén mạng học sâu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.2.1. Cắt tỉa mạng (pruning) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 iv
4.2.2. Lượng tử hóa (quantization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.3. Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.3.1. Nhị phân hóa giá trị trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.3.2. Lượng tử hóa các giá trị trọng số và giá trị kích hoạt tương ứng với lớp mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.3.3. Hàm kích hoạt Clamping Rectified Linear Unit - CReLU. . . . . . 101 4.3.4. Kiến trúc luồng của bộ tăng tốc mạng tích chập . . . . . . . . . . . . . . 103 4.3.5. Tính toán tài nguyên phần cứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.4. Thử nghiệm và kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.4.1. Mạng học sâu VGG16-SSD và bài toán phát hiện đối tượng trên ảnh 104 4.4.2. Cơ sở dữ liệu CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.4.3. Cơ sở dữ liệu PASCAL VOC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.4.4. Nén mạng VGG16 với bài toán phân lớp ảnh trên CSDL CIFAR-10. 107 4.4.5. Nén mạng VGG16-SSD với bài toán phát hiện đối tượng trên ảnh hướng tới triển khai trên FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.5. Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 KẾT LUẬN VÀ KIẾN NGHỊ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 115 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt BackBone BackBone Network Mạng xương sống (mạng chính). Bbox Bounding box Vùng đối tượng trên ảnh. CNN Convulutional Neural Network Mạng nơ-ron tích chập. CMC Cummulative Matching Char- Biểu đồ kết quả đối sánh theo acteristic thứ hạng. DNN Deep Neural Network Mạng nơ-ron sâu. CSDL Dataset Cơ sở dữ liệu. CV Computer Vision Thị giác máy tính. DSP Digital Signal Processing Xử lý tín hiệu số. EMD Earth Mover’s Distance Khoảng cách Earth Mover. FC Full connected Kết nối đầy đủ. FPGA Field Programmable Gate Ar- Vi mạch dùng cấu trúc mảng ray phần tử logic có thể lập trình được. Gallery Gallery set Tập tìm kiếm hay tập trưng bày. GOG Gaussian of Gaussian GPU Graphics Processing Unit Bộ xử lý đồ họa. GRU Gated Recurrent Unit HOG Histogram of Oriented Gradi- ents ID Identity Định danh. LBP Local Binary Patterns LSTM Long Short Term Memory RNN Recurrent neural network Mạng nơ-ron hồi quy. Probe Probe set Tập thăm dò hay tập truy vấn. PE Processing Element Đơn vị xử lý (trong FPGA). R-CNN Region-based Convolutional Neural Network vi
ReLU Rectified Linear Unit Tên một đơn vị xử lý trong mạng nơ-ron. ResNet Residual Neural Network SIFT Scale-Invariant Feature Trans- form SORT Simple Online and Realtime Tracking SSD Single Shot multiBox Detector Một kiến trúc mạng cho bài toán phát hiện đối tượng trên ảnh. SURF Speeded-Up Robust Features SVM Support Vector Machine Máy véctơ hỗ trợ Tracklet Một chuỗi các vùng ảnh của một đối tượng trên các khung hình liên tiếp trong video. VGG Visual Geometry Group YOLO You look Only Once XQDA Cross-view Quadratic Discrim- inant Analysis vii
DANH MỤC CÁC BẢNG 1.1 Thời gian thực hiện phát hiện đối tượng [Microsoft Research, NIPS2015]24 1.2 Cấu trúc mạng trích chọn đặc trưng thể hiện bề ngoài của Deep- SORT[39] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1 Kết quả tái định danh sử dụng đặc trưng ResNet đề xuất trên cơ sở dữ liệu VIPER. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.2 Kết quả tái định danh sử dụng đặc trưng ResNet gốc và ResNet đề xuất trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. . . . . . . . . . . 59 2.3 So sánh kết quả đạt được của đề xuất 2 trong luận án với các phương pháp khác trên hai cơ sở dữ liệu PRID-2011 và iLIDS- VID. Kết quả tốt nhất được in đậm. . . . . . . . . . . . . . . . . . . . 61 2.4 So sánh kết quả đạt được của phương pháp trong đề xuất 2 với các phương pháp hiện có trên cơ sở dữ liệu VIPeR. Kết quả tốt nhất được in đậm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.5 So sánh kết quả thu được với đề xuất 3 sử dụng độ đo EMD trong luận án và phương pháp gốc sử dụng độ đo DMLI trên 3 CSDL VIPeR, Market1501-Partial và DukeMTMCReID-Partial trong trường hợp chia ảnh thành 8 vùng. Các kết quả tốt nhất trong từng nhóm phương pháp được bôi đậm. . . . . . . . . . . . . . . 65 2.6 Kết quả tái định danh trên CSDL VIPER dựa trên đề xuất 3 với số lượng vùng được chia khác nhau. . . . . . . . . . . . . . . . . . . . 66 3.1 So sánh kết quả khi dùng các kiến trúc mạng Nơ-ron hồi quy khác nhau76 3.2 So sánh thời gian thực thi . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.3 So sánh hiệu suất của mô hình được đề xuất khi áp dụng các chiến lược gộp theo thời gian khác nhau . . . . . . . . . . . . . . . . . 79 3.4 So sánh hiệu quả của mô hình được đề xuất và các công trình đã công bố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.5 So sánh kết quả của phương pháp đề xuất và một số phương pháp khác trên 2 CSDL PRID-2011 và iLIDS-VID . . . . . . . . . . . . . . 83 3.6 Cơ sở dữ liệu FAPR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 viii
3.7 Kết quả thử nghiệm trên cơ sở dữ liệu FAPR khi sử dụng bộ phát hiện YOLOv3 và bộ theo vết DeepSORT. . . . . . . . . . . . . . . . . . 90 3.8 Kết quả thử nghiệm trên cơ sở dữ liệu FAPR khi sử dụng thuật bộ phát hiện Mask R-CNN và bộ theo vết DeepSORT . . . . . . . . . 90 3.9 Tỷ lệ đối sánh đúng tại xếp hạng thứ nhất (%) trong bài toán tái định danh với các ngữ cảnh khác nhau. . . . . . . . . . . . . . . . . . 94 4.1 Bảng tham số lượng tử hóa các giá trị kích hoạt cho VGG16 thực thi trên CIFAR-10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2 Độ chính xác và độ rộng bít khi nén mô hình VGG16 với kỹ thuật được đề xuất, so sánh với các nghiên cứu khác trên CSDL CIFAR-10 108 4.3 Chi tiết các tham số lượng tử hóa mô hình VGG16-SSD thực thi trên cơ sở dữ liệu VOC07+12 . . . . . . . . . . . . . . . . . . . . . . . 109 4.4 So sánh với các phương pháp nén khác trên mạng VGG16-SSD . . . 110 ix
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 1 Các mốc lịch sử về phát hiện và nhận dạng đối tượng bao gồm các phương pháp trích chọn đặc trưng [2] . . . . . . . . . . . . . . . . 3 2 Một hệ thống tái định danh đầy đủ. Phạm vi bài toán tái định danh được đánh dấu bởi vùng màu đỏ . . . . . . . . . . . . . . . . . . 5 1.1 Học máy với các đặc trưng được trích chọn thủ công . . . . . . . . . . 13 1.2 Học máy với các đặc trưng được trích chọn thông qua mô hình học sâu14 1.3 Cấu trúc một mạng nơ-ron tích chập cơ bản . . . . . . . . . . . . . . . 15 1.4 Cấu trúc mạng LeNet [15] . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Cấu trúc mạng AlexNet [1] . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.6 Cấu trúc mạng VGG16 [17] . . . . . . . . . . . . . . . . . . . . . . . . 18 1.7 Cấu trúc mạng GoogleNet inception v1 [18] . . . . . . . . . . . . . . . 18 1.8 Mạng ResNet-50 [19]. a) Cấu trúc mạng; b) Khối nhận dạng; c) Khối tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.9 Một số dấu mốc và nghiên cứu đáng chú ý của mạng học sâu trong bài toán phát hiện đối tượng. . . . . . . . . . . . . . . . . . . . . 21 1.10 Mô hình R-CNN [27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1.11 Mô hình kiến trúc một mạng Fast R-CNN [26] . . . . . . . . . . . . . 22 1.12 Mô hình Faster R-CNN [26] . . . . . . . . . . . . . . . . . . . . . . . . 23 1.13 Cấu trúc mạng YOLOv1 [26] . . . . . . . . . . . . . . . . . . . . . . . 25 1.14 Các bước dự đoán đối tượng của YOLOv1 [26] . . . . . . . . . . . . . 26 1.15 Thời gian thực thi và độ chính xác một số mạng học sâu phát hiện đối tượng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.16 So sánh YOLOv4 với các phương pháp phát hiện đối tượng hiện tại [31]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.17 Mô hình kiến trúc mạng của SSD [21] . . . . . . . . . . . . . . . . . . 28 1.18 So sánh tốc độ và độ chính xác của một số bộ theo vết. . . . . . . . . 31 1.19 Kiến trúc chung của một mạng Nơ-ron hồi quy. a) Sơ đồ rút gọn; b) sơ đồ khi được trải ra. . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.20 Một số mô hình ứng dụng kiến trúc mạng Nơ-ron hồi quy . . . . . . . 35 1.21 Tái định danh người trong mạng camera giám sát [50]. . . . . . . . . 36 1.22 Bộ mô tả GOG được trích chọn ở mức ảnh trên các không gian màu khác nhau [51]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 1.23 Sơ đồ trích đặc trưng LOMO cho ảnh . . . . . . . . . . . . . . . . . . 39 x
1.24 Đặc trưng học sâu được trích chọn trên ba vùng ảnh sử dụng trúc mạng CNN 5 lớp [56] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.1 Mô hình chung cho bài toán tái định danh. . . . . . . . . . . . . . . . 48 2.2 Phân bố các vùng ảnh người theo chiều dọc . . . . . . . . . . . . . . . 49 2.3 Trích đặc trưng sử dụng mạng ResNet-50 áp dụng chiến lược chia 7 vùng ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.4 Một ví dụ về tính hiệu quả của đặc trưng GOG và đặc trưng ResNet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Khai thác thông tin cục bộ ảnh cùng khoảng cách EMD cho mô hình bài toán tái định danh . . . . . . . . . . . . . . . . . . . . . . . . 54 2.6 Một ví dụ về việc tính toán khoảng cách EMD giữa hai tập đặc trưng cục bộ của hai ảnh người . . . . . . . . . . . . . . . . . . . . . . 55 2.7 Một số hình ảnh trong cơ sở dữ liệu VIPER. . . . . . . . . . . . . . . 56 2.8 Một số hình ảnh trong cơ sở dữ liệu PRID2011 và iLID-VID. . . . . . 56 2.9 Một số hình ảnh trong hai bộ CSDL. . . . . . . . . . . . . . . . . . . . 57 2.10 Tỷ lệ so khớp đúng khi áp dụng các chiến lược kết hợp muộn trong đề xuất 2 với 3 đặc trưng khác nhau trên hai CSDL a) PRID-2011 và b) iLIDS-VID. . . . . . . . . . . . . . . . . . . . . . . . 60 2.11 Giá trị trung bình của trọng số thích nghi ứng với mỗi đặc trưng trên cơ sở dữ liệu PRID-2011 với 10 lần ngẫu nhiên chia cơ sở dữ liệu.61 2.12 Tỷ lệ so khớp đúng khi áp dụng các chiến lược kết hợp muộn trong đề xuất 2 với 3 đặc trưng khác nhau trên cơ sở dữ liệu VIPeR. 62 2.13 Kết quả thử nghiệm trên các CSDL a) VIPeR, b)Market1501- Partial and c) DukeMTMCReID-partial. Phương pháp trong đề xuất 3 là Local (EMD) và Global + Local (EMD) . . . . . . . . . . . 64 2.14 Minh họa kết quả tái định danh trong CSDL Market1501-Partial của phương pháp cơ sở sử dụng độ đo DMLI và phương pháp đề xuất dùng độ đo EMD. Các kết quả đúng được đánh dấu bằng màu xanh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1 Chuỗi hình ảnh thu được của 3 người khác nhau trong CSDL PRID-2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2 Các phương pháp đơn giản để làm việc với chuỗi hình ảnh. . . . . . . 68 3.3 Cấu trúc một mạng RNN . . . . . . . . . . . . . . . . . . . . . . . . . 70 3.4 Cấu trúc một nút trong mạng LSTM [42] . . . . . . . . . . . . . . . . 71 3.5 Cấu trúc một nút trong mạng LSTMC . . . . . . . . . . . . . . . . . . 72 3.6 Cấu trúc một nút trong mạng LSTMP . . . . . . . . . . . . . . . . . 72 3.7 Cấu trúc một nút trong mạng GRU [43] . . . . . . . . . . . . . . . . . 73 3.8 Các bước thử nghiệm tái định danh sử dụng chuỗi hình ảnh . . . . . 74 xi
3.9 Kết quả thử nghiệm trên 2 CSDL . . . . . . . . . . . . . . . . . . . . . 76 3.10 Mạng học sâu Không gian - thời gian cho bài toán tái định danh . . 78 3.11 Mô hình đề xuất cải tiến mạng RFA [62] cho bài toán tái định danh. Sự thay đổi được thể hiện trong hai khối màu đỏ. . . . . . . . . 81 3.12 So sánh hiệu quả của LBP-Color và GOG trên CSDL PRID-2011 . . 82 3.13 Kết quả thử nghiệm với mô hình đề xuất . . . . . . . . . . . . . . . . 83 3.14 Mô hình cho một hệ thống tái định danh tự động. . . . . . . . . . . . 85 3.15 Một ví dụ mô tả kết quả thu được trong bước phát hiện người a) Các bounding boxes được dự đoán và nhãn gốc tương ứng của chúng được biểu diễn bởi các khung hình chữ nhật màu xanh lá cây và màu vàng. b) một số lỗi xuất hiện trong bước phát hiện: phát hiện bộ phận cơ thể người hoặc bounding box chứa nhiều hơn một người. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 3.16 Ví dụ về kết quả thu được trong bước theo vết a) tracklet hoàn hảo, b) chuyển đổi ID, và c) một tracklet chỉ có một vài bounding box.92 3.17 Ví dụ kết quả đạt được trong bước tái định danh a) so khớp đúng and b) so khớp sai. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.1 Kỹ thuật cắt tỉa mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.2 Kỹ thuật lượng tử hóa trọng số của mạng nơ-ron . . . . . . . . . . . . 98 4.3 Biểu đồ phân bố các giá trị trọng số hoặc giá trị kích hoạt . . . . . . 102 4.4 Sự khác biệt giữa ReLU và CReLU [73] . . . . . . . . . . . . . . . . . 102 4.5 Kiến trúc luồng cho bộ tăng tốc mạng tích chập. . . . . . . . . . . . 103 4.6 Cấu trúc mạng VGG16-SSD . . . . . . . . . . . . . . . . . . . . . . . . 105 4.7 Một số ví dụ về sự phân bố các giá trị kích hoạt trong một vài lớp của mô hình VGG-16 với 10.000 ảnh của CSDL CIFAR-10. . . . . 107 xii
MỞ ĐẦU 1. Tính cấp thiết Thị giác máy tính (Computer Vision) là một trong những lĩnh vực đã và đang nhận được nhiều quan tâm của cộng đồng nghiên cứu. Trong bất kỳ một hệ thống thị giác máy tính nào, thành phần phân tích nội dung ảnh/video để đưa ra những thông tin hữu ích đóng vai trò rất quan trọng. Ngày nay, với sự phát triển mạnh mẽ của các mô hình học máy, đặc biệt là học sâu thực sự đã đem lại những cải tiến đáng kể cho thành phần này. Tuy nhiên, hiệu quả của các mô hình học máy lại chịu ảnh hưởng lớn bởi phương pháp trích chọn đặc trưng dữ liệu đầu vào. Chính vì vậy, nghiên cứu các phương pháp trích chọn đặc trưng hiệu quả luôn cần thiết. Bên cạnh đó, trong rất nhiều các bài toán của thị giác máy tính, tái định danh người thực sự là một bài toán được các nhà khoa học quan tâm, tuy rất nhiều thách thức nhưng lại mang tính ứng dụng cao. Tái định danh người có thể được hiểu đơn giản là so khớp các hình ảnh người được thu nhận bởi các cặp camera không có sự chồng lấn về trường quan sát. Khởi nguồn từ năm 1966, Seymour Papert và Marvin Minsky, hai nhà tiên phong về trí tuệ nhân tạo, đã khởi động một dự án mang tên "Summer Vision Project" nhằm tạo ra một hệ thống máy tính có thể nhận dạng các vật thể trong ảnh. Vào thời điểm thực hiện dự án này, công nghệ chủ đạo được áp dụng chỉ là trí tuệ nhân tạo dựa trên tập luật (rule-based AI), bản chất là tìm ra các quy tắc để phát hiện ra đối tượng được con người xác lập dựa trên tri thức và kinh nghiệm. Hướng tiếp cận này đã không đem lại hiệu quả cao do không thể thiết kế được một quy tắc tổng quát cho những thể hiện đa dạng của đối tượng trong ảnh. Hướng tiếp cận khác là dựa trên học máy hoặc tiếp cận dựa trên nhận dạng mẫu. Các giải thuật học máy được thiết kế để tìm ra các mẫu hoặc các quy luật tri thức từ dữ liệu, từ đó tự suy ra các luật và dự đoán cho các dữ liệu có dạng tương tự gặp được sau khi huấn luyện. Đây là phương pháp học dựa trên dữ liệu và buộc phải có dữ liệu hay các quan sát trước từ môi trường. Khác với phương pháp tiếp cận dựa trên luật ở trên, từ dữ liệu trong trường hợp cụ thể để suy ra các luật ẩn trong dữ liệu nhằm dự đoán và sử dụng cho trường hợp tổng quát hoặc các dữ liệu khác tương tự. Dựa trên các quan sát thu được về dữ liệu, học máy có thể cải thiện độ chính xác theo thời gian. Đây là hướng tiếp cận chủ yếu của trí tuệ nhân tạo hiện nay. Gần đây, các mạng Nơ-ron nhân tạo học sâu (DNN - Deep Neural Network) đã tạo ra những đột phá mới, cho 1
phép cải tiến đáng kể hiệu năng cho nhiều bài toán. Nhờ những tiến bộ của các mạng học sâu, lĩnh vực thị giác máy tính cũng ngày càng có những bước phát triển nhảy vọt với các kết quả đáng kinh ngạc. Khi giải quyết các bài toán cơ bản của lĩnh vực thị giác máy tính bằng học máy, trích trọn đặc trưng ảnh/video là một trong những yếu tố đóng vai trò quan trọng, quyết định hiệu quả của hệ thống. Trích chọn đặc trưng cho phép giữ lại các đặc điểm quan trọng nhất của đối tượng cần nhận dạng trên ảnh, từ đó có thể loại bỏ dư thừa, nhiễu cũng như tạo ra biểu diễn cô đọng hơn cho đối tượng thay vì các thông tin điểm ảnh như ban đầu. Một đặc trưng được gọi là hiệu quả nếu nó biểu diễn được các đặc điểm riêng mang tính phân biệt của đối tượng này so với các đối tượng khác. Hiện nay, có hai hướng tiếp cận chính cho bài toán trích chọn đặc trưng đối tượng trong ảnh/video: (1) trích chọn thủ công (hand-designed/handcrafted features) và (2) trích chọn tự động thông qua các mạng học sâu, hay còn được gọi là các đặc trưng học sâu (deep-learned features). Các phương pháp trích chọn đặc trưng thủ công có thể khai thác những thông tin về màu sắc (color), hình dạng (shape), hoặc kết cấu (texture)... của ảnh một cách tường minh. Chúng được trích chọn theo một giải thuật đã được thiết kế cố định từ trước dựa trên kinh nghiệm của các chuyên gia. Mặc dù các loại đặc trưng thủ công này đem lại nhiều kết quả tốt cho các hệ thống thị giác máy tính nhưng việc áp dụng các đặc trưng thủ công vẫn tồn tại một số hạn chế như: mỗi loại đặc trưng thủ công đều hướng tới khai thác một đặc điểm nào đó của đối tượng quan sát do đó đặc trưng này chỉ thực sự hiệu quả đối với một loại dữ liệu nhất định; số lượng các đặc trưng thủ công là có hạn trong khi dữ liệu thực tế là vô hạn và rất đa dạng do có sự biến đổi lớn trong thực tế; việc triển khai các hệ thống sử dụng các đặc trưng thủ công cần có nhiều kinh nghiệm của các chuyên gia trong việc lựa chọn loại đặc trưng phù hợp cho bài toán được triển khai. Trong khi đó, các mạng học sâu ra đời theo cách tương tự như việc con người học tập từ dữ liệu thực tế. Nhờ đó máy tính có thể tự động tìm ra cách thức trích chọn đặc trưng phù hợp cho loại dữ liệu mới thay cho con người. Đặc trưng được trích chọn theo phương pháp này được gọi là đặc trưng học sâu. Hướng tiếp cận này đã giải quyết được một số hạn chế của đặc trưng thủ công khi không còn quá phụ thuộc vào kinh nghiệm của các chuyên gia trong quá trình trích chọn đặc trưng. Cùng với sự ra đời của các kiến trúc mạng học sâu, cách tiếp cận để giải quyết các bài toán cơ bản của thị giác máy tính cũng dần thay đổi. Ví dụ như bài toán phát hiện đối tượng trên ảnh. Lịch sử phát triển các giải thuật phát hiện và nhận dạng đối tượng trên ảnh gắn liền với lịch sử phát triển của các giải thuật trích trọn đặc trưng. Điều này được thể hiện trong Hình 1 với những mốc thời gian quan trọng. Trong đó năm 2012 với sự ra đời của mạng AlexNet [1] có thể coi như là 2
Deep Learning for Generic Object Detection: A Survey 3 RCNN ResNet Efficient Subwindow Search (Lampert et al.) (Girshick et al.) (He et al.) Improved FV GoogLeNet Region Covariance (Perronnin et al.) (Szegedy et al.) DenseNet (Tuzel et al.) Focus of this survey (Huang et al.) SIFT Cascades HOG DPM DCNN AlexNet VGGNet (Lowe) (Viola and Jones) (Dalal and Triggs) (Felzenszwalb et al.) (Krizhevsky et al.) (Simonyan and Zisserman) 99 01 03 2004 005 20 06 08 09 10 11 12 13 2014 2015 16 19 20 20 2 20 20 20 20 20 20 20 Bag of Words SPM HOG-LBP Selective Search (Sivic and Zisserman) (Wang et al.) (Van de Sande et al.) MS COCO (Lazebnik et al.) Fast RCNN (Ross Girshick) Mask RCNN PASCAL ImageNet OverFeat (He et al.) SURF VOC (Sermanet et al.) (Bay et al.) Faster RCNN (Ren et al.) Fig. 4 Milestones of object detection and recognition, including feature representations [47, 52, 101, 140, 147, 178, 179, 212, 248, 252, 263, 276, 279], detection frameworks [74, 85, 239, 271, 276], and datasets [68, 166, 234]. The time period up to 2012 is dominated by handcrafted features, a transition took place in 2012 Hình 1: Các mốc lịch sử về phát hiện và nhận dạng đối tượng bao gồm các phương pháp trích chọn with the development of DCNNs for image classification by Krizhevsky et al. [140], with methods after 2012 dominated by related deep networks. Mostof the đặc trưng listed methods[2] are highly cited and won a major ICCV or CVPR prize. See Section 2.3 for details. Table 1 Summary of related object detection surveys since 2000. một mốcNo.thời gianSurvey cho Title sự bắt đầu Monocular Pedestrian Detection: Survey and củaVenuecác đặc trưng Ref. Year học Content sâu. An evaluation of three pedestrian detectors 1 [66] 2009 PAMI Experiments Về cấu2 trúc, Survey of trong mỗi Pedestrian Detection mô hình for Advanced [79] 2010 họcPAMIsâuA survey đềuof pedestrian chứa một khối quan trọng phục detection for advanced driver assistance systems Driver Assistance Systems vụ cho việc 3 trích chọn đặc trưng[59]tự2012động Pedestrian Detection: An Evaluation of the State of The Art PAMI từ các dữ liệu đầu vào, được gọi chung A thorough and detailed evaluation of detectors in monocular images 4 Detecting Faces in Images: A Survey [294] 2002 PAMI First survey of face detection from a single image là mạng lõi 5 A(backbone). Survey on Face Detection in the Các tham Wild: Past, số của [301] 2015 CVIU mạngA survey nàyof facesẽdetection được cập nhật trong quá in the wild since 2000 Present and Future trình học6 từ Ontập dữDetection: Road Vehicle liệuA Review huấn [258] luyện. 2006 Dữ liệu PAMI A reviewhuấn luyện of vision based càng on-road vehicle detection nhiều, systems càng đa 7 Text Detection and Recognition in Imagery: A [295] 2015 PAMI A survey of text detection and recognition in color imagery dạng thì càng có khả Survey năng tạo ra được mộtRepresentative bộ tham số tốt cho mô hình. Các papers on object categorization, detection, and 8 Toward Category Level Object Recognition [215] 2007 Book segmentation thành phần 9 Thekhác Evolution ofcủa mô hình Object Categorization and the học sâu có thể là một bộ phân lớp, bộ phát hiện [56] 2009 Book A trace of the evolution of object categorization over four decades Challenge of Image Abstraction đối tượng10 hoặc bộ phân đoạn Context based Object Categorization: A Critical Survey ảnh,... tuỳ [78] 2010 CVIU vào từng ứng dụng cụ thể. Trong nhiều A review of contextual information for object categorization 11 50 Years of Object Recognition: Directions [5] 2013 CVIU A review of the evolution of object recognition systems over five decades trường hợp thuật ngữ Forward mô hình học sâu và mạng học sâu được sử dụng thay thế Instance and category object recognition techniques 12 Visual Object Recognition [91] 2011 Tutorial lẫn nhau.13 MặcObjectdùClasscác Detection:mạng A Survey học [310] sâu cóCSkhả năng 2013 ACM làm Survey of generic việcmethods object detection vớibefore hầu 2011 hết các loại Feature Representation for Statistical Learning Feature representation methods in statistical learning based object 14 [160] 2015 PR dữ liệu và15 bàiSalient toán khác nhau nhưng based Object Detection: A Review Object Detection: A Survey [19] 2014 trongdetection, arXiv thực tế, để có được những mô hình including handcrafted and deep learning based features A survey for salient object detection Representation Learning: A Review and New Unsupervised feature learning and deep learning, probabilistic models, học sâu phù 16 hợp với bài toán cụ Perspectives thể PAMI [13] 2013 cũng cóautoencoders,nhiều thách manifold learning, andthức. deep networksHiện nay, Có 17 Deep Learning [149] 2015 Nature An introduction to deep learning and applications rất nhiều18 kiến A Survey trúc mạng on Deep Learning Analysis in Medicalhọc Image sâu khác nhau [170] 2017 MIA A survey cùng với of deep learning các for image biến classification, object thể segmentation and registration in medical image analysis detection, của chúng Recent Advances in Convolutional Neural A broad survey of the recent advances in CNN and its applications in đã được đề 19 xuất. Mỗi Networkskiến trúc mạng học sâucomputer [92] 2017 PR đềuvision,cóspeech những ưu processing and natural language điểm và hạn chế 20 Tutorial: Tools for Efficient Object Detection −2015 ICCV15 A short course for object detection only covering recent milestones riêng. Do21 đó, việc nghiên cứu và cải Tutorial: Deep Learning for Objects and Scenes − tiến các 2017 CVPR17 A highmạng level summary ofhọc sâu recent work on deepvẫn luôn learning for recognition of objects and scenes visual là chủ đề A short course of recent advances on instance level recognition, including được quan 22 tâm nhu: Tutorial: cải Instance Level tiến kiến 2017trúc Recognition − ICCV17 mạng, chiến object detection, lược huấn instance segmentation and human pose luyện prediction và tối ưu A tutorial on methods and principles behind image classification, object hoặc đơn2324giản Tutorial: Visual Recognition and Beyond là lựa chọn mạng phù Deep Learning for Generic Object Detection Ours 2019 −2018 CVPR18 hợp VISI vớidetection, bàiinstancetoán. segmentation, and semantic segmentation. A comprehensive survey of deep learning for generic object detection Như chúng ta thấy, thị giác máy tính một lĩnh vực rộng lớn với nhiều bài toán the paper khác with an Trong nhau. overall discussion đó tái of object định detection, danh state-of- hay còn được gọi là định danh lại người là the- art performance, and future research directions. một bài toán đã và đang thu hút được nhiều sự quan tâm trong thời gian gần đây. Nó không những liên quan trực tiếp đến vấn đề trích chọn đặc trưng đối tượng trên ảnh/video mà nó còn liên quan mật thiết đến các vấn đề cơ bản khác của thị giác máy tính như: phát hiện đối tượng và theo vết đối tượng. Trong bài toán tái định danh, đối tượng ở đây có thể là người, xe cộ hay bất kỳ vật thể hữu hình nào. Các kết quả nghiên cứu cho bài toán này có thể được áp dụng vào các hệ thống tìm kiếm người thông qua camera giám sát trong thực tế. Rất nhiều các bài toán trong thị giác máy tính trong đó có tái định danh người đang được tiếp cận nhiều theo hướng sử dụng học sâu. Tuy nhiên học sâu cũng có 3
những nhược điểm của nó, nhược điểm lớn nhất của nó phải kể đến đó là kích thước của các mô hình học sâu thường lớn. Điều này gây cản trở việc triển khai các mạng học sâu trên các thiết bị phần cứng có nguồn tài nguyên hạn chế. Do vậy rất cần những nghiên cứu để giảm kích thước cho các mạng học sâu. Như vậy, việc nghiên cứu và phát triển các phương pháp trích chọn đặc trưng dựa trên học sâu trong tái định danh người là rất cần thiết ở thời điểm hiện tại. 2. Mục tiêu nghiên cứu Luận án tập trung nghiên cứu và phát triển các mô hình học sâu nhằm cải thiện chất lượng đặc trưng ảnh/video thu được trong bài toán tái định danh người. Các mục tiêu cụ thể của Luận án như sau: − Nghiên cứu, đề xuất phương pháp trích chọn đặc trưng ảnh hiệu quả cho tái định danh người dựa trên học sâu. Trích chọn đặc trưng ảnh là bước quan trọng, mang tính chất quyết định chất lượng bước đối sánh ảnh từ đó quyết định chất lượng tái định danh. Do vậy, đặc trưng thu được từ phương pháp đề xuất phải có tính phân biệt cao giữa hai ảnh hai người khác nhau tương ứng, đồng thời có tính tương đồng cao giữa hai ảnh của cùng một người. Ngoài ra, nhằm hướng tới các ứng dụng có thể dễ dàng triển khai trong nhiều điều kiện thực tế, mục tiêu nghiên cứu được mở rộng hơn bao gồm nén mạng học sâu hướng tới triển khai trên các thiết bị phần cứng. − Cải tiến mô hình tái định danh người, trong đó dựa trên các kiến trúc mạng học sâu Nơ-ron hồi quy để tổng hợp đặc trưng mức chuỗi ảnh (video). Trong trường hợp sử dụng chuỗi hình ảnh (videos) thay cho hình ảnh đơn lẻ, mô hình tái định danh người có thể được cải tiến bằng cách nâng cao chất lượng đặc trưng cho chuỗi hình ảnh người. Với hướng tiếp cận dựa trên học sâu, các kiến trúc mạng Nơ-ron hồi quy sẽ được nghiên cứu để giải quyết vấn đề này. Ngoài ra, chất lượng tái định danh không chỉ phụ thuộc vào phương pháp trích chọn đặc trưng mà nó còn phụ thuộc vào phương pháp phát hiện, theo vết, giải thuật so khớp các đặc trưng. Do đó các giải thuật phát hiện và theo vết đối tượng và các giải thuật đối sánh đặc trưng cũng sẽ được nghiên cứu để nâng cao chất lượng mô hình tái định danh người. 3. Đối tượng, phạm vi nghiên cứu và thách thức Với các mục tiêu đặt ra như trên, đối tượng nghiên cứu chính của luận án được xác định là các phương pháp trích chọn đặc trưng ảnh/chuỗi ảnh dựa trên học sâu. Phạm vi nghiên cứu là bài toán tái định danh người, trong đó tập chung vào vấn đề so khớp hình ảnh/chuỗi ảnh dựa trên đặc trưng học sâu. Bên cạnh 4
đó, các vấn đề liên quan khác như phát hiện, theo vết đối tượng dựa trên học sâu, nén mạng học sâu và các giải thuật nâng cao độ chính xác cho so khớp đặc trưng cũng là những nội dung thuộc phạm vi nghiên cứu của luận án. Phát hiện, theo vết và tái định danh người Ngữ cảnh của phát hiện, theo vết và tái định danh người được xem xét trong một hệ thống tái định danh người hoàn chỉnh được chỉ ra như trên Hình 2. Trong hệ thống đó, các đối tượng di chuyển giữa các trường quan sát khác nhau (không chồng lấn) của các hệ thống camera giám sát. Dữ liệu hình ảnh/video được xử lý thông qua ba khối chính, bao gồm: Camera 1 Đặc trưng So khớp Bảng xếp Camera 2 hạng Đặc trưng Thu nhận hình ảnh Phát hiện người Theo vết người Tái định danh người Hình 2: Một hệ thống tái định danh đầy đủ. Phạm vi bài toán tái định danh được đánh dấu bởi vùng màu đỏ − Phát hiện người: Mục đích của bước phát hiện người là xác định vùng không gian ảnh chứa đối tượng cần quan tâm (người), vùng này thường được đánh dấu là một hình chữ nhật bao trọn đối tượng (bbox - bounding box). − Theo vết người: Một bộ theo vết đối tượng (tracker) thực hiện giải thuật dự đoán và kết nối các vùng không gian chứa cùng một đối tượng trên các khung hình liên tiếp. Hay nói cách khác là xác định được quỹ đạo di chuyển của từng người trong vùng quan sát của một camera duy nhất. Kết quả thu được là một tập các vùng đánh dấu chứa người (bbox) và các tracklet tương ứng với mỗi người xuất hiện trong vùng quan sát của camera. − Tái định danh: Kết quả theo vết được dùng là đầu vào bước tái định danh thể hiện bằng khối cuối cùng được đánh dấu màu đỏ trong Hình 2. Khối này là trọng tâm nghiên cứu của luận án. Tái định danh có nhiệm vụ so khớp (matching) hình ảnh của những người thu được từ các cặp camera khác nhau. Thao tác này được thực hiện bằng cách so khớp các cặp đặc trưng ảnh/video tương ứng. Trong đó tập hợp các hình ảnh thu được từ camera dùng để truy 5
vấn được gọi là tập thăm dò (probe) nhiều khi còn được gọi là tập truy vấn, tập hình ảnh thu được từ camera còn lại được gọi là tập được truy vấn hay tập tìm kiếm (gallery). Nhờ việc so khớp này trên từng cặp camera, kết hợp với cấu trúc mạng lưới camera giám sát đã biết từ trước mà từ đó có thể xác định đường đi của từng người trong vùng quan sát của mạng lưới camera giám sát. Trên thực tế, việc tìm ra lời giải cho bài toán tái định danh này phụ thuộc rất nhiều vào điều kiện áp dụng (ràng buộc). Tùy vào các điều kiện áp dụng cụ thể mà bài toán tái định danh được phân thành các loại khác nhau. + Dựa vào số lượng hình ảnh được sử dụng để đại diện cho một người (ID) thì bài toán tái định danh được chia thành 2 loại: Tái định danh sử dụng đơn hình ảnh (Single-shot) và tái định danh sử dụng chuỗi ảnh (Multi-shot). Trong khi loại đơn hình ảnh chỉ sử dụng một hình ảnh cho mỗi người trên 1 camera thì loại chuỗi hình ảnh lại sử dụng cả một chuỗi hình ảnh (video) để đại diện cho một người trên 1 camera. + Dựa vào việc không có hay có sự khác nhau (định danh) giữa những người xuất hiện trong tập truy vấn và tập thư viện mà người ta chia thành 2 loại: Bài toán tái định danh cho tập dữ liệu đóng - tập đóng (Close set) và bài toán tái định danh cho tập dữ liệu mở - tập mở (Open set). Trong trường hợp tập đóng, hình ảnh người được truy vấn chắc chắn có trong tập tìm kiếm. khi đó tái định danh là xác định người nào trong tập thư viện phù hợp nhất với người được truy vấn. Đối với trường hợp tập mở, vấn đề trở nên khó khăn hơn khi người được truy vấn sẽ có thể không tồn tại trong tập thư viện. + Dựa vào sự chênh lệch về thời điểm thu nhận tập ảnh truy vấn và tập ảnh thư viện mà người ta phân bài toán tái định danh thành 2 loại: Bài toán tái định danh ngắn hạn (Short term) và dài hạn (Long term). Tái định danh ngắn hạn ít thách thức do những người xuất hiện trong hình ảnh vẫn chưa có nhiều sự thay đổi trang phục và diện mạo trong quá trình di chuyển từ vùng quan sát của camera này sang vùng quan sát của camera khác, ngược lại loại dài hại sẽ thách thức hơn nhiều khi mà thời điểm thu nhận hình ảnh truy vấn bởi camera này và hình ảnh tìm kiếm bởi camera khác cách nhau một khoảng thời gian dài. Khi đó, rất có thể xảy ra sự khác biệt lớn về diện mạo, trang phục cũng như các điều kiện ngoại cảnh ảnh hưởng đến chất lượng hình ảnh thu nhận được. Các bước phát hiện, theo vết và tái định danh đều đóng vai trò quan trọng đối với một hệ thống tái định danh trong thực tế. Trong mỗi bước, vấn đề trích 6