intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Tóm tắt Luận văn Thạc sĩ kỹ thuật: Ứng dụng mạng nơ ron tích chập nhận dạng các đối tượng di động

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:27

30
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài “Ứng dụng mạng Nơ ron tích chập nhận dạng các đối tượng di động” được thực hiện nhằm mục tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận dạng các đối tượng tĩnh và di động, đưa ra các đánh giá độ chính xác của mô hình trong trường hợp tín hiệu đầu vào lúc bình thường và nhiễu.

Chủ đề:
Lưu

Nội dung Text: Tóm tắt Luận văn Thạc sĩ kỹ thuật: Ứng dụng mạng nơ ron tích chập nhận dạng các đối tượng di động

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN NAM ỨNG DỤNG MẠNG NƠ RON TÍCH CHẬP NHẬN DẠNG CÁC ĐỐI TƯỢNG DI ĐỘNG Chuyên ngành: Kỹ thuật điều khiển và tự động hóa Mã số: 8520216 LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2020
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA Người hướng dẫn khoa học: TS. NGÔ ĐÌNH THANH Phản biện 1: TS. Phan Văn Hiền Phản biện 2: TS. Nguyễn Bê Luận văn được bảo vệ tại Hội đồng chấm luận văn tốt nghiệp thạc sĩ chuyên ngành Kỹ thuật điều khiển và tự động hóa họp tại Trường Đại học Bách khoa vào ngày 18 tháng 1 năm 2020 Có thể tìm hiểu luận văn tại: - Trung tâm thông tin-Học liệu, Đại học Đà Nẵng - Thư viện trường Đại học Bách khoa Đà Nẵng
  3. 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Những năm gần đây, việc ứng dụng các mô hình Deep Learning vào trong thực tế được nhiều nhà khoa học quan tâm tham gia nghiên cứu, nổi trội trong đó là mô hình mạng Nơ ron tích chập (CNN - Convolutional Neural Networks) [1], [2], [3] như một ứng cử viên sáng giá để giải quyết các vấn đề như: xử lý dữ liệu đầu vào lớn; xử lý online; nâng cao độ chính xác và khả năng xử lý nhiễu đầu vào. Để thực hiện được những yêu cầu trên mô hình CNN cũng trải qua các cải tiến cụ thể: Mạng Nơ ron tích chập khu vực (R-CNN - Regional convolutional neural networks) [4], [5], [6]; Mạng Nơ ron tích chập khu vực nhanh (Fast R-CNN - Fast region-based convolutional neural networks) [7]; Mạng Nơ ron tích chập khu vực nhanh hơn (Faster R- CNN - Faster region-based convolutional neural networks) [8], [9]. Trong đó, mô hình Faster R-CNN không dùng thuật toán tìm kiếm chọn lọc để lấy ra các khu vực, mà nó thêm một mạng CNN mới gọi là mạng đề xuất khu vực (RPN - Region Proposal Networks) để tìm các khu vực [8]. Đầu tiên cả bức ảnh được cho qua mô hình huấn luyện trước để lấy bản đồ đặc trưng. Sau đó bản đồ đặc trưng được dùng cho RPN để lấy được các khu vực, sau khi lấy được vị trí các khu vực thì thực hiện tương tự Fast R-CNN [7]. Độ chính xác nhận dạng là một yếu tố quan trọng của mô hình khi ứng dụng vào trong thực tế, khi đầu vào bị nhiễu (nhiễu: hình ảnh trong môi trường trời tối, trời mưa hoặc ảnh bị che khuất một phần…) nó ảnh hưởng đến quá trình nhận dạng như thế nào? Do vậy, trong nghiên cứu này sẽ cho thấy được sự ảnh hưởng của nhiễu ở đầu vào lên độ chính xác trong nhận dạng của mô hình Faster R-CNN.
  4. 2 Với những lý do trên, tôi quyết định chọn nghiên cứu đề tài: “Ứng dụng mạng Nơ ron tích chập nhận dạng các đối tượng di động”. Mục tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận dạng các đối tượng tĩnh và di động, đưa ra các đánh giá độ chính xác của mô hình trong trường hợp tín hiệu đầu vào lúc bình thường và nhiễu. 2. Mục tiêu của đề tài Mục tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận dạng các đối tượng tĩnh và di động, đưa ra các đánh giá độ chính xác của mô hình trong trường hợp tín hiệu đầu vào lúc bình thường và nhiễu. Từ đó tiến hành xây dựng mô hình nhận dạng các đối tượng từ một hình ảnh, một đoạn video hoặc từ camera online. Đánh giá về khả năng ứng dụng mô hình Faster R-CNN để phân loại loài hoa, nhận dạng hệ động thực vật rừng di động. 3. Đối tượng và phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu: - Cơ sở dữ liệu trên hình ảnh, video trên Google - Cơ sở lý thuyết về nhận dạng các đối tượng - Các phương pháp, giải thuật về nhận dạng đối tượng - Thuật toán mạng Nơ ron tích chập 3.2 Phạm vi nghiên cứu: - Nghiên cứu về các kỹ thuật nhận dạng các đối tượng từ hình ảnh - Nghiên cứu nhận dạng đối tượng tĩnh và di động 4. Cách tiếp cận, phương pháp nghiên cứu 4.1 Cách tiếp cận - Tìm hiểu nghiên cứu các tài liệu liên quan đến đề tài trên các tạp chí trong và ngoài nước, trên các trang diễn đàn kỹ thuật, nguồn tư liệu từ các trang mạng internet như Google, YouTube…
  5. 3 4.2 Phương pháp nghiên cứu 4.2.1 Phương pháp lý thuyết: - Tìm hiểu cơ sở lý thuyết về xử lý hình ảnh, xử lý video … - Tìm hiểu cơ sở lý thuyết về thuật toán mạng Nơ ron tích chập - Các tài liệu liên quan đến nhận dạng các đối tượng từ hình ảnh, video, từ kho dữ liệu Google 4.2.2 Phương pháp thực nghiệm: - Xây dựng mô hình Faster R-CNN để nhận dạng đối tượng tĩnh và di động - Kiểm tra đánh giá độ chính xác mô hình Faster R-CNN nhận dạng thực nghiệm 10 loài hoa trong trường hợp hình ảnh đưa vào lúc bình thường và nhiễu. 5. Cấu trúc luận văn Phần mở đầu Chương 1: Tổng quan về thuật toán nhận dạng Chương 2: Xây dựng và huấn luyện mô hình Faster R-CNN Chương 3: Kết quả thực nghiệm và đánh giá độ chính xác mô hình Faster R-CNN Kết luận CHƯƠNG 1 - TỔNG QUAN VỀ THUẬT TOÁN NHẬN DẠNG Tổng quan về nhận dạng các đối tượng 1.1.1. Khái niệm về nhận dạng Nhận dạng mẫu là một ngành thuộc lĩnh vực máy học. Nói cách khác, nó có thể được xem là việc "cần thực hiện một tác động” vào dữ liệu thô mà tác động cụ thể là gì sẽ tùy vào loại của dữ liệu đó. Như vậy nó là một tập các phương pháp học có giám sát.
  6. 4 Nhận dạng mẫu nhằm mục đích phân loại dữ liệu dựa trên là kiến thức đi trước hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn. Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp. Đó là không gian của các đặc tính để dựa vào đó ta có thể phân loại. 1.1.2. Các khó khăn trong việc nhận dạng đối tượng 1.1.2.1. Tư thế , góc chụp 1.1.2.2. Sự xuất hiện hoặc thiếu một số thành phần 1.1.2.3. Sự biến dạng của đối tượng 1.1.2.4. Sự che khuất 1.1.2.5. Sự phức tạp của hình nền 1.1.2.6. Môi trường của ảnh 1.1.3. Các ứng dụng trong nhận dạng đối tượng hiện nay 1.1.4. Tổng quan kiến trúc một hệ thống nhận dạng đối tượng 1.1.5. Tổng quan về nhận dạng hoa Hệ thống nhận dạng hoa là một ứng dụng máy tính tự động xác định hoặc nhận dạng loại hoa nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một nguồn video. Một trong những cách để thực hiện điều này là so sánh các đặc điểm trên các loại hoa chọn trước từ hình ảnh và một cơ sở dữ liệu về loại hoa đó. Từ tập dữ liệu sau khi huấn luyện, sẽ lấy được các đặc trưng của các loại hoa. Hệ thống sẽ so sánh với hình ảnh thu về từ camera trực tiếp qua ứng dụng để cho ra kết quả đó là loại hoa gì. Đồng thời xuất ra các thông tin cơ bản của loại hoa đó như tên hoa, đặc điểm, nguồn gốc của hoa.
  7. 5 Hình 1.1: Nhận dạng hoa mai Tổng quan về mạng Nơ ron Mạng Nơ ron được xây dựng dựa trên những hiểu biết về bộ não con người. Mạng bao gồm một loạt các đơn vị liên kết khác nhau, nó là một ánh xạ giữa tập đầu vào và tập đầu ra. Mỗi đơn vị này gọi là một Nơ ron. Hai loại Nơ ron nhân tạo quan trọng là perceptron và sigmoid Nơ ron. Perceptron được phát triển trong những năm 1950-1960 bởi nhà khoa học Frank Rosenblatt dựa trên cảm hứng từ nghiên cứu trước đó của Warren McCulloch và Walter Pitts. Cách thức hoạt động của perceptrons là sử dụng một vài đầu vào nhị phân x1, x2… và tạo ra một đầu ra nhị phân như hình 1.2. Hình 1.2: Cách thức perceptron hoạt động Giả sử perceptrons có ba đầu vào: x1, x2, x3. Để tính toán đầu ra chúng ta giả sử các trọng số w1, w2, w3… là các số thực diễn tả độ quan trọng của đầu vào tương ứng. Đầu ra của Nơ ron là 0 hay 1 được
  8. 6 xác định thông qua so sánh tổng xích ma của các tích wj*xj với một giá trị ngưỡng theo biểu thức sau: 0 if  j w j x j  threshold output    1 if  j w j x j  threshold Tổng quan về mạng Nơ ron tích chập (CNN) 1.3.1. Kiến trúc mạng Nơ ron tích chập Mạng Nơ ron tích chập có kiến trúc khác với mạng Nơ ron thông thường. Mạng Nơ ron bình thường chuyển đổi đầu vào thông qua hàng loạt các tầng ẩn. Mỗi tầng là một tập các Nơ ron và các tầng được liên kết đầy đủ với các Nơ ron ở tầng trước đó. Và ở tầng cuối cùng sẽ là tầng kết quả đại diện cho dự đoán của mạng. Đầu tiên, mạng Nơ ron tích chập được chia thành 3 chiều: rộng, cao và sâu. Tiếp theo các Nơ ron trong mạng không liên kết hoàn toàn với toàn bộ Nơ ron kế đó nhưng chỉ liên kết tới một vùng nhỏ. Cuối cùng một tầng đầu ra được tối giản thành vector của giá trị xác suất. Hình 1.3: Mạng Nơ ron thông thường (trái) và CNN (phải) CNN gồm hai thành phần: - Phần tầng ẩn hay phần rút trích đặc trưng: trong phần này mạng sẽ tiến hành tính toán hàng loạt phép tích chập và phép hợp nhất (pooling) để phát hiện các đặc trưng. Ví dụ: nếu ta có hình ảnh con ngựa vằn thì trong phần này mạng sẽ nhận diện các sọc vằn, hai tai, và bốn chân của nó.
  9. 7 - Phần phân loại: tại phần này một lớp với các liên kết đầy đủ sẽ đóng vai trò như một bộ phân lớp các đặc trưng đã rút trích được trước đó. Tầng này sẽ đưa ra xác suất của một đối tượng trong hình 1.4. Hình 1.4: Lớp rút trích đặc trưng của ảnh (Conv, Relu và Pool) và Lớp phân loại (FC và softmax) 1.3.2. Trích rút đặc trưng 1.3.3. Phân loại Tổng quan về Faster R-CNN 1.4.1. Bài toán nhận dạng vật thể Hình 1.5: Nhận dạng hoa đồng tiền Bài toán object detection có đầu vào là ảnh màu và đầu ra là vị trí của các vật thể trong ảnh. Ta thấy nó bao gồm hai bài toán nhỏ: - Xác định các khung quanh vật thể. - Với mỗi khung thì cần phân loại xem đấy là vật thể gì với bao nhiêu phần trăm chắc chắn. 1.4.2. Mạng Nơ ron tích chập khu vực (R-CNN) Ý tưởng thuật toán R-CNN khá đơn giản:
  10. 8 Bước 1: Dùng thuật toán tìm kiếm chọn lọc để lấy ra khoảng 2000 khu vực trong ảnh đầu vào mà có khả năng chứa vật thể. Bước 2: Với mỗi khung ta xác định xem nó là vật thể nào. 1.4.2.1. Thuật toán tìm kiếm chọn lọc 1.4.2.2. Phân loại khu vực được đề xuất 1.4.2.3. Vấn đề với R-CNN 1.4.3. Mạng Nơ ron tích chập khu vực nhanh (Fast R-CNN) Sau khi đã có đầu ra của các khu vực, chúng ta sẽ tìm hiểu về khái niệm anchors. Tại mỗi vị trí của cửa sổ trượt trên đặc trưng tích chập, chúng ta tạo ra k anchors tương ứng ở hình ảnh gốc. Trong nghiên cứu [7] tác giả sử dụng một hình vuông, 2 hình chữ nhật với tỉ lệ chiều rộng, chiều dài là 1×2 hoặc 2×1, cùng với 3 kích cỡ khác nhau, như vậy k= 3×3 = 9. Các anchors này sẽ được gán mác là tích cực hoặc tiêu cực dựa vào diện tích chồng chéo với ground truth box theo luật như sau. Các anchor được phân loại là tích cực nếu: - Là anchor có tỉ lệ diện tích chồng chéo trên diện tích chồng chéo (Intersection-over-Union) lớn nhất với một ground truth box. - Là anchor có tỉ lệ giao nhau với một ground truth lớn hơn 0.7. Các anchor được phân loại là tiêu cực nếu có giá trị IoU bé hơn 0.3. Tại sao phải tạo ra những anchors này. Câu trả lời gồm 2 nguyên nhân chính: - Dựa phân loại của anchor, để dự đoán xác suất chứa vật thể của các khu vực. - Dựa vào khoảng cách từ anchor đến ground truth box, để dự đoán vị trí của khung. Từ đây ta xác định được mục tiêu đầu ra của box-regression layer và box-classification được nhắc tới ở phần cấu trúc mạng RPN.
  11. 9 Box-classification dự đoán xác suất chứa vật thể của k khu vực được đề xuất, tương ứng với k anchor tại từng vị trí của sliding- window. Box-regression dự đoán khoảng cách từ anchor đến khung dữ liệu thật tương ứng. Tuy nhiên là kích thước của các khu vực khác nhau nên khi làm phẳng sẽ ra các vector có kích thước khác nhau nên không thể áp dụng neural network được. Nó đã thay đổi kích thước các khu vực về cùng kích thước trước khi dùng thay đổi cách học. Tuy nhiên ở bản đồ đặc trưng ta không thể thay đổi kích thước được, nên ta phải có cách khác để chuyển các khu vực trong bản đồ đặc trưng về cùng kích thước. ROI pooling ra đời. 1.4.3.1. Region of Interest pooling (ROI pooling) 1.4.3.2. Đánh giá giữa R_CNN và Fast R-CNN 1.4.4. Mạng Nơ ron tích chập khu vực nhanh hơn (Faster R-CNN) Faster R-CNN [8], [9] không dùng thuật toán tìm kiếm chọn lọc để lấy ra các khu vực, mà nó thêm một mạng CNN mới gọi là RPN để tìm các khu vực. Hình 1.6: Mô hình ROI pooling
  12. 10 1.4.4.1. Intersection over Union (IoU) 1.4.4.2. Kết quả của Faster R-CNN 1.4.4.3 Các bước thực hiện CHƯƠNG 2 - XÂY DỰNG VÀ HUẤN LUYỆN MÔ HÌNH FASTER R_CNN 2.1. Xây dựng môi trường thực nghiệm mô hình Faster R_CNN Môi trường thực nghiệm cho mô hình Faster R-CNN ở đây chính là xây dựng một bộ máy tính có cấu hình đủ mạnh (máy tính có card đồ họa rời) và được cài đặt đầy đủ các phần mềm ứng dụng bao gồm: - Các phần mềm hỗ trợ có mã nguồn mở và phần mềm lập trình như: tensorflow; Anaconda; CUDA, Python - Cài đặt file môi trường: là không gian chứa file chương trình và nơi cài đặt các thư viện hỗ trợ cho mô hình. - Cài đặt các thư viện hỗ trợ như tensorflow-gpu, opencv-python, pandas, … 2.1.1. Cấu hình phần cứng cho môi trường thực nghiệm mô hình Nghiên cứu được thực nghiệm trên máy tính PC có cấu hình: main H310; Bộ xử lý (CPU): Core I7 8700es 6 nhân 12 luồng; Bộ nhớ (RAM): 16GB bus 1600GHz; Ổ cứng (SSD): 240GB; Card đồ họa (VGA): GTX 1060. 2.1.2. Các phần mềm hỗ trợ và phần mềm lập trình 2.1.2.1. Phần mềm CUDA 2.1.2.2. Phần mềm Anaconda 2.1.2.3. Phần mềm Python 2.1.2.4. Phần mềm Tensorflow 2.1.2.5. Cài đặt file môi trường 2.1.2.6. Cài đặt các thư viện hỗ trợ
  13. 11 2.1.3. Cài đặt file môi trường 2.1.4. Cài đặt các thư viện hỗ trợ 2.2. Huấn luyện cho mô hình nhận dạng mười loài hoa Để thực nghiệm mô hình đạt kết quả tốt thì quá trình thu thập tập dữ liệu để huấn luyện cho mô hình học là rất quan trọng. Ở nghiên cứu này tác giả chọn thực nghiệm nhận dạng cho mười loài hoa nên việc thu thập dữ liệu chủ yếu được lấy từ mạng internet thông qua trang tìm kiếm Google. Đây cũng là một thuận lợi trong quá trình nghiên cứu. 2.2.1. Thu thập dữ liệu Tổng số hình ảnh thu thập để huấn luyện mô hình là 506 (ảnh) [17]. Các loài hoa được gán số thứ tự và được chia thành hai tập: tập dạy mô hình học (train) chiếm 80% trong tổng số hình ảnh; còn lại tập kiểm tra mô hình (test) chiếm 20%. Tập hình ảnh trong train và test được chọn một cách ngẫu nhiên. Số lượng hình ảnh từng loài hoa thu thập được thể hiện chi tiết tại bảng 2.1 Hình 2.1: Thu thập dữ liệu hoa hồng và hoa hướng dương 2.2.2. Gán nhãn cho các loài hoa Sử dụng phần mềm LabelImg để gán nhãn cho các loài hoa trong thư mục train và test. Trong mỗi hình ảnh ta lấy các khu vực (RPN) rồi gán nhãn như hình 2.2.
  14. 12 Tương tự ta thực hiện việc gán nhãn cho tất cả các loài hoa trong thư mục train và test. Số liệu cụ thể được thể hiện tại bảng 1 và dữ liệu được lưu tại [18]. Hình 2.2: Gán nhãn cho hoa hồng và hoa cẩm tú cầu Bảng 2.1: Bảng thu thập dữ liệu các loài hoa và gán nhãn Số lượng Số Số Số Số Tên lượng lượng lượng Tên gán nhãn TT loài hoa tổng train test 1 1 Cầu 55 44 11 Hydrangeas 2 2 Cúc 50 40 10 Chrysanthemum 3 Tiền3 41 33 8 Gerbera 4 4 Dương 45 36 9 Sun Flower 5 5 Hồng 57 46 11 Rose 6 6 Ly 55 44 11 Lily 7 7 Mai 51 41 10 Apricot Plossom 8 8 Sen 55 44 11 Lotus 9 9 Sứ 56 45 11 Porcelain Flower 10 10 Tiên 41 33 8 Narcissus Tổng 506 406 100 10 (loài hoa) Chú thích: 1) Hoa cẩm tú cầu; 2) Hoa Cúc; 3) Hoa đồng tiền; 4) Hoa hướng dương; 5) Hoa hồng; 6) Hoa ly; 7) Hoa mai; 8) Hoa sen; 9) Hoa sứ; 10) Hoa thủy tiên
  15. 13 2.2.3. Xây dựng chương trình huấn luyện Sau khi xây dựng được tập cơ sở dữ liệu tác giả tiến hành xây dựng chương trình mạng Nơ ron tích chập nhanh hơn (Faster R-CNN) để rút trích giá trị đặc trưng của đối tượng cần nhận dạng. Chương trình được viết trên phần mềm Python gồm hai file đó là: labelmap.py và faster_rcnn.py và được đặt trong folder trainning như hình sau: Hình 2.3: File chương trình huấn luyện 2.2.4. Huấn luyện cho mô hình (a) (b) Hình 2.4: a) Quá trình bắt đầu huấn luyện dữ liệu mô hình; b) Quá trình kết thúc huấn luyện dữ liệu mô hình 2.2.5. Dừng huấn luyện mô hình Trong quá trình huấn luyện thì việc dừng huấn luyện cho mô hình tác giả dựa vào đồ thị tensorboard, biểu đồ mất mát theo thời gian trong quá trình huấn luyện.
  16. 14 Hình 2.5: Biểu đồ mất mát theo thời gian của mô hình Faster R-CNN Biểu đồ tại hình 10 cho thấy từ bước 25000 trở đi thì độ mất mát khi huấn luyện dao động trong khoảng từ 0 đến 0.06. Như vậy, khi huấn luyện đến bước này thì có thể dừng huấn luyện cho mô hình học. Theo hình 4b tác giả dừng huấn luyện mô hình ở bước 45555 và nhận được kết quả 0.0214, là độ mất mát khi huấn luyện. Trung bình thời gian để huấn luyện một bước là 0.300 (giây/step) 2.2.6. Kết quả sau khi huấn luyện Sau khi kết thúc việc huấn luyện thì mô hình sẽ tạo ra các cơ sở dữ liệu như hình 2.6 Hình 2.6: Cơ sở dữ liệu sau khi huấn luyện mô hình học 2.3. Xây dựng chương trình nhận dạng cho đối tượng Sau khi huấn luyện và tạo các cơ sở dữ liệu, tác giả xây dựng chương trình nhận dạng đối tượng tĩnh và di động với nguồn đầu vào
  17. 15 nhận dạng là từ một hình ảnh, một video hoặc từ một camera online (webcam). Các file chương trình được viết trên ngôn ngữ Python như hình sau: Hình 2.7: Các file chương trình nhận dạng đối tượng 2.4. Thực nghiệm mô hình - Thực nghiệm mô hình Faster R-CNN với đối tượng tĩnh: Đối với đối tượng tĩnh tác giả tiến hành thực nghiệm với đối tượng đầu vào ở môi trường bình thường (ảnh trong môi trường có ánh sáng tốt) và nhiễu (ảnh bị che khuất 1/3; Ảnh bị che khuất 1/2; Ảnh trong môi trường thiếu ánh sáng). Qua đó tiến hành đánh gá độ chính xác của mô hình tương ứng với bốn trạng thái đầu vào trên. - Thực nghiệm mô hình Faster R-CNN với đối tượng di động: Đối với đối tượng di động tác giả thực nghiệm từ một nguồn đầu vào là một video với đối tượng di dộng hoặc thực nghiệm với nguồn đầu vào từ webcam với đối tượng di động. 2.1. Phương pháp đánh giá độ chính xác nhận dạng mô hình Faster R_CNN Lập bảng ma trận để đánh giá độ chính xác tổng thể mô hình, độ chính xác của quá trình nhận dạng dựa vào số mẫu (số ảnh) nhận dạng đúng chia cho tổng số mẫu (số ảnh) kiểm chứng đưa vào. Trong đó:
  18. 16 ĐCX: Độ chính xác quá trình nhận dạng SMNDĐ: Số mẫu nhận dạng đúng TSMKC: Tổng số mẫu kiểm chứng đưa vào CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC MÔ HÌNH FASTER R_CNN 3.1 Thực nghiệm mô hình Faster R-CNN 3.1.1. Thực nghiệm mô hình Faster R-CNN với đối tượng tĩnh 3.1.1.1. Thực nghiệm nhận dạng với đối tượng bình thườn Hình 3.1: Hình ảnh đối tượng nhận dạng ở môi trường bình thường Tại hình 3.1 tác giả đưa vào bốn hình ảnh để nhận dạng đó là: Hình 3.1a-hoa cẩm tú cầu; hình 3.1b-hoa cúc; hình 3.1c-hoa đồng tiền; hình 3.1d-hoa hồng, các hình ảnh này được tác giả chụp từ thực tế. Kết quả nhận dạng bởi mô hình Faster R-CNN được thể hiện tại hình 3.2.
  19. 17 Hình 3.2: Kết quả nhận dạng bởi mô hình 3.1.1.2. Thực nghiệm nhận dạng với đối tượng bị che khuất 1/3 Tại hình 3.3 tác giả đã tạo ra các hình ảnh với đối tượng nhận dạng bị che khuất khoảng 1/3 như hình 3.3a-hoa cẩm tú cầu; hình 3.3b-hoa cúc; hình 3.3c-hoa đồng tiền; hình 3.3d-hoa hồng. Kết quả nhận dạng bởi mô hình Faster R-CNN được thể hiện tại hình 3.4. Hình 3.3: Hình ảnh đối tượng nhận dạng bị che khuất 1/3
  20. 18 Hình 3.4: Kết quả nhận dạng các đối tượng bị che khuất 1/3 3.1.1.3. Thực nghiệm nhận dạng với đối tượng bị che khuất 1/2 Tại hình 3.5 tác giả đã tạo ra các hình ảnh với đối tượng nhận dạng bị che khuất khoảng 1/2 như hình 3.5a-hoa cẩm tú cầu; hình 3.5b-hoa cúc; hình 3.5c-hoa đồng tiền; hình 3.5d-hoa hồng. Kết quả nhận dạng bởi mô hình Faster R-CNN được thể hiện tại hình 3.6. Hình 3.5: Hình ảnh đối tượng nhận dạng bị che khuất ½
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2