intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Nghiên cứu phát triển thuật toán YOLO v5sRF nâng cao khả năng phát hiện mục tiêu nhỏ

Chia sẻ: Phó Cửu Vân | Ngày: | Loại File: PDF | Số trang:5

7
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Nghiên cứu phát triển thuật toán YOLO v5sRF nâng cao khả năng phát hiện mục tiêu nhỏ" đề xuất thuật toán YOLO v5sRF thông qua việc đưa mạng Resnet vào trong lớp đầu vào Focus của thuật toán YOLO v5s nguyên bản nhằm tăng cường khả năng phát hiện mục tiêu nhỏ, ứng dụng trong phát hiện đối tượng cho robot tự hành. Kết quả thí nghiệm cho thấy phương pháp cải tiến này đã làm tăng độ chính xác cho thuật toán YOLO v5s nguyên bản, tạo cơ sở làm tăng khả năng tự định vị và dẫn đường cho robot tự hành. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Nghiên cứu phát triển thuật toán YOLO v5sRF nâng cao khả năng phát hiện mục tiêu nhỏ

  1. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Nghiên cứu phát triển thuật toán YOLO v5sRF nâng cao khả năng phát hiện mục tiêu nhỏ Lê Bá Tuấn1, Nguyễn Vũ Hưng1, Hồ Khánh Trung2,Vũ Quốc Huy1* Viện Tự động hóa Kỹ thuật quân sự; 2Học viện Kỹ thuật quân sự 1 Email: batuanle@hotmail.com, kehoachvtdh@gmail.com, trung54366723@gmail.com, *maihuyvu@gmail.com. Abstract— Bài báo đề xuất thuật toán YOLO v5sRF giai đoạn. Giai đoạn một là cắt hình ảnh thành nhiều thông qua việc đưa mạng Resnet vào trong lớp đầu vào ảnh nhỏ, sử dụng thuật toán học sâu để trích xuất đặc Focus của thuật toán YOLO v5s nguyên bản nhằm tăng trưng của từng ảnh nhỏ này. Giai đoạn hai sử dụng các cường khả năng phát hiện mục tiêu nhỏ, ứng dụng trong thuật toán hồi quy để tiến hành phân loại, từ đó đưa ra phát hiện đối tượng cho robot tự hành. Kết quả thí vị trí và loại của đối tượng. Thuật toán YOLO [3] nghiệm cho thấy phương pháp cải tiến này đã làm tăng không cần tạo trước các ảnh nhỏ mà trực tiếp dự đoán độ chính xác cho thuật toán YOLO v5s nguyên bản, tạo vị trí và phân loại của mục tiêu trên hình ảnh. Do đó, cơ sở làm tăng khả năng tự định vị và dẫn đường cho tốc độ phát hiện của thuật toán này nhanh hơn nhiều so robot tự hành. với R-CNN. Chính vì vậy, YOLO được nghiên cứu và Keywords- Học sâu, robot, YOLO, phát hiện đối tượng. áp dụng trong nhiều công nghệ hiện đại. Các phiên bản YOLO khác nhau từ đó cũng được ra đời, nâng cao tốc độ và độ chính xác phát hiện đối tượng. Dong và các I. GIỚI THIỆU cộng sự [4] đưa ra các phương pháp cải tiến các mô Ngày nay, công nghệ robot dần trở nên không thể đun C3Ghost và Ghost trong thuật toán YOLO v5, tách rời khỏi cuộc sống hàng ngày của chúng ta. Có thông qua các thử nghiệm với bộ dữ liệu chuẩn cho được điều này là do robot tỏ ra ưu việt trong việc giảm thấy phương pháp của họ làm tăng độ chính xác của tải cường độ lao động, nâng cao năng suất lao động và thuật toán thêm 3,2%. Guo và các cộng sự [5] đưa ra giảm các thao tác nguy hiểm. Việc ứng dụng rộng rãi một phương pháp cải tiến thuật toán yolo v5s bằng các hệ thống robot trong các lĩnh vực thương mại, dân cách thay thế mạng backbone truyền thống bằng mạng dụng, y tế, dịch vụ, xây dựng, truyền thông, nông MobileNetV3 nhằm giảm kích thước của mô hình. Ngoài ra, thuật toán phân cụm KMeans được sử dụng nghiệp, quân sự và hàng không vũ trụ đã thu hút sự chú để lọc khung đối tượng làm cho khung phù hợp hơn ý của nhiều ngành [1]. Ứng dụng công nghệ trí tuệ với tập dữ liệu của họ. Kết quả thí nghiệm cho thấy độ nhân tạo trong robot là xu thế tất yếu của thế giới, đặc chính xác được cải thiện 2,5%. Wang và các cộng sự biệt là đưa thị giác máy tính vào robot tự hành. [6] đề xuất một mô hình mạng kim tự tháp đặc trưng để Trong những robot thông minh hiện nay, có thể thay thế cho mạng feature pyramid ban đầu trong thấy cảm biến quang ảnh luôn được trang bị và là một YOLO v5. Kết quả thử nghiệm mở rộng trên bộ dữ liệu trong những cảm biến quan trọng nhất của robot. Sử Tsinghua-Tencent 100K chứng minh rằng so với một dụng các cảm biến hình ảnh khác nhau để thu được số phương pháp tiên tiến nhất, phương pháp của họ ưu hình ảnh theo chuỗi thời gian và thông tin môi trường, việt hơn. Wang và các cộng sự [7] đưa ra một phương kết hợp với các thuật toán để xây dựng mối quan hệ pháp cải tiến mạng YOLO v5 để phát hiện khói, họ giữa môi trường và cảm biến hình ảnh, đồng thời nhận dùng các thuật toán tăng cường dữ liệu để cải tiến dữ diện môi trường xung quanh khi robot di chuyển, tính liệu huấn luyện, so với phương pháp truyền thống, toán và xác định vị trí. Điểm quan trọng của vấn đề thuật toán của họ có độ chính xác cao hơn 4,4%. nằm ở chỗ xây dựng thuật toán có khả năng nhận diện và hiển thị chính xác môi trường xung quanh robot, Những năm gần đây, phương pháp học sâu đã trở dựa vào đó để xây dựng các phương pháp định hướng thành phương pháp chủ đạo trong phát hiện đối tượng dẫn đường cho robot. Và công nghệ thị giác máy tính- và nhận diện môi trường. YOLO v5 cải thiện được nhận dạng, phát hiện đối tượng là một mắt xích quan nhiều nhược điểm của các phiên bản trước đó về thời trọng để giải quyết vấn đề này. gian, độ chính xác và tính ổn định. Chính vì vậy trong Với sự ra đời và phát triển vượt trội của thuật toán bài báo này, chúng tôi sử dụng dữ liệu hình ảnh về các học sâu, nó đã được ứng dụng phổ biến trong thị giác đối tượng cơ bản bao gồm người, ô tô, xe đạp và xe máy tính. Dựa vào học sâu, các thuật toán phát hiện đối máy để tạo tập dữ liệu huấn luyện. Thuật toán YOLO tượng đã đạt được các kết quả vượt bậc so với các thuật v5 được cải tiến thông qua một mạng ResFocus mới. toán truyền thống về độ chính xác và khả năng xử lý đa Sau đó dựa vào thuật toán cải tiến này để xây dựng mô mục tiêu. Điển hình như thuật toán R-CNN (regions hình nhận diện đối tượng. Cuối cùng, bằng cách so with CNN features) và Fast-RCNN [2], hai thuật toán sánh độ chính xác với thuật toán YOLO v5 truyền này trong quá trình phát hiện đối tượng phân ra làm hai thống để đánh giá hiệu suất của phướng pháp đề xuất. ISBN 978-604-80-8932-0 306
  2. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) II. GIỚI THIỆU THUẬT TOÁN YOLO V5 thước của đối tượng để thu được các đối tượng tốt hơn. Thuật toán YOLO v5 là mạng phát hiện một bước. Thuật toán YOLO v5 gồm mạng khác nhau gồm Nó là sự kết hợp giữa thuật toán YOLO v3 và YOLO YOLO v5n, YOLO v5s, YOLO v5m, YOLO v5l và v4, đồng thời cải thiện tốc độ phát hiện, tăng tính ổn YOLO v5x. Về cơ bản cấu trúc của các thuật toán này định. Thuật toán YOLO v5 xây dựng trên ý tưởng về là như nhau, chỉ khác nhau về độ sâu của các lớp mạng. các hộp neo, tốc độ nhanh hơn so với thuật toán Hình 1 là sơ đồ cấu trúc mạng của thuật toán YOLO RCNN, dùng thuật toán phân cụm Kmeans theo kích v5s, bao gồm bốn mạng lớn: đầu vào, lớp Backbone, lớp Neck và đầu ra [8]. Hình 1. Cấu trúc của mạng YOLO v5s. Mạng đầu vào bao gồm ba phần: Phần tăng cường Ngoài ra, YOLO v5 sử dụng freebie và specials để điều dữ liệu, phần xử lý kích thước hình ảnh và tự động điều chỉnh tối ưu, tăng cường khả năng nhận diện mục tiêu chỉnh khung hình. Phương pháp tăng cường dữ liệu nhỏ và bị che khuất. Mosaic được sử dụng để chia tỷ lệ, cắt và sắp xếp ngẫu nhiên và chập ảnh lại với nhau, từ đó làm tăng độ III. PHÁT TRIỂN YOLO V5SRF TỪ THUẬT phong phú cho tập dữ liệu, có tác dụng phát hiện tốt THOÁN YOLO V5S hơn trên các vật thể nhỏ, che khuất. Trong mô hình YOLO v5s ban đầu, đầu vào hình Mạng Backbone bao gồm cấu trúc Focus và cấu ảnh trước tiên sẽ đưa vào mô-đun Focus trong mạng trúc CSP được thể hiện trong Hình 1. Focus có chức Backbone. Mô-đun Focus cắt dữ liệu ảnh thành từng năng là cắt hình ảnh đầu vào thành nhiều ảnh nhỏ. Hình phần. Ở mỗi kênh, dữ liệu ảnh sẽ được chia làm 4 ảnh gốc được mạng đầu vào xử lý thành một kích phần. Tiếp theo sẽ được kết nối với nhau và dùng mạng thước thống nhất là 608 × 608 × 3. Focus chia cắt hình tích chập để lấy đặc trưng ban đầu. Trên thực tế, mạng để đạt được bản đồ đối tượng là 304 × 304 × 12, sau đó Focus tương tự như mạng tích chập đặc trưng. Tuy phép toán tích chập được thực hiện để tạo thành 32 nhiên, đối với các đối tượng nhỏ, việc thông qua mạng hình đặc trưng. Hai cấu trúc CSP, gồm các lớp tích Focus cắt hình nhiều khi sẽ làm mất đi đặc trưng của chập CBL hoặc lớp Res unit xếp đan xen vào nhau. mục tiêu, từ đó dẫn đến việc bỏ sót phát hiện đối tượng, Thuật toán YOLO v5 dựa trên cấu trúc lớp Backbone ảnh hưởng đến độ chính xác của mô hình. để khả năng học tập của mạng tích chập, giảm chi phí Trước đây, trong các mạng nơ ron truyền thống, các bộ nhớ và có thể giảm được sự thắt nút cổ chai khi tính nhà nghiên cứu đều cho rằng, bằng cách xếp nhiều lớp toán. Trong mạng này, thuật toán YOLO v3 và YOLO nơ ron nối tiếp với nhau, mô hình mạng càng sâu thì sẽ v4 sử dụng cùng cấu trúc FPN + PAN (FPN là từ trên học được nhiều đặc trưng của đối tượng. Tuy nhiên, xuống và PAN là dưới cùng của hình chóp), nhưng trên thực tế huấn luyện cho thấy, điều này hoàn toàn thuật toán YOLO v5 sử dụng CSP2 dựa trên CSPNet ngược lại. Trong quá trình huấn luyện mô hình thường để tăng cường khả năng kết hợp đặc trưng. xuất hiện tham số tối ưu gradient thường bị biến mất Mạng Neck sử dụng cấu trúc FPN + PAN. FPN lấy hoặc tăng đột biến, dẫn đến quá trình suy giảm trong các mẫu lớn nhất để tiến hành hợp nhất đối tượng từ đó huấn luyện. Đã có nhiều phương pháp cải tiến vấn đề tạo ra các bản đồ đặc trưng. Mạng đầu ra của thuật toán này, tuy nhiên kết quả không khả quan. Đến những YOLO v5 sử dụng GIOU_Loss làm hàm tổn hao, điều năm gần đây, với phát hiện của He và các cộng sự [9] này sẽ tốt hơn hàm GIOU_nms sẽ tốt hơn nms truyền trong công bố tại hội nghị thị giác máy tính thế giới đã giảm thiểu được đáng kể các tác động tiêu cực của thống trong các trường hợp đối tượng chồng chéo. ISBN ............ 978-604-80-8932-0 307
  3. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) mạng học sâu trong quá trình huấn luyện. Trong công luyện và tập kiểm tra. Thuật toán YOLO sử dụng một bố này, nhóm tác giả đã đưa ra 2 phương pháp để giải số phương pháp tăng cường dữ liệu ảnh như che khuất quyết các vấn đề tồn tại trên. Thứ nhất, sử dụng mạng một phần bức ảnh, gây nhiễu, biến đổi phóng thu giữ Batch Normalization (BN) để giảm thiểu quá trình suy nguyên tỉ lệ ảnh gốc. Các phương pháp này làm tăng giảm huấn luyện. Thứ hai, đề xuất mạng Resnet để ổn khả năng tối ưu của mô hình trong nhiều điều kiện thực định tham số tối ưu gradient. Kết quả này đã mở ra tế. Phần mềm gắn nhãn Labelmg được sử đụng để tiến cuộc cách mạng mới về học sâu. Hiện tại, hầu hết các hành gắn nhãn đối tượng. mô hình học sâu đều sử dụng phương pháp này để lập cấu trúc mô hình. B. Thiết lập mô hình huấn luyện Chúng tôi sử dụng cấu trúc YOLO v5sRF để thiết lập hô hình huấn luyện. Phần cứng được sử dụng là một máy tính được trang bị chip xử lý Core i5 11400F @2.6GHz, 16 Gb RAM; card đồ họa NVIDIA GeForce 1x1Conv RTX 3060, 12 Gb VRAM. Phần mềm bổ trợ CUDA 11.1.1, khung Pytorch 1.9, ngôn ngữ lập trình Python 3.8. BN Focus Tổng số bức ảnh được sử dụng là 2463, chia thành tập huấn luyện gồm 1847 ảnh và tập đánh giá gồm 616 ảnh. Tốc độ học ban đầu là 0,001, sau đó giảm dần qua các vòng lặp, kích thước bộ dữ liệu mỗi lần xử lý là 16, ReLU số lần lặp là 300. Để đánh giá được hiêu suất của mô hình, chúng tôi + sử dụng các chỉ tiêu bao gồm precision (P), recall (R), intersection over union (IoU) [10], [11], đối với một mẫu bất kỳ N ta có: ReLU TP (1) P TP  FP TP (2) R TP  FN C G (3) Hình 2. Cấu trúc mô đun ResFocus IoU  C G Trong nghiên cứu này, nhằm tăng cường khả năng trong đó, TP là số lượng của mẫu N đượng phân loại trích xuất đặc trưng cho mô-đun Focus, chúng tôi đã đúng của mẫu đó, FP là số lượng mấu khác được phân đưa mạng Resnet kết hợp với mạng Focus, gọi là mô loại thành mẫu N. FN là số lượng của mẫu khác được đun ResFocus, cụ thể như trong Hình 2. Ở đây, chúng phân loại thành mẫu N. IoU là tỉ lệ giao của hai tập C tôi thiết lập một mạng song song gồm một mạng Focus và G chia cho hợp nhất của tập C và G. và một mạng tích chập, để tạo thành cấu trúc ResNet. C. Đánh giá mô hình Mạng tích chập 11 được sử dụng để tạo ra dữ liệu phi Chúng tôi sử dụng chung một tập dữ liệu đã tạo, tuyến tính của ảnh, tăng cường tính ổn định của mạng sau đó phân biệt huấn luyện mô hình cho YOLO v5s và học sâu. Dùng hàm kích hoạt ReLU sau quá trình kết YOLO v5sRF, dựa vào kết quả huấn luyện để đánh giá nối hai mạng với nhau tăng cường phi tuyến tính cho hiệu suất của v5sRF. Hình 3 là kết quả quá trình huấn dữ liệu. Quá trình kết hợp này làm giảm tính tổn hao luyện của hai mô hình này. Do mô số liệu đối tượng của dữ liệu, làm tăng cường độ chính xác cho mô hình phức tạp, nhiều kích thước, nên quá trình huấn luyện ở đặc biệt với những đối tượng nhỏ, bị che khuất một giai đoạn đầu không ổn định, xuất hiện một số đoạn phần. Đưa mô đun ResFocus vào cấu trúc mạng YOLO phân rã, tuy nhiên càng về sau thì cả hai mô hình ổn v5s, chúng tôi đặt tên mạng mới là YOLO v5sRF. định hơn, các tham số chỉ tiêu có độ hội tụ khá tốt. Dựa IV. MÔ PHỎNG VÀ THẢO LUẬN vào hình 3 có thể thấy rằng, độ ổn định của thuật toán YOLO v5sRF là tốt hơn. Điều này có được một phần A. Tập dữ liệu do mô đun ResFocus mang lại. Các khung ảnh đi sau Tập dữ liệu sử dụng được chúng tôi thu thập từ các khi đi qua mô đun này giảm tiểu tối đa khả năng mất nguồn trên mạng internet, bao gồm một phần của tập các đặc trưng từ đối tượng nhỏ, do đó có độ phát hiện dữ liệu chuẩn COCO, bao gồm 2463 bức ảnh. Với điều cao hơn so với mô hình truyền thống, nó cũng làm cho kiện thời tiết, hoàn cảnh, độ sáng tối, độ lớn và các góc quá trình truyền ngược gặp ít lỗi hơn khi cập nhật các cạnh khác nhau. Bộ dữ liệu được chia thành tập huấn trọng số, từ đó đường huấn luyện tham số sẽ ổn định hơn. ISBN ............ 978-604-80-8932-0 308
  4. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) a) YOLO v5s b) YOLO v5sRF Hình 3. Kết quả quá trình huấn luyện của mô hình. Hình 4. So sánh kết quả phát hiện đối tượng thực tế giữa 2 mô hình. ISBN ............ 978-604-80-8932-0 309
  5. Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Bảng 1. So sánh kết quả của hai mô hình (%). Mô hình P R mAP@.5 mAP@.5:.95 YOLO v5s 96,00 85,90 89,20 73,20 YOLO v5sRF 96,50 89,20 92,20 75,90 Bảng 2. So sánh số lượng trọng số của hai mô hình. Mô hình Số lượng parameters YOLO v5s 7235389 YOLO v5sRF 7235487 Hình 4 thể hiện kết quả phát hiện đối tượng thực tế đó giúp robot có những quyết định chuẩn xác hơn về giữa mô hình YOLO v5sRF và YOLO v5s. Chúng ta đường đi của mình. có thể thấy, v5sRF phát hiện đối tượng ở một số vị trí tốt hơn v5s, đặc biệt là các đối tượng nhỏ hoặc bị che TÀI LIỆU THAM KHẢO một phần. Trong hình 4A có thể thấy đối tượng ngồi [1] Ayawli, B. B. K., Mei, X., Shen, M., Appiah, A. Y., & Kyeremeh, F. (2019). Mobile robot path planning in dynamic quay lưng được phát hiện bởi v5sRF còn v5s thì không, environment using Voronoi diagram and computation tương tự như trong hình 4B, người và xe ở đầu mũi tên geometry technique. Ieee Access, 7, 86026-86040. được phát hiện bởi v5sRF. Đối với hình 4C, ô tô nhỏ bị [2] Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE che khuất một phần và người đi xe máy ở phía xa được international conference on computer vision (pp. 1440-1448). phát hiện với mô hình v5sRF. [3] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). Bảng 1 thể hiện kết quả so sánh giữa hai mô hình You only look once: Unified, real-time object detection. YOLO v5s và YOLO v5sRF, trong đó, mAP@.5 là độ In Proceedings of the IEEE conference on computer vision chính xác trung bình với IoU-0.5; mAP@0.5:.95 là độ and pattern recognition (pp. 779-788). chính xác trung bình của IoU từ 0.5:0.95 với số bước là [4] Dong, X., Yan, S., & Duan, C. (2022). A lightweight vehicles 0,05. Kết quả trên cho thấy mô hình YOLO v5sRF có detection network model based on YOLOv5. Engineering Applications of Artificial Intelligence, 113, 104914. độ chính xác R, P hay mAP vượt trội hơn so với thuật toán YOLO v5s nguyên bản. Cụ thể, độ chính xác [5] Guo, G., & Zhang, Z. (2022). Road damage detection algorithm for improved YOLOv5. Scientific reports, 12(1), mAP@.5 của v5sRF cao hơn 3% so với v5s, và 15523. mAP@.5:.95 của v5sRF cao hơn 2,7% so với thuật [6] Wang, J., Chen, Y., Dong, Z., & Gao, M. (2023). Improved toán v5s. Bảng 2 cho thấy số lượng trọng số của hai mô YOLOv5 network for real-time multi-scale traffic sign hình, có thể thấy số lượng trọng số cơ bản tương detection. Neural Computing and Applications, 35(10), 7853- đương, tuy nhiên YOLOv5sRF cho kết quả độ chính 7865. xác cao hơn. Kết quả trên đã chứng minh được tính [7] Wang, Z., Wu, L., Li, T., & Shi, P. (2022). A smoke detection hiệu quả của phương pháp đề ra trong bài báo này, từ model based on improved YOLOv5. Mathematics, 10(7), đó giúp cho bài toán phát hiện đối tượng có độ chính 1190. xác cao hơn, làm tăng khả năng phán đoán dẫn đường [8] Yao, J., Qi, J., Zhang, J., Shao, H., Yang, J., & Li, X. (2021). của robot tự hành. A real-time detection algorithm for Kiwifruit defects based on YOLOv5. Electronics, 10(14), 1711. V. KẾT LUẬN [9] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Bài báo đề xuất một phương pháp cải tiến thuật conference on computer vision and pattern recognition (pp. toán YOLO v5s trên cơ sở thuật toán Resnet. Qua thí 770-778). nghiệm với tập dữ liệu được xây dựng cho thấy mô [10] Teng, S., Fu, A., Lu, W., & Li, Z. (2023). TCM Syndrome hình xây dựng dựa trên thuật toán cải tiến này có độ Classification Using Graph Convolutional Network. European chính xác cao hơn so với thuật toán YOLO v5s nguyên Journal of Integrative Medicine, 102288. bản. Đây là cơ sở để tăng khả năng nhận dạng cho các [11] Wang, X., Cai, L., Zhou, S., Jin, Y., Tang, L., & Zhao, Y. bài toán phát hiện đối tượng nói chung. Với robot tự (2023). Fire Safety Detection Based on CAGSA-YOLO Network. Fire, 6(8), 297. hành, việc tăng độ chính xác trong phát hiện mục tiêu sẽ làm giảm thiểu khả năng phán đoán sai đối tượng, từ ISBN ............ 978-604-80-8932-0 310
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2