intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường

Chia sẻ: Liễu Yêu Yêu | Ngày: | Loại File: PDF | Số trang:6

21
lượt xem
5
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết "Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường" trình bày ý tưởng thiết kế hệ thống giám sát môi trường sử dụng nhiều UAVs, tạo thành một mạng cảm biến dựa trên các hiện tượng quan tâm để giám sát môi trường mở không xác định cho trước. Hệ thống mà chúng tôi xem xét được áp dụng cho rất nhiều các trường hợp bao gồm giám sát các vật liệu nguy hiểm bị rò rỉ trên khu vực rộng mà không có sự can thiệp của con người. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường

  1. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Điều khiển thiết bị bay không người lái giám sát môi trường thông qua học sâu tăng cường Nguyễn Trọng Bình∗ Trịnh Văn Chiến† Nguyễn Tiến Hòa∗ ∗ Trường Điện - Điện Tử, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam † Trường Công Nghệ Thông Tin và Truyền Thông, Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam Email: binh.nt182905@sis.hust.edu.vn;hoa.nguyentien@hust.edu.vn; chientv@soict.hust.edu.vn Tóm tắt nội dung—Phương tiện bay không người lái (UAVs) cao. Hơn nữa, các nhà cung cấp thiết bị phần cứng cho phép đang ngày càng được sử dụng rộng rãi trong mạng 5G và định tích hợp các kiến trúc vi xử lý khác nhau vào UAVs [8]. Điều hướng mạng 6G tại nhiều lĩnh vực ứng dụng đa dạng, trong cả này cho phép UAVs xử lý các ứng dụng thời gian thực và tối dân sự lẫn quân sự. Một vài ví dụ điển hình của ứng dụng UAVs ưu tài nguyên vô tuyến phục vụ điều khiển quỹ đạo của UAVs. bao gồm: kiểm tra cơ sở hạ tầng, giám sát giao thông, viễn thám, bản đồ, cứu hộ con người và động vật. Tuy nhiên, việc sử dụng Việc triển khai mạng cảm biến không dây trong các ứng UAVs trong các ứng dụng trên yêu cầu nhất định về tính tự chủ. dụng thực thông qua trợ giúp của UAVs để đáp ứng nhiều yêu Nói cách khác, UAVs phải có khả năng hoàn thành nhiệm vụ cầu về hệ thống truyền thông, trong đó vùng phủ sóng và kết trong tình huống không có sự can thiệp của con người. Trong nối thường được coi là hai yếu tố tối quan trọng [9]. Phạm nghiên cứu này, chúng tôi đã sử dụng học tăng cường sâu với vi bao phủ được chỉ định các khu vực hoặc mục tiêu quan thuật toán Deep deterministic Policy Gradient (DDPG) để giải tâm được các cảm biến giám sát ở mức độ tin cậy, trong khi quyết bài toán về giám sát môi trường. Các bước trong bài nghiên cứu bao gồm: Xây dựng mô phỏng kết nối liên quan đến khả năng truyền dữ liệu cảm biến từ hệ thống giám sát môi trường sử dụng thiết bị bay không người các cảm biến đến trạm xử lý trung tâm [10]. Đảm bảo phạm lái với các tham số cơ bản, áp dụng thuật toán học tăng cường vi phủ sóng và kết nối là rất quan trọng vì trong nhiều ứng sâu DDPG. Kết quả mô phỏng được thực hiện trên python dụng, mạng được yêu cầu theo dõi và phân tích các mục tiêu Từ khóa—UAVs, Deep Reinforcement Learning, Coverage hoặc khu vực liên tục [11], [12]. Bên cạnh đó, mạng cảm biến Maximization, Connectivity Maintenance không dây là một hệ thống động. Khi một cảm biến xảy ra lỗ sẽ dẫn đến liên kết mạng bị thay đổi. do đó bảng định tuyến I. GIỚI THIỆU của mạng có thể bị phá vỡ, gây ra đụng độ trong quá trình Các phương tiện bay không người lái (unmanned aerial quy hoạch mạng và truyền nhận các gói tin. Cho đến nay, các vehicles-UAV) là các thực thể mạng nhỏ, nhanh, và tính linh thuật toán truyền thống giải quyết vấn đề này thường có độ động cao được sử dụng trong nhiều ngành công nghiệp khác phức tạp tính toán cao, khó có thể đưa vào các ứng dụng trong nhau, bao gồm: Kiểm tra hệ thống điện, giao vận như vận thực tế với kênh biến thiên nhanh [13]. chuyển bưu kiện và gói hàng, quản lý thảm họa, và giám sát Học tăng cường (reinforcement learning) cung cấp khuôn giao thông [1]–[3]. Việc sử dụng UAV không chỉ giới hạn trong khổ toán học để xây dựng các chiến lược hoặc phương thức công nghiệp và học thuật, mà còn phục vụ nhu cầu cá nhân ánh xạ các trạng thái thành các hành động với mục tiêu tối hàng ngày. Người điều khiển UAV phải luôn duy trì đường đa hàm phần thưởng tích lũy [14]. Học tăng cường đã được nhìn thẳng trực quan (visual line of sight - VLOS) của UAV áp dụng rộng rãi để giải quyết các vấn đề trong các lĩnh vực dưới một số điều kiện ràng buộc do các quy định hiện hành khác nhau, chẳng hạn như chế tạo và sản xuất, tối ưu hóa (ví dụ vùng bay hoặc từng địa điểm cụ thể), và ít được hỗ chính sách trong lĩnh vực tài chính, và hệ thống điều khiển rô trợ bởi công nghệ khác [4]. Trong khi UAV được sử dụng chủ bốt. Cùng với sự phát triển của các kỹ thuật học sâu, học tăng yếu trong VLOS, có nhiều tình hướng tới không phải VLOS cường hiện đã phát triển theo hướng học sâu tăng cường (Deep để kích hoạt các ứng dụng mới trong một vùng phủ sóng rộng reinforcement learning-DRL), trong đó mạng nơ-ron học máy lớn [5], [6]. Do đó, cần có sự đồng thuận giữa các bên liên sâu (DNN) được sử dụng trong quá trình hình thành chính sách quan nhằm mở rộng phạm vi hoạt động thương mại của UAV [15], [16]. Với cấu trúc học ngoại tuyến (offline-learning) và để bao phủ không phận khu vực đô thị mở rộng và các vùng mạng DNN có thể dự đoán và cập nhật trực tuyến khi kết hợp dân cư ở biên giới, núi cao, hải đảo nơi mà tầm nhìn bị hạn với DRL. Các kỹ thuật DRL có khả năng xử lý các vấn đề chế dẫn đến môi trường truyền dẫn không phải VLOS. Theo phức tạp ứng với tập dữ liệu nhiều chiều trong không gian xu hướng phát triển công nghệ hiện nay, UAV đang được tích hành động (thậm chí cho phép không gian hành động là một hợp vào các mạng di động không dây. Hệ thống 5G và các miền liên tục) [17]. Những tính năng mới này làm cho DRL thế hệ mạng tiếp theo luôn xem xét quản lý UAV là một trong có thêm những đóng góp đáng kể so với học tăng cường. Và những minh chứng thiết yếu của phát triển mạng thông tin di những đột phá gần đây trong viễn thông minh chứng sự thành động [7]. Mặt khác, các mô hình mạng mới, chẳng hạn như công của DRL. Ứng dụng của DRL trong hệ thống viễn thông điện toán biên, điện toán đám mây, mạng phi tế bào, có thể cho phép quy hoạch tài nguyên vô tuyến, hướng tới các thiết trợ giúp UAVs để xử lý các ứng dụng điều khiển bay tốc độ kế thời gian thực. ISBN 978-604-80-7468-5 304
  2. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) năng cảm biến và một chức năng giao tiếp. Với chức năng Tầm cảm biến của UAV cảm biến, UAV có thể thu thập dữ liệu về hiện tượng quan tâm như rò rỉ khí gas/ bức xạ, chất phóng xạ và chất ô nhiễm độc hại). Với chức năng thông tin liên lạc, UAV có thể trao đổi dữ liệu với các UAV khác trong hệ thống. Khi thực hiện chức năng cảm biến, UAV đạt được dữ liệu cảm biến được gọi là "giá trị quan tâm". Giá trị quan tâm có thể được coi là số liệu để đo giá trị hoặc chất lượng của dữ liệu được thu thập. Nói chung, các giá trị quan tâm có thể khác nhau với các vị trí khác nhau của UAV. Để mô hình hóa phân bố giá trị quan tâm của hiện tượng trong khu vực, chúng tôi áp dụng Thiết bị bay không người một phương pháp được sử dụng rộng rãi trong khoa học địa lái UAV Phân bố hiện tượng môi trường chất và môi trường [18] biểu thị ϕ(p) là giá trị quan tâm đạt được của UAV ở vị trí p. Ở đây, vị trí p được xác định bởi tọa Hình 1: Mô hình hệ thống với nhiều UAVs hoạt độ (x, y, z) tương ứng trong mô hình hệ thống. Do đó ϕ(p) động như là các cảm biến giám sát môi trường được xác định theo [18]: ϕ(p) = βF(p), (1) Trong bài báo này, chúng tôi nghiên cứu ứng dụng của DRL trong đó β = [β1 , ..., βm ] là hằng số và F(p) = vào mạng cảm biến nhiều UAVs để giám sát môi trường. Các [f1 (p), ...fm (p)]T là hàm không gian cơ sở với T là toán tử đóng góp chính của bài báo bao gồm: chuyển vị. Phần tử k th của F (p) là hàm Gaussion được biểu −|p−qk |2 • Chúng tôi trình bày ý tưởng thiết kế hệ thống giám sát 2σ 2 diễn bởi fk (p) = e k, với qk và σk lần lượt là vị trí môi trường sử dụng nhiều UAVs, tạo thành một mạng trung tâm và phương sai của hàm fk (p). cảm biến dựa trên các hiện tượng quan tâm để giám sát Giả định trong hệ thống có một nút đặc biệt, gọi là "nút môi trường mở không xác định cho trước. Hệ thống mà gốc", được trang bị với khả năng cao hơn trong việc tính toán chúng tôi xem xét được áp dụng cho rất nhiều các trường và năng lượng so với các UAV khác. Nút gốc định kỳ xác định hợp bao gồm giám sát các vật liệu nguy hiểm (ví dụ: các hướng di chuyển tối ưu và tốc độ cho tất cả các UAV dựa trên chất ô nhiễm độc hại, chất phóng xạ) bị rò rỉ trên khu thông tin thu thập được về vị trí và giá trị quan tâm của các vực rộng mà không có sự can thiệp của con người. UAV trong mạng. Nó có thể cũng chuyển các giá trị quan tâm • Thuật toán học sâu tăng cường DDPG được đề xuất để của tất cả các UAV đến trạm trung tâm để phân tích thêm và giải quyết các thách thức và đáp ứng mục tiêu tối đa hóa đưa ra quyết định. diện tích bao phủ. Thêm vào đó việc sử dụng những quy Là một bộ điều khiển trung tâm, nút gốc nhằm mục đích luật chuyển động và phương thức trao đổi thông tin đơn điều khiển hướng chuyển động và tốc độ của tất cả các UAV giản khiến cho thuật toán trở nên thực tế hơn. trong hệ thống để tối đa hóa tổng giá trị quan tâm, phạm vi • Thuật toán Dijkstra được sử dụng cho ma trận kết nối cảm biến và tối thiểu hóa mức tiêu thụ năng lượng của UAV giữa các UAV. Ma trận là yếu tố góp phần hình thành đồng thời duy trì kết nối giữa các UAV. nên chính sách điều khiển chuyển động và kết quả là mạng kết nối luôn được duy trì trong suốt quá trình thực B. Quy trình quyết định Markov hiện nhiệm vụ. Nút gốc định kỳ xác định chuyển động tối ưu chỉ đường • Mô phỏng đã được thực hiện để xác nhận hiệu suất của và tốc độ cho tất cả các UAV. Như vậy, chúng ta có thể phân thuật toán. Hàm phần thưởng của việc huấn luyện mạng chia thời gian thành các khoảng thời gian giống hệt nhau là DRL cải thiện sau một vài vòng lặp. τ giây, thể hiện chu kỳ điều khiển. Thời gian bắt đầu tức thì Phần còn lại của bài báo có cấu trúc như sau: Mục II thảo của một chu kỳ điều khiển được gọi là bước thời gian và hành luận về mô hình truyền thông sử dụng UAVs trong việc giám động điều khiển được thực hiện ở mọi bước thời gian. sát môi trường và quy trình ra quyết định dựa vào tiến trình 1) Tập trạng thái-State space: Gọi pi và ϕi biểu thị vị Markov. Mục III trình bày cách sử dụng thuật toán DDPG cho trí và giá trị quan tâm của UAV i vào bước thời gian hiện việc giám sát môi trường. Kết quả mô phỏng đánh giá hiệu tại, vị trí pi tương ứng với tọa độ (xi , yi ). Như vậy, tập suất của mạng UAVs và mô hình DRL được trình bày trong trạng thái của hệ thống biểu thị là S, được xác định bởi Mục IV. Cuối cùng, Mục V đưa ra kết luận của bài báo. S = {(p1 , ϕ1 , ..., pN , ϕN )}, trong đó pi và ϕi thể hiện vị II. MÔ HÌNH HỆ THỐNG trí và giá trị quan tâm của UAV i. 2) Tập hành động-Action space: Ký hiệu A là tập hành A. Mô hình hệ thống động của hệ thống. Cho trước trang thái s ∈ S nhất định, Chúng ta xem xét một hệ thống giám sát môi trường như một hành động điều khiển a ∈ A được thực hiện để xác theo Hình 1: Hệ thống bao gồm N UAVs cho một khu vực định tốc độ di chuyển và hướng đi của N UAVs trong chu không xác định cho trước. Mỗi UAV được trang bị một chức kỳ điểu khiển tiếp theo. Do đó, A có thế được định nghĩa là ISBN 978-604-80-7468-5 305
  3. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) A = {(v1 , α1 , ..., vN , αN )}, trong đó αi , 0 ≤ αi ≤ 2π, là trong đó λ1 , λ2 , và λ3 là các trọng số liên quan đến Υint , Ψc hướng di chuyển của UAV và vi ≥ 0 là tốc độ của UAV i. và Ξ. Như vậy, phần thưởng r(s, a) được xác định dựa trên Lưu ý rằng vi = 0, UAV i không di chuyển trong chu kỳ tiếp tổng trọng số của giá trị quan tâm, năng lượng sử dụng di theo, tức là UAV di chuyển ở vị trí hiện tại(trạng thái tĩnh), chuyển, mức độ bao phủ và sự duy trì mạng kết nối. nếu không thì UAV di chuyển với tốc độ vi . Vấn đề điều khiển chuyển động: Bộ điều khiển được đặt 3) Hàm phần thưởng-Reward function: Mục tiêu của hệ tại nút gốc. Vào mỗi bước thời gian, hệ thống điều khiển quan thống giám sát là 1) tối đa hóa tổng giá trị quan tâm đặt được sát trang thái hệ thống s. Sau đó, nó sẽ quyết định hành động bởi các UAV, 2) tối đa hóa phạm vi cảm biến và tối thiểu hóa a xác định tốc độ chuyển động vi và hướng di chuyển αi cho năng lượng tiêu thụ của các UAV, và 3) duy trì sự kết nối giữa mọi UAV i vào chu kỳ thời gian điều khiển tiếp theo là τ giây. các UAV. Do đó hàm phần thưởng được thiết kế như sau. Tại vào lúc kết thúc của chu kỳ điều khiển tiếp theo, hệ thống Năng lượng tiêu thụ: Khi hành động điều khiển a được điều khiển sẽ tính toán hàm phần thưởng tức thì r(s, a) như thực hiện vào bước thời gian hiện tại với trang thái hệ thống s, một tín hiệu phản hồi. Mục tiêu thiết kế chính là tìm ra chính đặt ei (s, a) biểu thị tổng mức sử dụng năng lượng chuyển động sách điều khiển chuyển động mà quyết định a dựa trên s để của UAV i trong khoảng thời gian kiểm soát τ . Trong nghiên tối đa hóa giá trị mong đợi trong thời gian dài, i.e., E[r]. Tổng cứu này, chúng tôi giả định mỗi UAV tiêu thụ e0 Joules để di quát, nó là thử thách để thiết kế chính sách điều khiển chuyển chuyển 1 meter [19]. Như vậy, chúng ta có ei (s,P a) = τ e0 /vi , động dạng khép kín để tối đa hóa E[r] bởi vì khu vực quan N và tổng năng lượng tiêu thụ của hệ thống là Ξ = i=1 ei (s, a). tâm là chưa xác định và do đó sự phát triển của hệ thống là Giá trị quan tâm và pham vi cảm biến Giả định rằng tất phức tạp. Trong nghiên cứu này, chúng tôi áp dụng học tăng cả các UAV có cùng tần số lấy mẫu, được ký hiệu là f . Do đó, cường sâu không mô hình DDPG để giải quyết thử thách trên. số lượng mẫu quan tâm mà UAV i thu thập trong khoảng Trong sự tương tác giữa tác nhân DRL và môi trường, tác PM thời gian τ là M = f τ . Chúng tôi ký hiệu ϕi (s, a) = k=1 ϕi,k nhân sẽ học được chính sách kiểm soát tối ưu từ dữ liệu lịch là tổng giá trị quan tâm của UAV i trong chu kỳ τ trong đó sử bao gồm các trạng thái hệ thống, kiểm soát hành động và ϕi,k được xác định. Để tối đa hóa tổng giá trị quan tâm, các đưa ra phần thưởng tức thì. UAVs phải di chuyển đến các vị trí với giá trị P quan tâm cao. M III. THUẬT TOÁN DDPG CHO GIÁM SÁT MÔI TRƯỜNG Tổng giá trị quan tâm đạt được bởi hệ thống là i=1 ϕi (s, a). Để tối đa phạm vi cảm biến của hệ thống, sự chồng chéo Trong phần này, chúng tôi sẽ sử dụng DDPG để đưa ra chiến pham vi cảm biến giữa các UAV cần được giảm thiểu. Đối với lược hành động cho các UAV. Về chi tiết, trước tiên chúng tôi điều này, chúng tôi gọi rc và rs lần lượt là bán kính giao tiếp giới thiệu sơ lược về DDPG, sau đó là trạng thái, hành động và bán kính cảm biến của mỗi UAV. Chúng tôi đặt Υint (s, a) và phần thưởng của DDPG được xác định cho tác nhân. để xác định mức độ bao phủ và giá trị quan tâm đạt được bởi DDPG được phát triển như một phần mở rộng của thuật toán hệ thống cho trước cặp (s, a). Do đo Υint được xác định như mạng Q sâu (DQN) được giới thiệu bởi Mnih et al [23], đó sau: là cách tiếp cận đầu tiên kết hợp học sâu và học tăng cường nhưng chỉ xử lý tập không gian hành động có chiều thấp. N N X N X X DDPG cũng là một thuật toán học tăng cường sâu nhưng có Υint = ϕ(s, a) + max(dij − dth , 0), (2) khả năng xử lý với tập không gian hành động nhiều chiều. i=1 i=1 j=1 Nó cố gắng tìm được chiến thuật hành động hiệu quả cho các trong đó dij là khoảng cách giữa 2 UAV i và j, và dth là tác nhân có thể đặt được phần thưởng lớn nhất để hoàn thành khoảng cách ngưỡng giữa hai UAV liền kề. Các công trình nhiệm vụ đưa ra [24]. Thuật toán DDPG có khả năng giải [20], [21] cho thấy mẫu lục giác có thể tối đa hóa độ che phủ quyết các tập không gian liên tục, thứ là một trở ngại lớn đối cảm biến trong khi tránh các lỗ che phủ. Để đạt được mục với các phương pháp học sâu cổ điển như Q-learning. tiêu, chúng tôi đã đặt ngưỡng khoảng cách dth cho khoảng DDPG dựa trên thuật toán actor-critic(Chính sách-Đánh cách giữa √ hai nốt liền kề nhau theo mô hình lục giác, tức là giá). Về cơ bản đó là phương pháp kết hợp gradient policy dth = 3rs . Từ (1), nếu các UAV tọa độ ở các vị trí có giá và giá trị hàm. Hàm chính sách µ được gọi là Tác nhân, trong trị quan tâm lớn nhất và khoảng cách giữa một cặp UAV bắt khi hàm giá trị Q được gọi là mạng Đánh giá. Về cơ bản, kì lớn hơn dth , Υint sẽ được tối ưu hóa. đầu ra của tác nhân là một hành động được chọn từ một Duy trì kết nối: Chúng tôi biểu thị ci là hệ số kết nối mà không gian hành động liên tục, với trạng thái hiện tại của bằng 1 khi UAV i có đường dẫn đến nút gốc và trở thành 0 môi trường a = µ(s|θµ ), trong trường hợp của chúng tôi, có nếu không. Lưu ý rằng đường dẫn có thể là đường dẫn một dạng một bộ a = [ρ, ϕ, ψ]. Đối với mạng Đánh giá, đầu ra bước hoặc đường dẫn nhiều bước. Cho các vị trí của UAV của nó Q = (s, a|θµ ) là một tín hiệu có dạng lỗi: Sự khác pi , i = 1, ..., N , thuật toán Dijkstra tìm đường đi ngắn nhất biệt theo thời gian (TD) để đánh giá những hành động của tác [22] có thế đượcPsử dụng để tìm đường đi từ UAV i đến nút nhân khi biết trạng thái hiện tại của môi trường. Sơ đồ tóm N gốc. Đặt Ψc = i=1 ci biểu thị điều kiện mạng kết nối khi tắt kiến trúc đánh giá tác nhân được đưa ra trong Hình 2. hành động a được thực hiện ở trạng thái s. Chúng tôi xác định Trong quá trình huấn luyện, mô hình DDPG được thực thi hàm phần thưởng tức thì như sau: cho M tập trong đó mỗi một tập sẽ diễn ra T bước. Chúng tôi sử dụng chỉ số t để biểu thị quá trình diễn ra các bước r(s, a) = λ1 Υint + λ2 Ψc − λ3 Ξ, (3) trong một tập với t = 1, ..., T . Mạng Chính sách và mạng ISBN 978-604-80-7468-5 306
  4. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Algorithm 1 Thuật toán DDPG nâng cao hiệu suất. Sự đánh đổi giữa mức khám phá và khai 1: Khởi tạo ngẫu nhiên mạng Đánh giá Q(s, a|θ ) và mạng Q thác được thực hiện bằng cách sử dụng thuật toán ϵ, trong đó Chính sách µ(s|θµ ) với trong số θQ và θµ . một hành động ngẫu nhiên at được lựa chọn với xác suất ϵ, 2: Khởi tạo mạng mục tiêu Q ′ và µ ′ với trọng số θ Q ′ ← θQ , một hành động chính xác at = µ(st |θµ ) được chọn theo đối ′ với chính sách hiện tại theo xác suất 1 − ϵ. Hơn nữa, một bộ θµ ← θµ đệm phát lại trải nghiệm b, với kích thước B, được sử dụng 3: Khởi tạo bộ nhớ R trong giai đoạn đào tạo để phá vỡ các tương quan thời gian. 4: for episode = 1, M do Mỗi tương tác với môi trường được lưu trữ dưới dạng các bộ 5: Khởi tạo quá trình ngẫu nhiên Nt cho thăm dò hành giá trị theo dạng [st , a, r, st+1 ], là trạng thái hiện tại, hành động 6: Quan sát trạng thái đầu tiên s1 động để thực hiện, phần thưởng khi thực hiện hành động a ở 7: for t=1,T do trạng thái st , và trạng thái tiếp theo, tương ứng (Thuật toán 8: Lựa chọn hành động at = µ(st |θµ )+Nt theo chính 1 (dòng 9)) và trong giai đoạn học tập, một tập hợp dữ liệu sách hiện tại và nhiễu thăm dò được trích xuất ngẫu nhiên từ bộ đệm được sử dụng (Thuật 9: Thực thi hành động at quan sát phần thưởng rt và toán 1 (dòng 10)). Ngoài ra, các mạng mục tiêu được khai trạng thái tiếp theo st+1 thác để tránh sự phân kỳ của thuật toán gây ra bởi các cập 10: Lưu trữ (st , at , rt , st+1 ) vào bộ nhớ R nhật trực tiếp của trọng số mạng với gradient thu được từ tín 11: Lấy mẫu ngẫu nhiên N bộ (st , at , rt , st+1 ) từ R hiệu lỗi TD. ′ ′ ′ ′ 12: Đặt yi = ri + γQ (si+1 , µ (si+1 |θu )|θQ Áp dụng thuật toán DDPG vào mô hình hệ thống với tác Cập nhật nhân: 20 UAV với một UAV gốc thực hiện nhiệm vụ xác định 13: Pmạng Đánh giá bằng cách giảm tổn hao: L = N1 i (yi − Q(si , ai |θQ ))2 hướng di chuyển và tốc độ của các UAV khác. Tập hành động, 14: Cập nhật chính sách hành động sử dụng sampled tập trạng thái và hàm phần thưởng được xác định trong phần policy gradien: II Mô hình hệ thống. ∇θµ J ≈ N1 ∇a Q(s, a|θQ )|s=si ,a=µ( si ) ∇θµ µ(s|θµ )|si P i IV. MÔ PHỎNG VÀ KẾT QUẢ 15: Cập nhật mạng mục tiêu: ′ ′ A. Thiết lập mô phỏng θQ ← τ θQ + (1 − τ )θQ Chúng tôi xét một tập hợp gồm các UAVs, với bán kính ′ ′ θµ ← τ θµ + (1 − τ )θµ cảm biến rs và bán kính giao tiếp rc được đặt lần lượt là 80m và 160m. Các UAVs được đặt trong môi trường với các giá trị 16: end for quan tâm được phân bố theo hàm Gausian cơ bản. Để làm rõ 17: end for ràng hơn, chúng tôi xem xét hệ thống UAV hoạt động trong môi trường 2D (tức là hệ tọa độ (x, y)), tương ứng với tất cả các UAVs có cùng độ cao. Diện tích hệ thống bao quát là State S 1000 × 1000 [m]. Mô phỏng được thực hiện bằng Python. Tác nhân trong hệ thống sử dụng cấu trúc mạng DDPG như bảng III. Mạng Chính sách có lần lượt 521 nút với FC1-2 và Output là 2. Mạng Đánh giá cũng có giá trị lần lượt là 512 Actor µ TD_error Critic Q nút với FC1-2 và Output là 1. Các thông số cơ bản được thể hiện dưới bảng sau. Reward r Bảng I: Tham số hệ thống Tham số Giá trị Action a EVIRONMENT Bán kính giao tiếp 160m bán kính cảm biến 80m Khu vực giám sát 1000mx1000m Số lượng UAVs 15, 20 Hình 2: Cấu trúc mạng chính sách-đánh giá Hệ số tiêu hao năng lượng 8 J/m Đánh giá được thiết kế với mạng nơ-ron Mạng giá trị được Bảng II: Tham số huấn luyện cập nhật dựa trên phương trình Bellman [25] bằng cách giảm Tham số Giá trị thiểu bình phương trung bình mất mát giữa giá trị Q được cập Số tập huấn luyện 500 nhật và giá trị gốc, có thể được xây dựng như trong Thuật Beta 0.002 Gamma 0.99 toán 1 (dòng 11). Như đối với bản cập nhật của mạng chính Batch size 64 sách (dòng 13), nó dựa trên định lý gradient chính sách xác Noise 0.1 định [24]. Optimizer Adam Ngoài ra còn có một số thủ thuật thực tế được sử dụng để ISBN 978-604-80-7468-5 307
  5. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) Bảng III: Tham số network Network Layer kích thước Activation Chính sách FC1 512 Phần Thưởng FC2 512 Output 2 Relu Đánh giá FC1 512 FC2 512 Output 1 Số tập huấn luyện Phần Thưởng Hình 4: Hàm phần thưởng của quá trình huấn luyện với N=20 [4] S. Ouahouah, M. Bagaa, J. Prados-Garzon, and T. Taleb, “Deep- reinforcement-learning-based collision avoidance in UAV environment,” IEEE Internet of Things Journal, vol. 9, no. 6, pp. 4015–4030, 2022. Số tập huấn luyện [5] R. J. a. L. Hartley, I. L. Henderson, and C. L. Jackson, “BVLOS unmanned aircraft operations in forest environments,” Drones, vol. 6, no. 7, p. 167, 2022. Hình 3: Hàm phần thưởng của quá trình huấn luyện với N=15 [6] K. H. Terkildsen, U. P. Schultz, and K. Jensen, “Safely flying BVLOS in the EU with an unreliable UAS,” in 2021 International Conference on Unmanned Aircraft Systems (ICUAS). IEEE, 2021, pp. 591–601. [7] H. Yang, J. Zhao, J. Nie, N. Kumar, K.-Y. Lam, and Z. Xiong, “UAV- B. Kết quả mô phỏng assisted 5G/6G networks: Joint scheduling and resource allocation based on asynchronous reinforcement learning,” in IEEE INFOCOM 2021- Trong phần này sẽ thể hiện kết quả mô phỏng của thuật toán IEEE Conference on Computer Communications Workshops (INFOCOM DDPG giám sát môi trường qua các thiết bị bay không người WKSHPS). IEEE, 2021, pp. 1–6. [8] P. Smyczy´nski, Ł. Starzec, and G. Granosik, “Autonomous drone control lái. Các hình vẽ thể hiện giá trị hàm phần thưởng có được ứng system for object tracking: Flexible system design with implementation với các số lượng tập huấn luyện là 500 trong 2 trường hợp có example,” in 2017 22nd International Conference on Methods and số lượng UAV lần lượt là 15 với 20. Chúng ta có thể thấy thuật Models in Automation and Robotics (MMAR). IEEE, 2017, pp. 734– 738. toán hội tụ xung quanh tập 60. Với trường hợp N=20 chúng [9] I. Jawhar, N. Mohamed, and J. Al-Jaroodi, “UAV-based data commu- ta có tầm phủ sóng rộng hơn trả lại phần thưởng lớn hơn. nication in wireless sensor networks: Models and strategies,” in 2015 International Conference on Unmanned Aircraft Systems (ICUAS), 2015, V. TỔNG KẾT pp. 687–694. [10] D. Popescu, C. Dragana, F. Stoican, L. Ichim, and G. Stamatescu, “A Trong nghiên cứu này, chúng tôi xét vấn đề giám sát môi collaborative UAV-WSN network for monitoring large areas,” Sensors, trường điều khiển thiết bị bay không người lái UAVs bằng vol. 18, no. 12, p. 4202, 2018. thuật toán học tăng cường sâu. Mỗi UAV với bán kính cảm [11] M. Mozaffari, W. Saad, M. Bennis, Y.-H. Nam, and M. Debbah, “A tutorial on UAVs for wireless networks: Applications, challenges, and biến ghi lại các thông số liên quan đến môi trường, bán kính open problems,” IEEE communications surveys & tutorials, vol. 21, giao tiếp kể kết nối với các UAV khác, vấn đề đặt ra là tìm no. 3, pp. 2334–2360, 2019. kiến chính sách hoạt động để các UAV có thể bao phủ được [12] J. R. Antunes, L. Brisolara, and P. R. Ferreira, “UAVs as data collectors vùng diện tích lớn nhất với các giá trị quan tâm mà đảm bảo in the WSNs: Investigating the effects of back-and-forth and spiral coverage paths in the network lifetime,” in 2020 X Brazilian Symposium kết nối giữa các UAV. Để giải quyết vấn đề này, chúng tôi on Computing Systems Engineering (SBESC), 2020, pp. 1–8. áp dụng thuật toán học tăng cường sâu DDPG để tối ưu hóa [13] N. Tekin and V. C. Gungor, “Lifetime analysis of error control schemes chính sách hoạt động của các UAV, giảm thiểu năng lượng on wireless sensor networks in industrial environments,” in 2019 27th Signal Processing and Communications Applications Conference (SIU), tiêu hao duy chuyển. Các kết quả mô phỏng đã cho thấy khả 2019, pp. 1–4. năng áp dụng điều khiển nhiều UAVs vào ứng dụng trong các [14] K. Arulkumaran, M. P. Deisenroth, M. Brundage, and A. A. Bharath, môi trường thực tế. “Deep reinforcement learning: A brief survey,” IEEE Signal Processing Magazine, vol. 34, no. 6, pp. 26–38, 2017. TÀI LIỆU THAM KHẢO [15] G. Gupta and R. Katarya, “A study of deep reinforcement learning based recommender systems,” in 2021 2nd International Conference on Secure [1] Z. Zuo, C. Liu, Q.-L. Han, and J. Song, “Unmanned aerial vehicles: Con- Cyber Computing and Communications (ICSCCC). IEEE, 2021, pp. trol methods and future challenges,” IEEE/CAA Journal of Automatica 218–220. Sinica, no. 99, pp. 1–14, 2022. [16] H. Li, T. Wei, A. Ren, Q. Zhu, and Y. Wang, “Deep reinforcement learn- [2] G. Sun, J. Li, A. Wang, Q. Wu, Z. Sun, and Y. Liu, “Secure and energy- ing: Framework, applications, and embedded implementations: Invited efficient uav relay communications exploiting collaborative beamform- paper,” in 2017 IEEE/ACM International Conference on Computer-Aided ing,” IEEE Transactions on Communications, vol. 70, no. 8, pp. 5401– Design (ICCAD), 2017, pp. 847–854. 5416, 2022. [17] H. van Hasselt and M. A. Wiering, “Reinforcement learning in con- [3] M. Khosravi and H. Pishro-Nik, “Unmanned aerial vehicles for package tinuous action spaces,” in 2007 IEEE International Symposium on delivery and network coverage,” in 2020 IEEE 91st Vehicular Technology Approximate Dynamic Programming and Reinforcement Learning, 2007, Conference (VTC2020-Spring). IEEE, 2020, pp. 1–5. pp. 272–279. ISBN 978-604-80-7468-5 308
  6. Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) [18] N. Cressie, Statistics for spatial data. John Wiley & Sons, 2015. [19] M. Rahimi, H. Shah, G. S. Sukhatme, J. Heideman, and D. Estrin, “Studying the feasibility of energy harvesting in a mobile sensor network,” in 2003 IEEE International Conference on Robotics and Automation (Cat. No. 03CH37422), vol. 1. IEEE, 2003, pp. 19–24. [20] D. Van Le, H. Oh, and S. Yoon, “Virfid: A virtual force (vf)-based interest-driven moving phenomenon monitoring scheme using multiple mobile sensor nodes,” Ad Hoc Networks, vol. 27, pp. 112–132, 2015. [21] S. Yoon, O. Soysal, M. Demirbas, and C. Qiao, “Coordinated loco- motion and monitoring using autonomous mobile sensor nodes,” IEEE Transactions on Parallel and Distributed Systems, vol. 22, no. 10, pp. 1742–1756, 2011. [22] T. H. Cormen, C. E. Leiserson, R. L. Rivest, and C. Stein, “33.3: Finding the convex hull,” Introduction to Algorithms, pp. 955–956, 1990. [23] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski et al., “Human-level control through deep reinforcement learning,” nature, vol. 518, no. 7540, pp. 529–533, 2015. [24] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv preprint arXiv:1509.02971, 2015. [25] R. Bellman, “Dynamic programming,” 2013. ISBN 978-604-80-7468-5 309
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2