Ứng dụng thuật toán “rừng ngẫu nhiên” cho phân tích hồi qui khả năng chịu tải của khung thép phi tuyến

Chia sẻ: ViJijen ViJijen | Ngày: | Loại File: PDF | Số trang:11

Thêm vào BST

Báo xấu

37
lượt xem 5
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong bài viết này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép. Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép. Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Ứng dụng thuật toán “rừng ngẫu nhiên” cho phân tích hồi qui khả năng chịu tải của khung thép phi tuyến

Tạp chí Khoa học Công nghệ Xây dựng, NUCE 2021. 15 (2V): 110–120 ỨNG DỤNG THUẬT TOÁN “RỪNG NGẪU NHIÊN” CHO PHÂN TÍCH HỒI QUI KHẢ NĂNG CHỊU TẢI CỦA KHUNG THÉP PHI TUYẾN Hà Mạnh Hùnga,∗ a Khoa Xây dựng dân dụng và Công nghiệp, Trường Đại học Xây dựng, 55 đường Giải Phóng, quận Hai Bà Trưng, Hà Nội, Việt Nam Nhận ngày 11/04/2021, Sửa xong 06/05/2021, Chấp nhận đăng 07/05/2021 Tóm tắt Các bài toán thiết kế công trình phức tạp như thiết kế tối ưu hay tính toán độ tin cậy tiêu tốn thời gian rất lớn đặc biệt là trong trường hợp sử dụng các phân tích phi tuyến. Vấn đề này có thể được giải quyết bằng cách sử dụng các mô hình dự báo như sử dụng các thuật toán máy học nhằm dự đoán ứng xử của công trình. Thuật toán “rừng ngẫu nhiên” được xem là một trong những thuật toán máy học tốt nhất hiện nay nhờ sự ứng dụng hiệu quả của nó trong nhiều lĩnh vực nghiên cứu đối với cả bài toán phân tích hồi qui và phân loại. Trong bài báo này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép. Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép. Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu. Một khung thép không gian 6 tầng được sử dụng làm ví dụ để đánh giá hiệu quả của mô hình. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng ≥ 100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; Và, độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiện quả mang lại về mặt kết quả và thời gian tính toán. Từ khoá: rừng ngẫu nhiên; máy học; phân tích trực tiếp; khung thép; phi tuyến. RANDOM FOREST-BASED METHOD FOR REGRESSION OF LOAD-CARRYING CAPACITY OF NON- LINEAR STEEL FRAMES Abstract Complex structural design problems such as optimal design or reliability calculation take excessive computa- tional efforts, especially in the case of using nonlinear analyzes. This problem can be solved by using meta- models such as using machine learning algorithms to predict building responses. The random forest has been considered as one of the most robust Machine Learning techniques since it has been successfully applied for both regression and classification problems in many fields. In this paper, we develop a random forest-based method for regression and classification of the load-carrying capacity of steel frames. Direct analysis is used to estimate the load-carrying capacity of this frame. The input variables are the information of cross-sections of structural members and material. A six-story space frame is studied to demonstrate the efficiency of the proposed method. The obtained results show that the number of decision-making trees should be greater than 100; For regression problems, decision trees should be divided up to maximum depth; And, the accuracy of the model increases when the number of trained samples increases but it should be considered based on the correlation between the results in terms of efficiency and calculation time. Keywords: random forest; machine learning; direct analysis; steel frame; nonlinear. https://doi.org/10.31814/stce.nuce2021-15(2V)-09 © 2021 Trường Đại học Xây dựng (NUCE) ∗ Tác giả đại diện. Địa chỉ e-mail: hunghm@nuce.edu.vn (Hùng, H. M.) 110
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng 1. Giới thiệu Phân tích kết cấu công trình đòi hỏi phản ánh càng sát ứng xử thực tế của công trình càng tốt. Chính vì vậy, các phương pháp phân tích hiện đại dựa trên phân tích trực tiếp ngày càng được sử dụng rộng rãi, đặc biệt là đối với kết cấu thép [1, 2]. Phân tích trực tiếp cũng được chấp nhận trong các phiên bản mới của các tiêu chuẩn AISC LRFD [3]. Ưu điểm của các phương pháp phân tích trực tiếp là chúng có khả năng mô tả ứng xử của cả hệ thống kết cấu công trình khi chịu tải trọng, đặc biệt là sự thay đổi của công trình khi tải trọng thay đổi. Qua đó, khả năng chịu tải của toàn bộ hệ thống công trình sẽ được xác định. Tính an toàn của công trình sẽ được đánh giá một cách đơn giản thông qua việc so sánh khả năng chịu tải của công trình không được nhỏ hơn áp lực do tải trọng gây ra [1, 2]. Tuy nhiên, các phân tích trực tiếp thường rất tốn thời gian. Do vậy, ứng dụng của chúng còn hạn chế, đặc biệt là đối với các bài toán đòi hỏi phải có nhiều lần phân tích kết cấu như là bài toán tối ưu hay tính toán độ tin cậy của công trình [4–6]. Để giảm bớt số lượng phân tích kết cấu trong các bài toán này, một cách tiếp cận gần đúng sử dụng các mô hình thuật toán máy học (Machine learning) (ML) đang thu hút được sự quan tâm nghiên cứu trong thời gian gần đây [7, 8]. Nói một cách tổng quát, các thuật toán ML trang bị cho máy tính khả năng tự động hiểu, phân tích, xử lý và học hỏi từ thông tin/dữ liệu đầu vào và từ đó để thực hiện các nhiệm vụ được giao. Dựa trên đặc điểm này, thuật toán máy học có thể được sử dụng để huấn luyện máy tính có khả năng ước lượng ứng xử của kết cấu công trình dựa trên các thông tin đầu vào của kết cấu ví dụ như: kích thước, đặc điểm vật liệu, đặc điểm tải trọng, v.v. Một số nghiên cứu nổi bật về việc ứng dụng các thuật toán ML vào đánh giá ứng xử của kết cấu có thể kể đến ở đây như sau. Vũ và cs. [9] đã ứng dụng thuật toán Gradient Tree Boosting (GTB) để ước lượng khả năng chịu tải của cọc ống thép nhồi bê tông (CFST). Hùng và cs. [10] trình bày các xử lý hiện tượng quá khớp trong mô hình học sâu (Deep Learning) (DL) cho giàn thép phi tuyến. Ứng dụng các thuật toán ML để tính độ tin cậy của công trình cũng được nhiều nhà khoa học quan tâm nghiên cứu như: Yang và Hsieh [11] sử dụng Support Vector Machine (SVM), Chen và cs. [12] sử dụng Kriging, Gholizadeh [13] sử dụng mạng nơ-ron lan truyền ngược (back-propagation neural network), v.v. Bên cạnh đó, việc đánh giá/nhận diện hư hỏng của công trình bằng các thuật toán ML cũng thu được áp dụng ngày càng nhiều. Ví dụ như Oh và cs. [14] sử dụng Bayesian để phân loại các trạng thái hư hỏng của công trình chịu động đất. Hasni và cs. [15] sử dụng SVM để theo dõi sức khỏe công trình thép. Trong việc ứng dụng thuật toán ML vào các bài toán thiết kế công trình, sự hiệu quả phụ thuộc rất nhiều yếu tố, trong đó có 2 yếu tố cơ bản cần lưu ý như sau. Thứ nhất, không có một thuật toán nào được xem là vượt trội hơn cả mà tùy thuộc vào lớp bài toán hay cụ thể hơn là đặc điểm của bài toán thiết kế. Do vậy, sự nghiên cứu và ứng dụng các thuật toán ML mới luôn là hết sức cần thiết nhằm tối ưu hóa trong công việc. Thứ hai, tính hiệu quả của mỗi thuật toán ML ảnh hưởng khá nhiều bởi việc lựa chọn các giá trị tham số hệ thống mà số lượng tham số hệ thống của mỗi thuật toán lại khá nhiều. Cho nên, đối với mỗi lớp bài toán cụ thể, chúng ta cần thực hiện các phân tích, đánh giá nhằm tìm ra cách sử dụng các tham số là hiệu quả nhất cho mô hình huấn luyện. Dựa trên quan điểm đó, trong bài báo này, tác giả trình bày chi tiết cách xây dựng mô hình huấn luyện cho bài toán ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên (Random Forest) (RF). Thuật toán rừng ngẫu nhiên được lựa chọn dựa trên sự hiệu quả, mạnh mẽ của nó trong việc giải quyết các bài toán phân tích hồi qui và phân loại [16, 17]. Thêm vào đó, chưa có nghiên cứu cụ thể nào trình bày sự áp dụng thuật toán này vào bài toán ước lượng khả năng chịu tải của khung thép phi tuyến. Một khung thép không gian 6 tầng được sử dụng để minh họa cho cách thiết lập mô hình huấn luyện sử dụng RF. Ảnh hưởng của các tham số hệ thống của RF đến hiệu quả của mô hình cũng được tiến hành phân tích nhằm đưa ra các đề xuất lựa chọn giá trị tham số 111
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng hợp lý. 2. Thuật toán rừng ngẫu nhiên RF được giới thiệu lần đầu tiên bởi Breiman vào năm 2001 [18]. Nó là một phương pháp phân loại và hồi quy theo phương thức học có kiểm soát, bao gồm sự kết hợp nhiều cây dự báo/cây ra quyết định. Mỗi cây ra quyết định được tạo ra dựa trên một tập mẫu huấn luyện ngẫu nhiên được tạo ra từ tập mẫu huấn luyện ban đầu với cùng độ lớn theo nguyên tắc lấy mẫu có hoàn lại (phương pháp Bootstrap) nghĩa là một mẫu có thể được lấy nhiều lần. Các cây ra quyết định dựa trên tập mẫu vừa tạo ra với nguyên tắc chỉ sử dụng một số lượng biến đầu vào tại mỗi nút phân chia. Kết quả cuối cùng là giá trị trung bình kết quả thu được từ tất cả các cây ra quyết định. Bằng cách sử dụng thật nhiều cây Tạp chí ra quyết định, saiKhoa họclượng số ước Công nghệ Xâyhình của mô dựng,sẽNUCE2020 được giảmp-ISSN 2615-9058; đi đáng e-ISSN kể. Nguyên 2734-9489 lý của thuật toán được tóm tắt trong Hình 1. 106 107 Hình Hình1.1.Thuật Thuật toán rừngngẫu toán rừng ngẫunhiên nhiên 108 Trong Trong bài toánbàihồitoán quy,hồi các quy, cây dựcácbáo cây sẽ dự nhậnbáo cácsẽgiá nhận các trị số cụgiá thể trị thaysốvìcụkỹthể thay thuật vì loại phân kỹ (ra 109quyếtthuật định)phân [19].loại Trong quyếtkếđịnh) (ra thiết [19]. các cây ra Trong thiếtcủa quyết định kế các phâncâytíchrahồi quyếtquy,định của được các cây phâncho tíchphép triểnquy, 110phát hồi đến các câytối độ sâu được chodữphép đa của liệu phát luyệnđến huấntriển mà độ tối đa sâu tiến không củagiản hành dữ liệu lược huấn luyện lại (ngắt mà Đây cành). 111cũng không tiến hành giản lược lại (ngắt cành). Đây cũng là một ưu điểm chính của thuậtchính là một ưu điểm chính của thuật toán này bởi vì việc thực hiện giản lược cây là một yếu tố 112ảnh hưởng đếnbởi toán này hiệuvìsuất việccủa mô hiện thực hình [20]. Breiman giản lược cây[19] cũngyếu là một chotốrằng chínhkhiảnh số lượng hưởng câyđến tăng lên, sai hiệu số tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình quá khớp 113 suất của mô hình [20]. Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large Numbers) [21]. Số lượng biến 114đượctổng quát(N) sử dụng luôntạihội mỗitụnút ngayđể cả tạokhi ra không một câygiản lược định ra quyết cây, vàvà việc xử lýcây số lượng hiệnra tượng mô hình quyết định (k) được quálàkhớp 115sử dụng được hai tham số thực hiệndùng do người dựalựa trên nguyên chọn tắc luật số lớn (Strong Law of Large trước [19]. 116 Dựa Numbers) [21]. trên trình lượng bàySốtrên đây, biến chúngđược sửradụng ta rút được(N) cáctại mỗi số thông để tạo nútquan ra một trọng câyảnh có thể ra hưởng quyết đến 117hiệu định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng kỹ suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định được sử dụng; (2) lựathuật 118lấy mẫu chọn(sửtrước dụng[19]. hay không sử dụng kỹ thuật bootstrap); (3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông số đầu vào và thông số đầu ra của mô hình. 119 Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể 120 ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định 121 được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap); 112 122 (3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông 123 số đầu vào và thông số đầu ra của mô hình. 124 3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng 3. Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải của khung thép 3.1. Khả năng chịu tải của khung thép Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên công trình. Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, ngược lại thì công trình sẽ mất an toàn. Để chuẩn hóa tính chất này, thay vì sử dụng khái niệm khả năng chịu tải của kết cấu, chúng ta có thể sử dụng thông số “hệ số khả năng chịu tải của kết cấu” (LF) được định nghĩa là tỉ lệ giữa khả năng chịu tải của công trình (R) và hiệu ứng do tải trọng gây ra (S): R LF = (1) S Lúc này kết cấu được xem là an toàn nếu LF ≥ 1 và ngược lại. Trong nghiên cứu này, LF của khung thép được tính toán dựa trên phân tích phi tuyến tính phi đàn hồi trình bày trong tài liệu [1]. 3.2. Xây dựng tập dữ liệu huấn luyện Xây dựng tập dữ liệu luôn là bước đầu tiên và quan trọng nhất cho việc xây dựng mô hình huấn luyện. Để việc nắm bắtTạpcách thức chí Khoa xâynghệdựng học Công dữNUCE2020 Xây dựng, liệu cho bài p-ISSN toáne-ISSN 2615-9058; ước 2734-9489 lượng khả năng chịu tải của 148 149 Hình 2. Khung thép không gian 6 tầng Hình 2. Khung thép không gian 6 tầng 150 Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các 151 tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng 152 113 để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi 153 tuyến tính phi đàn hồi được thực hiện để thu được LF tương ứng. Hình 3 thể hiện sự 6
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489 154 phân bố giá trị LF của 20000 dữ liệu được tạo ra. Dựa vào hình chúng ta thấy, LF của 155 khung nằm chủ yếu trong khoảng giá trị từ (0.5 – 4.0). Tỉ lệ LF < 1 chiếm khoảng 29%. 156 LF được lựa chọn là Hùng, thông M.đầu H.số / Tạp rachí củaKhoa học Công mô hình huấnnghệ Xây luyện. dựng số đầu vào của mô Thông 157 hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc khung thép, một ví dụ khung thép không gian 6 tầng như trong Hình 2 được sử dụng để minh họa 158 trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác trực tiếp. Trong khung, các dầm và cột được chia thành 13 nhóm tiết diện khác nhau như trên Hình 2. 159 của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình Các cột được thiết kế sử dụng tiết diện W12 và W14, và các dầm được thiết kế sử dụng tiết diện W10, 160 huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày W12, W14 và W16. Vật liệu thép là A992 với mô-đun đàn hồi bằng 200 (Gpa) và cường độ chảy bằng 161 trong Bảng 1 được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn 345 (Mpa). Tải trọng gió tác dụng theo phương Y tại các nút khung có giá trị là 20 kN. Tải trọng thẳng 162 trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết đứng phân bố trên các dầm bằng 5,5 kN/m. 163 diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào. 164 165 Hình 3. Phân bố giá trị của LF của tập dữ liệu Hình 3. Phân bố giá trị của LF của tập dữ liệu 166 Bảng 1. Đặc trưng hình học của tiết diện được xem xét như biến đầu vào Đặc trưng của tiết diện Bảng 1.1Đặc trưngHệhình học của số cong vênhtiết diện được xem xét như biến đầu vào 2 Bán kính hồi chuyển đối với trục yếu 3 Mô men tĩnh đối với trục y trưng của tiết diện Đặc 4 Mô men tĩnh đối với trục z 1 5 Hệ số xoắnHệ số cong vênh 2 6 Mô men quán Bántính đốihồi kính vớichuyển trục y đối với trục yếu 3 7 Mô men quán tính đối với Mô men tĩnh đối trụcvới z trục y 4 8 Diện tích tiết diện Mô men tĩnh đối với trục z 9 Diện tích miền cắt để tính cắt dọc theo trục y 5 10 Hệ số Diện tích miền cắtxoắn để tính cắt dọc theo trục z 6 11 Mô men quán Môtínhmen quán dẻo tínhtrục đối với đốiyvới trục y 7 12 Mô men quán Môtínhmendẻo đối với quán tínhtrục đốizvới trục z 8 13 Chiều cao tiết diện Diện tích tiết diện 9 14 Chiều rộngDiện bản cánh tích miền cắt để tính cắt dọc theo trục y 15 Chiều dày bản cánh 10 16 Chiều dày vách tích miền cắt để tính cắt dọc theo trục z Diện 11 Mô men quán tính dẻo đối với trục y 12 Mô men quán tính dẻo đối với trục z 13 Chiều cao 7 tiết diện 14 Chiều rộng bản cánh 15 Chiều dày bản cánh 16 Chiều dày vách Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các tiết diện dầm và cột khác nhau. Phần mềm phân tích phi tuyến PAAP [1] được sử dụng để tạo mẫu. Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi tuyến tính phi đàn hồi được thực hiện để thu được LF tương ứng. Hình 3 thể hiện sự phân bố giá trị LF của 20000 dữ liệu được tạo ra. Dựa vào 114
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng hình chúng ta thấy, LF của khung nằm chủ yếu trong khoảng giá trị từ (0,5 – 4,0). Tỉ lệ LF < 1 chiếm khoảng 29%. LF được lựa chọn là thông số đầu ra của mô hình huấn luyện. Thông số đầu vào của mô hình là các đặc trưng của tiết diện dầm và cột. Đối với bài toán khung, rất nhiều đặc trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu. Do vậy, để độ chính xác của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình huấn luyện càng tốt. Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày trong Bảng 1 được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng. Với 13 nhóm tiết diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào. 3.3. Xây dựng mô hình huấn luyện Trình tự các bước xây dựng mô hình huấn luyện sử dụng thuật toán rừng ngẫu nhiên như sau: Bước 1: Xây dựng bài toán. Trong bước này chúng ta cần xây dựng được tập dữ liệu, xác định được các biến đầu vào và biến đầu ra của mô hình huấn luyện. Đây chính là nội dung đã được trình bày chi tiết trong phần 3.2. Bước 2: Phân chia tập dữ liệu và chuẩn hóa dữ liệu. Tập dữ liệu ban đầu sẽ được phân chia thành 2 tập riêng biệt: (1) tập huấn luyện được sử dụng cho quá trình huấn luyện mô hình và (2) tập kiểm tra được sử dụng để đánh giá hiệu quả của mô hình. Đối với các tập dữ liệu có giá trị của các thông số đầu vào khác nhau quá nhiều, các dữ liệu thường được chuẩn hóa bằng cách đưa về trong khoảng [0, 1] nhằm việc huấn luyện đạt hiệu quả cao hơn. Công thức để chuẩn hóa được sử dụng như sau: xi xi0 = (2) [xi ] trong đó [xi ] là giá trị lớn nhất của biến đầu vào xi . Bước 3: Xây dựng mô hình huấn luyện. Một số tham số chính của mô hình như sau: - Hàm mất mát (loss function): Hàm mất mát được hiểu là hàm mục tiêu sẽ được tối thiểu hóa trong quá trình huấn luyện của mô hình. Đối với bài toán phân tích hồi quy, các dạng hàm mất mát thường dùng: “sai số toàn phương trung bình” (mean-squared-error) (MSE), “sai số tuyệt đối trung bình” (mean-absolute-error) (MAE). Trong nghiên cứu này, hàm MSE được sử dụng. - Số lượng cây ra quyết định (n_estimators): đây là một tham số có ảnh hưởng rất lớn đến độ chính xác cùa mô hình. Vai trò của cây ra quyết định đã được trình bày và phân tích trong phần 2. - Kỹ thuật lấy mẫu: có 2 kỹ thuật cơ bản là: (1) lấy mẫu có hoàn lại (phương pháp Bootstrap) và (2) toàn bộ mẫu được sử dụng để xây dựng mỗi cây ra quyết định. Bước 4: Huấn luyện mô hình. Đây là dạng huấn luyện có kiểm soát trên tập huấn luyện. Hiệu suất của mô hình được đánh giá dựa vào tập kiểm tra. Mô hình thu được được sử dụng để ước lượng hệ số khả năng chịu tải của khung thép. 4. Kết quả Trong phần này, chúng ta lần lượt đánh giá ảnh hưởng của các thông số mô hình đến hiệu suất làm việc của mô hình rừng ngẫu nhiên. Từ đó, các khuyến nghị được đưa nhà nhằm giúp người đọc có thể lựa chọn hiệu quả hơn khi áp dụng thuật toán này vào trong công việc của mình. Ngôn ngữ lập trình Python cùng thư viện Sklearn được sử dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên. 115
Tạp chí Khoa học Công Hùng, H. M.nghệ Xây dựng, / Tạp NUCE2020 chí Khoa học Công p-ISSN nghệ Xâye-ISSN 2615-9058; dựng2734-9489 4.1. Ảnh hưởng của số lượng cây ra quyết định 200 dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên. Trong phân201tích4.1. đầu Ảnhtiên hưởngvềcủa ảnh hưởng số lượng câycủa số định ra quyết lượng cây ra quyết định đến mô hình huấn luyện rừng ngẫu nhiên, 202 số lượng Trongmẫu dữ đầu phân tích liệutiêncho tậphưởng về ảnh huấncủaluyện và cây số lượng tậprakiểm tra đến quyết định đượcmô lấy bằng 5000, kỹ thuật lấy mẫu 203 là kỹhình thuật huấnlấy luyệnmẫu rừng có ngẫuhoàn nhiên, lại (sử mẫu số lượng dụng bootstrap), dữ liệu cho tập huấnsố lượng luyện và tậpcây kiểmra quyết định được tra được 204 1000. thay đổi từ 1 đến lấy bằng Dạng hàm5000, mấtkỹmát thuậtđược lấy mẫusửlàdụng kỹ thuật là lấy mẫu có MSE. Đểhoàngiảmlại (sử ảnhdụng hưởng của tính ngẫu 205 bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000. Dạng hàm mất mát nhiên đến kết quả tính toán, tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết 206 được sử dụng là MSE. Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, quả tính toán được 207 thể hiện tương trong ứng với Hìnhhợp mỗi trường 4. chương Ta cótrình thể được thấychạy rằngđộckhi sốlần. lập 10 lượng Kết quảcây tínhra quyết định tăng lên, toán giá trị hàm mất208mát được thể hiện trong Hình 4. Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, huấn luyện càng của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình tốt lên. Khi số lượng 209 giácây trị hàm ra mất mát của quyết địnhcả tập huấnsử được luyện và tập dụng 100,tragiá ≥kiểm đều giảm đi, tứcmất trị hàm mô hình máthuấn của 2 tập dữ liệu hầu 210 luyện càng tốt lên. Khi số lượng cây ra quyết định được sử dụng ≥ 100, giá trị hàm mất như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra quyết định nên được sử dụng với giá trị 211 mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ). Do vậy, số lượng cây ra đủ lớn và khuyến 212 nghị quyếtlà định 100. ≥ nên được sử dụng với giá trị đủ lớn và khuyến nghị là ≥ 100. 213 214 Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện Hình 4. Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện 215 Để làm rõ hơn hiệu quả của thuật toán RF, Hình 5 trình bày so sánh giá trị hàm 216 mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và Để làm rõ 217 hơn hiệu quả của thuật toán RF, Hình 5 trình bày so sánh giá trị hàm mất mát của thuật thuật toán SVM. Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số toán RF với 2218thuậtlượng toánmẫukhác tronglà tậpthuật kiểm tratoán được cây ralàquyết cố định định 5000. Số lượng(DT) và tập mẫu trong thuật huấntoán luyện SVM. Lưu ý rằng kết quả trình bày được thay 219 trong hìnhđổilàtừcho 500 đến tập20000 kiểmmẫu. traKết vớiquảsốcho lượng mẫu thấy rằng trong thuật tậpchokiểm toán RF giá trịtra được cố định là 5000. Số lượng220mẫuhàm mất mát trong tậpthấp hơn luyện huấn khá nhiều DT vàđổi so vớithay được SVM.từ Điều 500nàyđếncó20000 nghĩa là RF mẫu.hiệuKết quả quả cho thấy rằng 221 và mạnh hơn trong trường hợp nghiên cứu này. thuật toán RF choTạp giáchítrị hàm mất mát thấp hơn khá nhiều so với DT và SVM. Điều này có nghĩa là Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489 RF hiệu quả và mạnh hơn trong trường hợp nghiên cứu này. 9 222 223 Hình 5. So sánh hiệu quả của các thuật toán máy học Hình 5. So sánh hiệu quả của các thuật toán máy học 224 4.2. Ảnh hưởng của kỹ thuật lấy mẫu 225 Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến 226 116 hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ 227 thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn 228 luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định. 229 Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát
222 Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng 223 Hình 5. So sánh hiệu quả của các thuật toán máy học 4.2. Ảnh hưởng 224 củaẢnh 4.2. kỹ hưởng thuật của lấy kỹ mẫuthuật lấy mẫu Hình 4225 trong phần Hình4.1 4 trong cũngphầnthể4.1 cũngkết hiện thể quả hiện kết củaquả kỹcủa kỹ thuật thuật lấy lấy mẫumẫucócóhoàn lạiđến hoàn lại đến hiệu suất của 226 hiệu suất của mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh mô hình. Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ thuật lấy mẫu thông thường hưởng của kỹ lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn dụng thuật (không sử 227 bootstrap) đến hiệu suất mô hình huấn luyện. Điều này có nghĩa là tất cả dữ liệu được 228 luyện. Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định. sử dụng trong 229 mỗi cây ra quyết định. Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng Kết quả tính toán được thể hiện trong Hình 6. Ta có thể thấy rằng giá trị hàm mất mát giá trị hàm230mất của mátcảcủa cả tập tập huấn huấn luyện luyện và tập kiểmvàtra tập kiểm không thaytra đổi không thay cây khi số lượng đổirakhi sốđịnh quyết lượng cây ra quyết định tăng lên, 231 tương tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03. Đồng thời, giá trị hàm mất mát đối vớiđối với tập kiểm ứng bằng 4,15E-05 và 2,5E-03. Đồng thời, giá trị hàm mất mát tra trong trường 232 hợp tập sử tra kiểm trongkỹ dụng trường thuậthợplấy sử mẫu dụng kỹthông mẫu thông thường thuật lấy kémthường hơn rấtkémnhiều hơn rấtso với khi sử dụng kỹ nhiều thuật lấy mẫu 233 cósohoàn với khilại sử được dụng kỹ trình thuậtbày trong lấy mẫu Hình có hoàn lại4được (bằng trình1,1E-03). Điều bày trong Hình này 1.1E- 4 (bằng có nghĩa là kỹ thuật lấy mẫu có234 lại Điều hoàn03). nên nàyđượccó sử nghĩa là kỹtrong dụng thuật lấy thuậtmẫutoán có hoàn ngẫu nên được sử dụng trong thuật lại nhiên. 235 toán ngẫu nhiên. Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489 238 4.3. Ảnh hưởng của một số thông số khác 239 Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu 236 240 237 nhiên Hình 6.được Ảnhtrình hưởng ở trên, bày của một ra số cây số quyết tham số khác định đếncần quan hiệu tâm suất là:mô của số lượng (1) hình huấnmẫu tối luyện Hìnhthiểu 241 6. Ảnh tại 1hưởng số lượng nút, (2)của số cây mẫura tối quyết thiểuđịnh đếnláhiệu tại một số lượng và (3)suất của mô đầu vào biếnhình huấnlớnluyện 242 nhất cho phép sử dụng đối với một cây ra quyết định. Ảnh hưởng của 3 tham số này 10 243 được trình bày trong Hình 7, 8 và 9. Hình 7 và 8 cho thấy rằng khi quy định số lượng 244 mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi đối với cả tập 4.3. Ảnh hưởng của một số thông số khác 245 huấn luyện và tập kiểm tra. Do vậy, đối với các bài toán phân tích hồi quy, các cây ra Bên cạnh2462 tham quyếtsốđịnh nên được quan trọng xâyảnh với độ sâu dựnghưởng đa của đếntốihiệu suất củaHay dữ liệu. mônóihình một rừng ngẫu cách khác là nhiên được trình 247 số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2. Hình 9 cho thấy bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối thiểu tại 1 nút, (2) số lượng rằng việc giới lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng 248 mẫu tối thiểu tại hạn mộtsốlá và (3) số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra 249 lớn đến hiệu suất của bài toán hồi quy. Điều đó có nghĩa là người dùng có thể sử dụng quyết định. Ảnh 250 hưởng số lượng biến 3 của đầutham sốđanày vào tối cho được mỗi câytrình bàyýtrong tùy ý (lưu không Hình được quá7, bé). 8 và 9.nhiên, Tuy Hình 7 và 8 cho thấy rằng khi quy251 địnhdựasốtrên lượngHìnhmẫu tốisuất 9, hiệu thiểu tại hình của mô nút sẽvàtăng lá tăng lên một lên, chútđộ chính (không đángxáckể)của nếu môsố hình bị giảm đi 252 lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu. 253 7. Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình 254 Hình 7. Ảnh Hình hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình huấn luyện 255 huấn luyện 117
Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489 Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489 Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng 256256 257257 Hình Ảnh 8. 8. Hình hưởng Ảnh củasốsốlượng hưởngcủa lượngmẫu mẫu tối tối thiểu một láláđến thiểu tại một đếnhiệu hiệusuất suấtcủa củamô môhình hình Hình 8. 258 Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện huấn luyện 258 huấn luyện 259 259260 Hình 9. Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình Hình 260261 Hình 9. Ảnh hưởng 9. Ảnh củahưởng của số số lượng mẫulượng tốimẫu tối tại huấn thiểu thiểu luyện mộttại một lá đến lá đến hiệu hiệu suấtcủa suất của mô mô hình hình huấn luyện 261 262 huấn luyện 4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện 262263 4.4. ẢnhDựa hưởng trên các độ lớn củaphân tíchdữ liệu trên, đểhuấn đánh luyện giá ảnh hưởng của độ lớn dữ liệu huấn luyện đối với cả tập huấn luyện 263264 đếnDựa vàcác mô hình, trên tậpphân trong kiểm phần tra. này tích các Do trên, để vậy, đánh tham giáđối số của với ảnhhình mô hưởng các được của bài lựa toán độchọn lớn như phân sau:huấn dữ liệu tích số lượng hồi quy, các cây ra luyện quyết định nên được 264265 đếncây môxây dựng rahình, quyết địnhvới trong =phầnđộnày 100, kỹsâu cáctối thuật lấy đa tham sốcủa mẫu dữhình có hoàn của mô liệu. lại (sử Hay dụng được nói chọn một bootstrap), lựa cách lượng nhưsốsau: khác là số lượng mẫu số mẫu lượng tối thiểu tại 265 mỗi266lá tốira1 câylà thiểu vàtạitại quyết 1 nút địnhmỗi = 2, = 100, kỹ lượng số nút là mẫu 2.lấy thuật Hình tối thiểu mẫu 9 cho có tại thấy hoàn một(sử lại lá rằng dụng số lượng = 1 vàbootstrap), việc giớibiến sốhạn đầu số lượng vào lượng biến đầu vào mẫu 266267 tốilớn thiểunhất cho tại 1 phép nút = sử số 2, dụng đối với lượng mẫu một tối cây thiểura tại quyết một định lá = = 1sốvàlượng số biến đầu lượng biến vào. đầu Số vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng lớn đến hiệu suất của bài toán hồi quy. 267 lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số Điều đó có nghĩa là người dùng có thể sử dụng số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý 12 không được quá bé). Tuy nhiên, dựa trên Hình 9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số lượng biến đầu vào tối đa cho mỗi12cây bé hơn tổng số lượng biến đầu vào của dữ liệu. 4.4. Ảnh hưởng của độ lớn dữ liệu huấn luyện Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào. Số lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng mẫu là 5000 = 1,13E-03 bằng 44,8% so với MSE của 500 mẫu ( = 2,52E-03) và bằng 168% so với MSE của 20000 mẫu (= 6,72E-04). Rõ ràng yếu tố số lượng mẫu mang tính quyết định nhất đến độ chính xác của mô hình 118
268lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 269đến 20000. Mỗi trường hợp chương trình được chạy độc lập 10 lần. Kết quả được trình 270bày trong Hình 10. Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên 271thì độ chính xác của mô hình đối với tập kiểm tra tăng lên. MSE tương ứng với số lượng 272 mẫu là 5000 =Hùng, H. M. 1.13E-03 / Tạp bằng chí so 44.8% Khoa với học MSECông nghệ của 500 mẫuXây ( =dựng 2.52E-03) và bằng 273 168% so với MSE của 20000 mẫu ( = 6.72E-04). Rõ ràng yếu tố số lượng mẫu mang huấn luyện. Tuy 274 nhiên, việc tính quyết địnhlựa nhấtchọn đến độnhiều sốcủa chính xác lượng mẫu mô hình sẽluyện. huấn làmTuy tăng thờiviệc nhiên, gian tính toán, đặc biệt là lựa chọn thời gian tạo275 ra dữnhiều liệusốđối vớimẫu lượng cácsẽbài làmtoán sử dụng tăng thời gian tínhphân toán,tích philàtuyến đặc biệt tính thời gian tạo phi ra dữđànliệu hồi như trong bài báo này. Cụ thể, đối với 276 đối vớicác5000 mẫu bài toán sử thì dụngthời phângian dự tính tạotuyến tích phi liệuphihuấn đàn hồi như trong luyện là 8,3bài (giờ), báo này.còn 20000 mẫu là Cụsự 277vậy, 33,3 (giờ). Do thể, lựađốichọn với 5000 mẫu thì mẫu số lượng thời gian huấntạo luyện dự liệu huấn luyện là cần phải được8.3 (giờ), xemcòn xét20000 dựa trên mối quan hệ 278 mẫu là 33.3 (giờ). Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét giữa hiệu quả của mô hình và thời gian tính toán. 279 dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán. 280 281 Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình Hình 10. Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình huấn luyện 282 huấn luyện 283 5. Kết luận 284 Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của 5. Kết luận 285 khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên. Thông số đầu vào của mô 286 hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại Bài báo này 287 giới thiệu tiết diện. chi số Thông tiết đầumột ra là chương trìnhchịu hệ số khả năng ước tải lượng khảđược của kết cấu năngxác chịu định sửtải của khung thép phi dụng tuyến sử dụng288thuật phântoán tích rừng ngẫu trực tiếp nhiên. phi tuyến tínhThông số đầu phi đàn hồi. vào của Một khung thépmô hình không gianhuấn 6 tầngluyện với là các tiết diện của dầm và cột 289 với 20816 đặc biến đầutrưng vào được hình sử học để đánh dụng cho mỗigiáloại hiệu tiết diện. quả của môThông hình huấn đầu Ảnh sốluyện. ra là hệ số khả năng 290 hưởng của các thông số quan trọng của mô hình như số lượng chịu tải của kết cấu được xác định sử dụng phân tích trực tiếp phi tuyến tính phi đàn cây ra quyết định, kỹ hồi. Một khung 291 thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất thép không gian 6 tầng với 208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn 292 cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện luyện. Ảnh hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá,13số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện đến mô hình huấn luyện được phân tích, đánh giá. Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng ≥ 100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; và độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiệu quả mang lại về mặt kết quả và thời gian tính toán. Tài liệu tham khảo [1] Thai, H.-T., Kim, S.-E. (2011). Nonlinear inelastic analysis of space frames. Journal of Constructional Steel Research, 67(4):585–592. [2] Kim, S.-E., Choi, S.-H. (2001). Practical advanced analysis for semi-rigid space frames. International Journal of Solids and Structures, 38(50-51):9111–9131. [3] ANSI/AISC 360-10 (2010). Specification for structural steel buildings. Chicago (IL): American Institute of Steel Construction. [4] Ha, M.-H., Vu, Q.-V., Truong, V.-H. (2020). Optimization of nonlinear inelastic steel frames considering panel zones. Advances in Engineering Software, 142:102771. [5] Ha, M.-H., Vu, Q.-A., Truong, V.-H. (2018). Optimum Design of Stay Cables of Steel Cable-stayed Bridges Using Nonlinear Inelastic Analysis and Genetic Algorithm. Structures, 16:288–302. 119
Hùng, H. M. / Tạp chí Khoa học Công nghệ Xây dựng [6] Kim, S.-E., Truong, V.-H. (2020). Reliability Evaluation of Semirigid Steel Frames Using Advanced Analysis. Journal of Structural Engineering, 146(5):04020064. [7] Hung, T. V., Viet, V. Q., Thuat, D. V. (2019). A deep learning-based procedure for estimation of ulti- mate load carrying of steel trusses using advanced analysis. Journal of Science and Technology in Civil Engineering (STCE) - NUCE, 13(3):113–123. [8] Truong, V.-H., Vu, Q.-V., Thai, H.-T., Ha, M.-H. (2020). A robust method for safety evaluation of steel trusses using Gradient Tree Boosting algorithm. Advances in Engineering Software, 147:102825. [9] Vu, Q.-V., Truong, V.-H., Thai, H.-T. (2021). Machine learning-based prediction of CFST columns using gradient tree boosting algorithm. Composite Structures, 259:113505. [10] Hùng, H. M., Hùng, T. V., Thuật, Đ. V., Việt, V. Q. (2020). Phương pháp xử lý hiện tượng mô hình quá khớp trong xây dựng mô hình học sâu để ước lượng khả năng chịu tải của giàn phi tuyến. Tạp chí Khoa học Công nghệ Xây dựng (KHCNXD)-ĐHXD, 14(1V):12–20. [11] Yang, I.-T., Hsieh, Y.-H. (2012). Reliability-based design optimization with cooperation between support vector machine and particle swarm optimization. Engineering with Computers, 29(2):151–163. [12] Chen, W., Xu, C., Shi, Y., Ma, J., Lu, S. (2019). A hybrid Kriging-based reliability method for small failure probabilities. Reliability Engineering & System Safety, 189:31–41. [13] Gholizadeh, S. (2015). Performance-based optimum seismic design of steel structures by a modified firefly algorithm and a new neural network. Advances in Engineering Software, 81:50–65. [14] Oh, C. K., Beck, J. L., Yamada, M. (2008). Bayesian Learning Using Automatic Relevance Determination Prior with an Application to Earthquake Early Warning. Journal of Engineering Mechanics, 134(12): 1013–1020. [15] Hasni, H., Alavi, A. H., Lajnef, N., Abdelbarr, M., Masri, S. F., Chakrabartty, S. (2017). Self-powered piezo-floating-gate sensors for health monitoring of steel plates. Engineering Structures, 148:584–601. [16] Liaw, A., Wiener, M. (2002). Classification and regression by randomForest. R news, 2(3):18–22. [17] Hapfelmeier, A., Ulm, K. (2013). A new variable selection approach using Random Forests. Computa- tional Statistics & Data Analysis, 60:50–69. [18] Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–32. [19] Breiman, L. (1999). Random forests-random features. Technical Report 567, Statistics Department. University of California, Berkeley. [20] Pal, M., Mather, P. M. (2003). An assessment of the effectiveness of decision tree methods for land cover classification. Remote Sensing of Environment, 86(4):554–565. [21] Feller, W. (1968). An introduction to probability theory and its applications, volume 1. 3rd edition, John Wiley & Sons. 120