intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Toán học: Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:164

7
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng" phân tích một hoặc một vài chuỗi thời gian; đưa ra các mô hình phù hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được chọn tại một thời điểm đã chọn; tối ưu hóa kết quả cho cả dự báo ngắn hạn và dự báo dài hạn (có thể thêm dự báo trung hạn).

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Toán học: Cải tiến phương pháp học máy trong chuỗi thời gian và ứng dụng

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI ____________________ Nguyễn Quang Đạt CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY TRONG CHUỖI THỜI GIAN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội – 2023
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI ____________________ Nguyễn Quang Đạt CẢI TIẾN PHƯƠNG PHÁP HỌC MÁY TRONG CHUỖI THỜI GIAN VÀ ỨNG DỤNG Ngành: Toán học Mã số: 9460101 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Nguyễn Thị Ngọc Anh 2. PGS.TS. Nguyễn Ngọc Doanh Hà Nội - 2023
  3. i LỜI CAM ĐOAN Tôi - Nguyễn Quang Đạt - cam kết Luận án là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Thị Ngọc Anh và PGS.TS. Nguyễn Ngọc Doanh. Các kết quả nêu trong luận án là trung thực, có trích dẫn nhưng không sao chép toàn văn của bất kỳ công trình nào khác. Các kết quả đạt được trong Luận án chưa từng được các tác giả khác công bố. Hà Nội, ngày tháng năm 2023 Nghiên cứu sinh Nguyễn Quang Đạt Hà Nội, ngày tháng năm 2023 TM tập thể hướng dẫn
  4. ii LỜI CẢM ƠN Em xin trân trọng cảm ơn tập thể giáo viên hướng dẫn, là TS. Nguyễn Thị Ngọc Anh và PGS.TS. Nguyễn Ngọc Doanh, đã chỉ dẫn và giúp đỡ em trong các vấn đề chính của quá trình làm nghiên cứu. Từ dẫn hướng của thầy cô, em đã thu được các kết quả tốt nhất khi hoàn thành luận án này. Hà Nội, ngày tháng năm 2023 Nghiên cứu sinh Nguyễn Quang Đạt
  5. iii MỤC LỤC LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT . . . . . vi DANH MỤC CÁC HÌNH VẼ . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC CÁC BẢNG BIỂU . . . . . . . . . . . . . . . . . . . xii GIỚI THIỆU ĐỀ TÀI 1 CHƯƠNG 1. Một số mô hình truyền thống trong dự báo chuỗi thời gian 10 1.1 Autoregressive Integrated Moving Average - ARIMA . . . . . . . . 10 1.2 Seasonal Autoregressive Integrated Moving Average - SARIMA . . 17 1.3 Wavelet Analys - WA . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.4 Artificial neutral network – ANN . . . . . . . . . . . . . . . . . . . 28 1.5 Recurrent neural network – RNN . . . . . . . . . . . . . . . . . . . 31 1.6 Tiêu chí đánh giá các mô hình . . . . . . . . . . . . . . . . . . . . . 38 CHƯƠNG 2. Mô hình học trực tuyến 40 2.1 Dữ liệu thực tế được cập nhật liên tục . . . . . . . . . . . . . . . . 41 2.2 Cơ sở của mô hình trực tuyến . . . . . . . . . . . . . . . . . . . . . 42 2.3 Phương pháp giảm gradient trực tuyến . . . . . . . . . . . . . . . . 45 2.4 Phương pháp trực tuyến ONS . . . . . . . . . . . . . . . . . . . . . 49 2.5 Mô hình trực tuyến cho ARIMA và SARIMA . . . . . . . . . . . . 57 2.5.1 Mô hình ARIMA Online Newton step . . . . . . . . . . . . 57 2.5.2 Mô hình SARIMA Online Newton step . . . . . . . . . . . 60 2.6 Mô hình RNN trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . 71
  6. iv 2.6.1 Một số vấn đề trong mô hình RNN . . . . . . . . . . . . . . 71 2.6.2 Xây dựng cơ sở thuật toán trực tuyến . . . . . . . . . . . . 73 2.6.3 Mô tả thuật toán . . . . . . . . . . . . . . . . . . . . . . . . 79 2.7 Thực nghiệm mô hình SARIMA online với dữ liệu thực tế . . . . 84 2.7.1 Dữ liệu so sánh: dữ liệu Australia . . . . . . . . . . . . . . 84 2.7.2 Dữ liệu phụ tải điện miền bắc Việt Nam . . . . . . . . . . 84 2.8 Kết quả thực nghiệm thực tế . . . . . . . . . . . . . . . . . . . . . 85 2.8.1 Dữ liệu so sánh: dữ liệu Australia . . . . . . . . . . . . . . 85 2.8.2 Dữ liệu phụ tải điện của miền bắc Việt Nam . . . . . . . . 88 CHƯƠNG 3. Mô hình lai 93 3.1 Mô hình lai ARIMA và ANN . . . . . . . . . . . . . . . . . . . . . 96 3.2 Mô hình lai ARIMA - LSTM được lọc qua bộ lọc MA . . . . . . . 98 3.3 Mô hình lai ARIMA - Neural Network có sử dụng lọc nhiễu bằng Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3.4 Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA . . . . . . 107 3.4.1 Dữ liệu so sánh: dữ liệu Sunspot . . . . . . . . . . . . . . . 107 3.4.2 Dữ liệu mực nước . . . . . . . . . . . . . . . . . . . . . . . . 108 3.4.3 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.5 Mô hình lai ARIMA-ANN lọc nhiễu bằng Wavelet . . . . . . . . . 114 3.5.1 Dữ liệu so sánh: dữ liệu Sunspot . . . . . . . . . . . . . . . 115 3.5.2 Dữ liệu mực nước sông Hồng . . . . . . . . . . . . . . . . . 115 3.5.3 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 CHƯƠNG 4. Mô hình lai máy học trực tuyến 123 4.1 Mô hình lai máy học trực tuyến Multi-seasonal - ARIMA online - RNN online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.2 Thực nghiệm của mô hình lai máy học trực tuyến Multi-seasonal - ARIMA online - RNN online . . . . . . . . . . . . . . . . . . . . . 126 4.2.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
  7. v 4.2.2 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 KẾT LUẬN 137 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA LUẬN ÁN 140 TÀI LIỆU THAM KHẢO 143
  8. vi DANH MỤC CÁC CHỮ VIẾT TẮT VÀ CÁC KÝ HIỆU CÁC CHỮ VIẾT TẮT ARIMA Mô hình hồi quy tự động kết hợp trung bình trượt có sử dụng sai phân. SARIMA Mô hình hồi quy tự động kết hợp trung bình trượt có sử dụng sai phân và tính mùa. ANN Mô hình mạng thần kinh nhân tạo. RNN Mô hình mạng thần kinh hồi quy. WA Mô hình sóng nhỏ (Wavelets Analys). Online learning Mô hình máy học trực tuyến. Hybrid model Mô hình lai. OGD Online Gradient Descent: phương pháp giảm gradi- ent trực tuyến. ONS Online Newton Step: phương pháp học trực tuyến Newton Step. Node Tế bào/nốt/nút (trong ANN, RNN), là các thành phần nhỏ nhất của mạng thần kinh nhân tạo. MSE Trung bình bình phương sai số (mean square error ). MAE Trung bình giá trị tuyệt đối của sai số (mean abso- lute error ). MAPE Trung bình giá trị tuyệt đối của sai số tính theo phần trăm (mean absolute percentage error ).
  9. vii MỘT SỐ KÝ HIỆU TOÁN HỌC ∇ Sai phân. Ai Ma trận Hessian ở bước thứ i, kích thước (p+m)×(p+m). K Tập quyết định. D Đường kính của tập quyết định. L Hằng số Lipschitz của hàm. Li (θ) Hàm mất mát (phụ thuộc tham số θ) tại bước thứ i. ℓt (xt ) Hàm mất mát (phụ thuộc biến xt ) (tại bước thứ t). A≻0 Ma trận A xác định dương. A⪰0 Ma trận A xác định không âm. A A P (y) z= P (y) là hình chiếu của y lên P theo ma trận A ⪰ 0. P (y) Phép chiếu trực giao của y lên P . A·B Phép nhân ma trận. n A•B Phép nhân trực tiếp ma trận A • B = i,j=1 Aij Bij . Tr(A) Vết của ma trận A. Lt,w (θ; µ) Hàm time-smoothed loss được định nghĩa tại (2.79).
  10. viii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Phân tách dữ liệu tín hiệu qua 4 bậc. . . . . . . . . . . . . . 26 Hình 1.2 Mô hình Recurrent Neural Networks . . . . . . . . . . . . . . 31 Hình 1.3 Ví dụ về mô hình RNN. . . . . . . . . . . . . . . . . . . . . . 32 Hình 1.4 Một mô hình RNN với nhiều đầu vào và 1 đầu ra. . . . . . . 36 Hình 2.1 Phương hướng giải quyết vấn đề cập nhật dữ liệu của mô hình trực tuyến. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Hình 2.2 Cơ sở của việc tính toán tham số cho mô hình trực tuyến. . 44 Hình 2.3 Dữ liệu của Australia. . . . . . . . . . . . . . . . . . . . . . . 86 Hình 2.4 Thực nghiệm mô hình trực tuyến: Kết quả của mô hình SARIMA-ONS khi chạy dữ liệu của Australia (toàn bộ dữ liệu). . 87 Hình 2.5 Thực nghiệm mô hình trực tuyến: Kết quả của mô hình SARIMA-ONS khi chạy dữ liệu của Australia (một số giá trị đầu tiên của tập dữ liệu con dùng để kiểm tra testing set). . . . . . . . 87 Hình 2.6 Thực nghiệm mô hình trực tuyến: Tối ưu siêu tham số cho tự hồi quy và tự hồi quy theo mùa cho mô hình SARIMA online lúc 05 giờ sáng, đại diện cho mức tiêu thụ điện thấp. Siêu tham số tốt nhất là (p, P ) = (1, 2). . . . . . . . . . . . . . . . . . . . . . . 90 Hình 2.7 Thực nghiệm mô hình trực tuyến: Tối ưu siêu tham số cho tự hồi quy và tự hồi quy theo mùa cho mô hình SARIMA online lúc 13 giờ trưa, đại diện cho mức tiêu thụ điện cao. Siêu tham số tốt nhất là (p, P ) = (0, 5). . . . . . . . . . . . . . . . . . . . . . . . . 90
  11. ix Hình 2.8 Thực nghiệm mô hình trực tuyến: Tối ưu siêu tham số cho tự hồi quy và tự hồi quy theo mùa cho mô hình SARIMA online lúc 21 giờ đêm, đại diện cho mức tiêu thụ điện trung bình. Siêu tham số tốt nhất là (p, P ) = (2, 0). . . . . . . . . . . . . . . . . . . . 91 Hình 2.9 Thực nghiệm mô hình trực tuyến: Kết quả dự báo thời điểm 05 giờ sáng của mô hình SARIMA-ONS đối với dữ liệu phụ tải điện miền bắc Việt Nam. . . . . . . . . . . . . . . . . . . . . . . . . 91 Hình 2.10 Thực nghiệm mô hình trực tuyến: Kết quả dự báo thời điểm 13 giờ trưa của mô hình SARIMA-ONS đối với dữ liệu phụ tải điện miền bắc Việt Nam. . . . . . . . . . . . . . . . . . . . . . . . . 92 Hình 2.11 Thực nghiệm mô hình trực tuyến: Kết quả dự báo thời điểm 21 giờ đêm của mô hình SARIMA-ONS đối với dữ liệu phụ tải điện miền bắc Việt Nam. . . . . . . . . . . . . . . . . . . . . . . . . 92 Hình 3.1 Mô hình lai ARIMA-LSTM. . . . . . . . . . . . . . . . . . . . 99 Hình 3.2 Mô hình lai ARIMA - WA - Neural Networks . . . . . . . . . 106 Hình 3.3 Dữ liệu Sunspot từ năm 1870 tới năm 1987. . . . . . . . . . 108 Hình 3.4 Dữ liệu mực nước từ năm 2016 tới năm 2018. . . . . . . . . 109 Hình 3.5 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình ARIMA (Dữ liệu Sunspot). . . . 110 Hình 3.6 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình LSTM (Dữ liệu Sunspot). . . . . 111 Hình 3.7 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình của Babu [3] (Dữ liệu Sunspot). 111 Hình 3.8 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình ARIMA-LSTM dùng bộ lọc MA (Dữ liệu Sunspot). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Hình 3.9 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình ARIMA (Dữ liệu mực nước). . . 113
  12. x Hình 3.10 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình LSTM (Dữ liệu mực nước). . . . 113 Hình 3.11 Thực nghiệm mô hình lai: Mô hình lai ARIMA-LSTM được tách dữ liệu bằng MA - Mô hình ARIMA-LSTM dùng bộ lọc MA (Dữ liệu mực nước). . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Hình 3.12 Sunspot data . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Hình 3.13 Dữ liệu mực nước. . . . . . . . . . . . . . . . . . . . . . . . . 116 Hình 3.14 Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - Dữ liệu Sunspot, thành phần tuyến tính và phi tuyến. . . . . . . . 118 Hình 3.15 Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - So sánh kết quả các mô hình (ARIMA - RNN/LSTM/GRU không có Wavelet) - Dữ liệu Sunspot. . . . . . . . . . . . . . . . . . . . . 119 Hình 3.16 Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - Dữ liệu mực nước, thành phần tuyến tính và phi tuyến. . . . . . . 120 Hình 3.17 Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - So sánh kết quả các mô hình (ARIMA - RNN/LSTM/GRU không có Wavelet) - Dữ liệu mực nước . . . . . . . . . . . . . . . . . . . . 121 Hình 3.18 Thực nghiệm mô hình lai: Mô hình lai ARIMA-WA-ANN - So sánh kết quả của các mô hình (ARIMA - RNN/LSTM/GRU có sử dụng Wavelet) - Dữ liệu mực nước. . . . . . . . . . . . . . . 122 Hình 4.1 Mô hình lai trực tuyến đề xuất. . . . . . . . . . . . . . . . . . 125 Hình 4.2 Dữ liệu phụ tải điện của Australia . . . . . . . . . . . . . . . 126 Hình 4.3 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình ARIMA. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (Dữ liệu Australia). . . . . . . . . . . . . . . . . . . 131
  13. xi Hình 4.4 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình RNN. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (Dữ liệu Australia). . . . . . . . . . . . . . . . . . . . . 131 Hình 4.5 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình ARIMA online. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (Dữ liệu Australia). . . . . . . . . . . . . . . 132 Hình 4.6 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình RNN online. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (Dữ liệu Australia). . . . . . . . . . . . . . . . . . 132 Hình 4.7 Thực nghiệm lai trực tuyến: Mô hình Multi-seasonal - ARIMA online - RNN online - Mô hình đề xuất. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Australia). . . . . . . . . . . . . . . . . . . . . . . . . . 133 Hình 4.8 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình ARIMA truyền thống. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam). . . . . . . . . 134 Hình 4.9 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình ARIMA online. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam). . . . . . . . . . . . . . . 135 Hình 4.10 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình RNN truyền thống. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam). . . . . . . . . . . . . . . 135
  14. xii Hình 4.11 Thực nghiệm lai trực tuyến: Mô hình lai Multi-seasonal - ARIMA online - RNN online - Mô hình RNN online. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam). . . . . . . . . . . . . . . . . 136 Hình 4.12 Thực nghiệm lai trực tuyến: Mô hình Multi-seasonal - ARIMA online - RNN online - Mô hình đề xuất. Đường nét liền màu xanh lá cây là dữ liệu gốc, đường nét đứt màu xanh lam là dữ liệu dự báo (dữ liệu Việt Nam). . . . . . . . . . . . . . . . . . . . . . . . . 136
  15. xiii DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Một số nghiên cứu ứng dụng của mô hình ARIMA trong dự báo chuỗi thời gian. . . . . . . . . . . . . . . . . . . . . . . . . . 11 Bảng 1.2 Một số nghiên cứu ứng dụng của mô hình SARIMA trong dự báo chuỗi thời gian. . . . . . . . . . . . . . . . . . . . . . . . . . 17 Bảng 1.3 Một số nghiên cứu về mô hình có xử lý dữ liệu bằng Wavelet. 23 Bảng 1.4 Một số nghiên cứu về mạng thần kinh nhân tạo - Artificial Neural Network. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Bảng 1.5 Một số nghiên cứu về mô hình mạng nơ-ron hồi quy - Re- current Neural Network. . . . . . . . . . . . . . . . . . . . . . . . . 32 Bảng 2.1 Mô hình máy học trực tuyến. . . . . . . . . . . . . . . . . . . 40 Bảng 2.2 So sánh các đặc điểm khác nhau của mô hình SARIMA giữa mô hình máy học truyền thống và mô hình máy học trực tuyến. . 70 Bảng 2.3 So sánh các đặc điểm khác nhau của mô hình RNN giữa mô hình máy học truyền thống và mô hình máy học trực tuyến. . 83 Bảng 2.4 Kết quả của mô hình đề xuất và so sánh với một số mô hình khác trên bộ dữ liệu của Australia . . . . . . . . . . . . . . . . . . 85 Bảng 2.5 Kết quả mô hình đề xuất trên bộ dữ liệu phụ tải điện miền bắc Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Bảng 3.1 Mô hình lai giữa 2 mô hình tuyến tính và mạng thần kinh nhân tạo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Bảng 3.2 Phương pháp lai cho mô hình được đề xuất. . . . . . . . . . 101 Bảng 3.3 Các bộ dữ liệu sử dụng. . . . . . . . . . . . . . . . . . . . . . 107 Bảng 3.4 So sánh kết quả dự báo với dữ liệu Sunspot. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. . . . . . . . . . . . . 109
  16. xiv Bảng 3.5 So sánh kết quả với dữ liệu mực nước. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. . . . . . . . . . . . . . . . . 112 Bảng 3.6 So sánh kết quả dự báo mực nước. . . . . . . . . . . . . . . . 114 Bảng 3.7 Dữ liệu Sunspot. . . . . . . . . . . . . . . . . . . . . . . . . . 115 Bảng 3.8 Dữ liệu mực nước. . . . . . . . . . . . . . . . . . . . . . . . . 116 Bảng 3.9 So sánh kết quả dự báo: Sunspot (dự báo 25 bước), và mực nước (dự báo 1 bước). Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Bảng 4.1 Sử dụng tiêu chí thông tin Akaike (Akaike information cri- terion - AIC) để tìm bộ tham số (p, d, q ) tốt nhất cho bộ dữ liệu Australia. Thử với p=1,...,10; d =0,...,5; q=1,...,10. . . . . . . . . . 128 Bảng 4.2 Số lượng epochs và số lượng lớp để tìm kiếm mô hình RNN tốt nhất cho bộ dữ liệu Australia. Xem xét Epoch = 1 .. 10, slp = 2 .. 128. Kết quả tốt nhất là slp=4 và Epoch=7 hoặc 9. . . . . . 129 Bảng 4.3 Kết quả một số mô hình cho bộ dữ liệu Australia. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. . . . . . . . 130 Bảng 4.4 Kết quả dự báo bởi một số mô hình cho bộ dữ liệu miền bắc Việt Nam. Giá trị in đậm là giá trị tốt nhất trong các mô hình so sánh. Kết quả của mô hình đề xuất là tốt nhất trong tất cả các mô hình. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
  17. 1 GIỚI THIỆU ĐỀ TÀI Trong chương này, tôi giới thiệu vấn đề cần nghiên cứu gồm bài toán đặt ra, phương pháp nghiên cứu. Từ đó đó tôi làm rõ mục tiêu của Luận án và bố cục của Luận án để hướng tới giải quyết mục tiêu đặt ra. Đặt vấn đề Với sự phát triển của công nghệ thông tin, hiện nay, ngành nghiên cứu mới là xử lý dữ liệu lớn đã và đang rất được các tập đoàn, các công ty và cả các cơ quan quản lý nhà nước rất quan tâm, đầu tư nghiên cứu. Xử lý các số liệu trên toàn hệ thống có ý nghĩa rất quan trọng, tỏng đó bao gồm cả việc cố gắng dự báo với độ chính xác cao nhất nhất các dữ liệu trong tương lai (bao gồm dự báo ngắn hạn, trung hạn và dài hạn). Dữ liệu được dự báo trong chuỗi thời gian là rất quan trọng cho việc dự báo tương lai được nói tới bên trên. Các dữ liệu dự báo này, kết hợp với một số các hệ thống khác (ví dụ như trong dự báo thời tiết thì gồm có cả hệ thống ảnh vệ tinh và dữ liệu quan trắc từ các điểm đo) khi được xử lý bằng các mô hình mới hơn sẽ có thể đưa ra một kết quả chính xác cao hơn cho hệ thống, nhắm tới mục tiêu vận hành hệ thống một cách hợp lý nhất. Động cơ nghiên cứu bài toán Hiện nay tại Việt Nam đang diễn ra sự số hóa các ngành nghề rất mạnh mẽ. Không chỉ các ngành nghề có liên quan tới công nghệ thông tin, mà cả các ngành truyền thống, nhất là quản lý, cũng được tiến hành số hóa rất nhiều. Việc nghiên cứu và úng dụng dữ liệu lớn (big data) trở thành một vấn đề mang tính thời sự rất cao trong sự phát triển công nghệ thông tin trong xã hội và nền kinh tế.
  18. 2 Một trong các vấn đề của dữ liệu lớn là nghiên cứu chuỗi thời gian (time series). Một trong những mục tiếu quan trọng nhất trong xử lý chuỗi thời gian là dự báo (tiếng Anh là prediction hoặc forecasting). Dự báo chuỗi thời gian có tính ứng dụng rất rộng rãi trong các vấn đề của cuộc sống, như dự báo thời tiết, dự báo chứng khoán, dự báo dịch bệnh, và nhiều dự báo khác nữa. Vì vậy, nghiên cứu dự báo chuỗi thời gian đang trở thành một trong những nghiên cứu quan trọng cho thời điểm hiện nay. Các nghiên cứu trước đây từ lâu đã đưa ra rất nhiều các mô hình máy học (machine learning) nhằm phục vụ cho dự báo chuỗi thời gian. Các mô hình machine learning ngày càng phức tạp và mạnh mẽ, dù đòi hỏi tài nguyên ngày càng nhiểu nhưng độ chính xác cũng ngày một tăng cao. Trong Luận án này, tôi đã thiết lập một số phương pháp mới và đưa ra một số mô hình máy học mới, tăng cao hơn nữa độ chính xác cho các dự báo chuỗi thời gian so với các mô hình đã được công bố. Mục tiêu của Luận án Trong Luận án này, tôi, dưới sự hướng dẫn của tập thể các giảng viên hướng dẫn, sẽ tập trung nghiên cứu và đề xuất một số mô hình máy học mới, áp dụng cho dự báo chuỗi thời gian. Một số lý thuyết trong các mô hình mới này cần phải được chứng minh bằng toán học. Tổng thể mô hình cần được chứng minh dựa trên kết quả thực nghiệm với dữ liệu thực tế. Mô hình đề xuất phải là mô hình mới, chưa được công bố trước đây. 1. Mục tiêu hàn lâm: nghiên cứu và phân tích các mô hình đang được sử dụng rộng rãi về dự báo chuỗi thời gian, từ đó chỉ ra các vấn đề còn tồn tại của mỗi mô hình đã được nghiên cứu. Đề xuất hướng giải quyết vấn đề trên của các mô hình truyền thống, từ đó xây dựng nên mô hình dự báo mới tối ưu hơn. • Phân tích một số mô hình dự báo chuỗi thời gian truyền thống, chỉ ra vấn đề trong các mô hình này. Trong Luận án, tôi đã trọng tâm nghiên
  19. 3 cứu về các mô hình SARIMA và RNN. • Đưa ra các đề xuất về các thuật toán mới, xây dựng các mô hình mới phù hợp để tính các giá trị dự báo trong tương lai của một chuỗi thời gian được chọn tại một thời điểm đã chọn. Trong Luận án, tôi đã đề xuất 2 phương pháp là phương pháp lai (hybrid model ) và phương pháp máy học trực tuyến (online learning). 2 mô hình mới được xây dựng dựa vào các thuật toán này, đồng thời tiếp tục kết hợp cả 2 mô hình này để tạo ra một mô hình phức tạp và mạnh mẽ hơn nữa. • Thực hành các mô hình truyền thống và các mô hình mới trên một số bộ dữ liệu công khai, nhằm chứng minh độ chính xác đã được tăng lên của các mô hình đề xuất. Tạo các mô hình nhắm tới các mục tiêu dự báo ngắn hạn và dự báo dài hạn (có thể thêm dự báo trung hạn). So sánh kết quả thu được này của các mô hình mới với các mô hình truyền thống. • Đưa ra các phương hướng phát triển khả thi của nghiên cứu này và định hướng cho các nghiên cứu trong tương lai. 2. Mục tiêu ứng dụng: sử dụng các mô hình mới để dự báo các chuỗi thời gian trong bài toán thực tế đang nghiên cứu. Từ đó đưa ra được kết luận về tính khả thi của nghiên cứu. • Ứng dụng các mô hình nghiên cứu vào các bộ dữ liệu thực tế. Các dữ liệu thực tế ở đây được sử dụng là các bộ dữ liệu được công khai trên các website của các công ty (ví dụ như dữ liệu tiêu thụ điện ở Úc), hoặc là các bộ dữ liệu nổi tiếng (ví dụ như dữ liệu điểm đem mặt trời Sunspot). Các mô hình sẽ được chạy với các bộ dữ liệu thực này, sau đó dùng để so sánh các mô hình với nhau, ở đây là so sánh kết quả. Các mô hình dùng để so sánh là một số mô hình truyền thống, và một số các mô hình được các tác giả nghiên cứu gần đây và đã được công khai phương pháp nghiên cứu trên các tạp chí uy tín. Một số mô hình không
  20. 4 được các tác giả công khai mã chương trình nên sẽ được dựng lại mã nguồn, từ đó chạy chương trình và làm so sánh với các kết quả của các chương trình của mô hình khác. • Ứng dụng các mô hình mới nghiên cứ trong dự báo chuỗi thời gian của một số chuỗi thời gian trong thực tế. Các dữ liệu là dữ liệu lấy thực, được thu thập từ các nguồn chính thống, có sự đảm bảo về độ xác thực của dữ liệu. Các mô hình được chạy trực tiếp với các dữ liệu đó, cho ra kết quả, đồng thời cũng so sánh với một số kết quả của một số mô hình (chạy trên một số bộ dữ liệu thực tế). Trong các thực nghiệm với dữ liệu thực tế, tất cả các mô hình đề xuất trong nghiên cứu đều cho ra kết quả tốt nhất khi đem so sánh với các mô hình khác (các mô hình được đem ra so sánh). Từ đó khẳng định tính đúng đắn (bằng thực nghiệm) của các mô hình đề xuất. • Nêu ra tính khả dụng của mô hình dự báo đối với cả các loại dữ liệu thực tế khác. Các mô hình được đề xuất là các mô hình sử dụng chuỗi thời gian, không cố định là loại chuỗi thời gian thực tế gì. Trong các thực nghiệm, có mô hình đã sử dụng chuỗi thời gian là chuỗi thời gian mực nước, cũng có mô hình sử dụng dữ liệu là dữ liệu nghiên cứu điện năng. Vì vậy, các mô hình đề xuất là các mô hình có thể sử dụng và ứng dụng trong nhiều vấn đề khác nhau của thực tế. Bài toán cần nghiên cứu Bài toán trong Luận án này là bài toán thực nghiệm. Dựa trên các nghiên cứu toán học về các phương pháp mới và mô hình mới, Luận án sẽ đưa ra mô hình có thể giải quyết được vấn đề, đồng thời đạt được các mục tiêu đặt ra. Các vấn đề được giải quyết thông qua việc lập trình và chạy chương trình, từ đó đưa ra các nhận xét đối với các mô hình máy học khác nhau. Bài toán có thể được phát biểu và cần phải được thực hiện theo các bước như sau:
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2