intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép

Chia sẻ: ViEngland2711 ViEngland2711 | Ngày: | Loại File: PDF | Số trang:15

38
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất Mô hình hệ thống phát hiện xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép giữa thuật toán FCM, PSO và SVM. Thực nghiệm đã được tiến hành trên bộ dữ liệu chuẩn mẫu KDD CUP ‘99.

Chủ đề:
Lưu

Nội dung Text: Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép

Công nghệ thông tin<br /> <br /> MÔ HÌNH HỆ THỐNG PHÁT HIỆN BẤT THƯỜNG SỬ DỤNG<br /> THUẬT TOÁN PHÂN CỤM MỜ LAI GHÉP<br /> Vũ Đặng Giang1, Nguyễn Duy Thái1, Phạm Văn Nhã2*<br /> Tóm tắt: Tấn công và phòng thủ hệ thống mạng đang thu hút sự quan tâm của<br /> các nhà nghiên cứu. Các hệ thống này luôn trở thành mục tiêu ưu tiên hàng đầu của<br /> các cuộc tấn công trái phép. Vì vậy, việc củng cố hệ thống phòng thủ để có thể phát<br /> hiện xâm nhập bất thường từ bên trong và bên ngoài mạng là rất cần thiết và<br /> thường xuyên. Trong bài báo này, chúng tôi đã đề xuất Mô hình hệ thống phát hiện<br /> xâm nhập bất thường sử dụng thuật toán Phân cụm mờ lai ghép giữa thuật toán<br /> FCM, PSO và SVM. Thực nghiệm đã được tiến hành trên bộ dữ liệu chuẩn mẫu<br /> KDD CUP ‘99. Kết quả thực nghiệm đã chứng tỏ mô hình đã đề xuất đạt được hiệu<br /> suất vượt trội so với các mô hình đã được đề xuất trước đó.<br /> Từ khóa: Phát hiện bất thường, Phân cụm mờ, Tối ưu bầy đàn, Máy vector hỗ trợ.<br /> <br /> Ký hiệu<br /> Ký hiệu Ý nghĩa<br /> U={uci} Ma trận hàm thuộc<br /> JFCM Hàm mục tiêu FCM<br /> Pc Tâm cụm<br /> Dci Khoảng cách dữ liệu giữa đối tượng thứ c và đối tượng thứ i<br /> Chữ viết tắt<br /> IDS Intrusion Detection Systems<br /> PSO Particle Swarm Optimization<br /> SVM Support Vector Machine<br /> GA Genetic Algorithms<br /> ANN Artificial Neural Network<br /> FCM Fuzzy clustering<br /> <br /> 1. GIỚI THIỆU CHUNG<br /> Phát hiện xâm nhập ngày càng thu hút sự quan tâm của các nhà nghiên cứu.<br /> Hơn nữa đối với các vấn đề chứng thực người dùng truyền thống, mã hóa thông<br /> tin, tường lửa và một số công nghệ bảo vệ mạng khác, phát hiện xâm nhập được sử<br /> dụng để xác định và phân loại các cuộc tấn công trên mạng máy tính, máy chủ và<br /> máy chủ mạng. Nó có thể phát hiện các cuộc tấn công độc hại mà các phương pháp<br /> phòng thủ truyền thống không xác định được. Như vậy, nó đóng một vai trò quan<br /> trọng trong quá trình quản lý bảo mật dịch vụ Web và an toàn xử lý dữ liệu. Phát<br /> <br /> <br /> 18 V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện… phân cụm mờ lai ghép.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> hiện xâm nhập nói chung được chia thành hai loại: phát hiện sử dụng sai quy cách<br /> và phát hiện bất thường.<br /> Phát hiện sử dụng sai quy cách dựa trên các cuộc tấn công đã biết và các lỗ<br /> hổng hệ thống để xây dựng các quy tắc phát hiện được sử dụng để đánh giá kết nối<br /> mạng có phải là kết nối xâm nhập hay không. Nó có tỷ lệ chính xác và tốc độ phản<br /> ứng cao, nhưng hạn chế rất lớn là không thể phát hiện các cuộc tấn công mới và<br /> các quy tắc phát hiện chỉ có thể cập nhật bằng tay. Phát hiện bất thường là xác định<br /> xem kết nối có phải là kết nối xâm nhập hay không bằng cách phát hiện độ lệch<br /> của mẫu kết nối với mẫu hành vi bình thường. [12] đã mô tả và so sánh một vài<br /> phương pháp và hệ thống phát hiện mạng bất thường. Nói chung, phát hiện bất<br /> thường có thể tìm thấy các tấn công chưa biết, nhưng vì mẫu hành vi bình thường<br /> mới thu được có thể bị nhầm lẫn với hành vi bất thường, nên tỷ lệ cảnh báo sai có<br /> thể gia tăng [16], [29].<br /> Để khắc phục những vấn đề này, một số hệ thống phát hiện xâm nhập IDS sử<br /> dụng các kỹ thuật khai phá dữ liệu và máy học đã được thiết kế, mà chủ yếu được<br /> sử dụng để điều tra phát hiện đặc tính, phân loại và phán đoán xâm nhập. [20] đã<br /> đề xuất mô hình phát hiện xâm nhập bằng cách phân cụm luồng dữ liệu kết nối,<br /> sau đó sử dụng kết quả phân cụm để phân tích và phát hiện bất thường cho mạng<br /> không dây. Cấu trúc dữ liệu ban đầu và độ phức tạp của thuật toán phân lớp có thể<br /> được giảm bởi tiến trình phân cụm, nhưng tâm cụm được khởi tạo ngẫu nhiên, nên<br /> chất lượng phân cụm bị ảnh hưởng bởi hạn chế vốn có của các thuật toán phân<br /> cụm là dễ rơi vào bẫy tối ưu cục bộ. Một số mô hình phát hiện xâp nhập hiệu quả<br /> đã được đề xuất gần đây như mô hình sử dụng mạng thần kinh nhân tạo ANN để<br /> phát hiện xâm nhập [19], sử dụng phương pháp phân cụm mờ FCM lai ghép với<br /> phương pháp xác định tâm cụm để phát hiện xâm nhập bất thường [21]. [30]<br /> nghiên cứu khả năng áp dụng của máy vector hỗ trợ SVM để xây dựng IDS. So<br /> sánh tối ưu giải thuật di truyền GA trên ANN và SVM trong các IDS đã được mô<br /> tả trong [5]. Tuy nhiên, ANN vốn có độ phức tạp trong việc khởi tạo các giá trị đặc<br /> tính phân lớp và chủ yếu được sử dụng đối với dữ liệu phi tuyến, như vậy SVM có<br /> khả năng chỉnh sửa lỗi tốt và khả năng điều khiển tốt hơn [1], [6]. Đây cũng là lý<br /> do giúp chúng tôi lựa chọn kỹ thuật SVM trong bài báo này.<br /> Mô hình phát hiện bất thường không giám sát đã được đề xuất trong [25]. Mô<br /> hình này đã sử dụng thuật toán K-Means để tự động xác định số cụm bản ghi kết<br /> nối bình thường, sau đó, xây dựng mô hình SVM một lớp. [33] đã đề xuất sử dụng<br /> <br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 19<br /> Công nghệ thông tin<br /> <br /> FCM và SVM đa lớp để dự đoán nồng độ silicon trong metal nóng, [9] đề xuất mô<br /> hình IDS áp dụng kỹ thuật FCM và ANN. Nói chung, các mô hình sử dụng các kỹ<br /> thuật FCM để khởi tạo cụm thu được hiệu suất tốt hơn SVM và ANN đơn lớp. Tuy<br /> nhiên, phương pháp FCM truyền thống rất nhạy cảm với khởi tạo và dễ rơi vào bẫy<br /> tối ưu cục bộ, ảnh hưởng đến kết quả dự đoán của toàn hệ thống IDS. Các thuật<br /> toán tiến hóa như giải thuật di truyền thường được sử dụng để tìm tâm cụm khởi<br /> tạo cho các thuật toán FCM như sử dụng PSO để tìm tâm cụm khởi tạo cho FCM<br /> [27], sử dụng GA để tìm tâm cụm khởi tạo [34]. [4] đã sử dụng GA để tìm tâm<br /> cụm khởi tạo cho thuật toán FCM trong mô hình IDS sử dụng SVM. Tuy nhiên,<br /> theo kết quả nghiên cứu so sánh giữa các kỹ thuật GA và PSO từ [26], [28] cho<br /> chúng ta thấy ảnh hưởng về kích thước phân bố đối với thời gian tìm giải pháp của<br /> GA tăng theo lũy thừa còn PSO tăng theo tuyến tính; xu thế hội tụ sớm của GA<br /> thấp hơn so với PSO; không gian tìm kiếm của PSO là liên tục trong khi đối với<br /> GA là rời rạc; khả năng tránh được bẫy tối ưu cục bộ của PSO cao hơn so với GA.<br /> Như vậy, thuật toán PSO là lựa chọn phù hợp hơn so với thuật toán GA để tìm<br /> kiếm tâm cụm khởi tạo cho các thuật toán phân cụm.<br /> Trong bài báo này, chúng tôi đã đề xuất mô hình phát hiện xâm nhập bất thường<br /> PFCMS bằng cách lai ghép thuật toán FCM dựa trên thuật toán PSO và SVM.<br /> Thuật toán PSO được sử dụng để khởi tạo tâm cụm cho thuật toán phân cụm FCM<br /> để sinh các cụm có cùng thuộc tính cho SVM để phát hiện xâm nhập bất thường.<br /> Thực nghiệm được tiến hành trên các bộ dữ liệu chuẩn mẫu KDD CUP ’99. Kết<br /> quả thực nghiệm chứng tỏ mô hình đã đề xuất có thể đạt được kết quả vượt trội so<br /> với các mô hình IDS đã được đề xuất trước đó. Tiếp theo, bài báo được tổ chức<br /> như sau. Mục 2, trình bày một số vấn đề lý thuyết cơ bản liên quan đến các kỹ<br /> thuật được sử dụng trong bài báo; Mục 3, trình bày chi tiết mô hình PFCMS đề<br /> xuất; Mục 4 là một vài kết quả thực nghiệm, đánh giá hiệu suất; Mục 5, kết luận và<br /> định hướng nghiên cứu tiếp theo.<br /> 2. NHỮNG VẤN ĐỀ CƠ BẢN<br /> Trong mục này, chúng tôi sẽ trình bày một số vấn đề cơ bản về lý thuyết liên<br /> quan đến bài báo. Bao gồm thuật toán Phân cụm mờ, thuật toán Tối ưu bầy đàn và<br /> kỹ thuật phân lớp Máy vector hỗ trợ.<br /> 2.1. Thuật toán Phân cụm mờ<br /> Thuật toán Phân cụm dữ liệu thường được áp dụng để tìm cấu trúc của dữ liệu<br /> và đã được ứng dụng rộng rãi trong nhiều lĩnh vực chuyên môn khác nhau. Để<br /> <br /> <br /> 20 V. Đ. Giang, N. D. Thái, P. V. Nhã, “Mô hình hệ thống phát hiện… phân cụm mờ lai ghép.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> nâng cao hiệu suất phân cụm dữ liệu, các thuật toán Phân cụm được kết hợp với<br /> logic mờ nhằm tăng khả năng thu nhận các vấn đề không chắc chắn trong dữ liệu,<br /> thuật toán này được gọi là thuật toán Phân cụm mờ. Thuật toán phân cụm mờ lần<br /> đầu tiên được giới thiệu bởi Dunn [13] và sau đó được sửa đổi bởi Bezdek [15]<br /> (gọi là thuật toán Fuzzy C-Means (FCM)).<br /> Trong khuôn khổ này thuật toán FCM được sử dụng trong mô đun Phân cụm để<br /> phân cụm bộ dữ liệu huấn luyện thành C cụm khác nhau. Hàm mục tiêu của FCM<br /> được cho bởi công thức (1):<br /> C N<br /> J FCM (U ; p1 , p2 ,..., pC ; X )   ucim d ci2 (1)<br /> c 1 i 1<br /> <br /> <br /> trong đó, X là tập N bản ghi dữ liệu kết nối, uci là độ thuộc của bản ghi thứ i đối<br /> với cụm c. uci bị ràng buộc bởi điều kiện (2):<br /> C<br /> <br /> u ci  1, với i=1,2, …,N (2)<br /> c 1<br /> <br /> <br /> và uci được xác định theo công thức (3):<br /> 1 (3)<br /> uci  2<br /> C  d ci  (m 1)<br /> <br />   d<br /> j 1  ij <br /> <br /> <br /> pc là tâm cụm c, được tính theo công thức (4):<br /> N<br /> m<br /> u<br /> i 1<br /> x<br /> ci i<br /> (4)<br /> pc  N<br /> m<br /> u<br /> i 1<br /> ci<br /> <br /> <br /> <br /> dci là bình phương khoảng cách Euclidean giữa bản ghi dữ liệu kết nối xi với tâm<br /> cụm vc, được định nghĩa như sau:<br /> K<br /> d ci   (x ik  vck ) 2 (5)<br /> k 1<br /> <br /> <br /> Số mũ m được sử dụng để điều chỉnh trọng số ảnh hưởng của các giá trị hàm<br /> thuộc, m lớn sẽ tăng độ mờ của hàm mục tiêu JFCM, m thường được lựa chọn bằng 2.<br /> Thuật toán FCM được mô tả theo các bước sau:<br /> Thuật toán 1. Thuật toán Phân cụm mờ<br /> <br /> Bước 1. Input: Tập dữ liệu X   xi , xi  R K  , i  1..N , số cụm C (1
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2