Phân lớp phi tuyến dữ liệu lớn với giải thuật song song cho mô hình máy học véctơ hỗ trợ cục bộ

Chia sẻ: Lavie Lavie | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

63
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Phân lớp phi tuyến dữ liệu lớn với giải thuật song song cho mô hình máy học véctơ hỗ trợ cục bộ đề xuất một mô hình máy học véc-tơ hỗ trợ cục bộ mới dựa trên máy học véc-tơ hỗ trợ (SVM) và giải thuật gom cụm dữ liệu (clustering), gọi là kSVM, dùng để phân lớp phi tuyến dữ liệu lớn. kSVM sử dụng giải thuật k-means để phân hoạch dữ liệu thành k cụm (cluster).

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân lớp phi tuyến dữ liệu lớn với giải thuật song song cho mô hình máy học véctơ hỗ trợ cục bộ

Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000193 PHÂN LỚP PHI TUYẾN DỮ LIỆU LỚN VỚI GIẢI THUẬT SONG SONG CHO MÔ HÌNH MÁY HỌC VÉCTƠ HỖ TRỢ CỤC BỘ Đỗ Thanh Nghị1, Phạm Nguyên Khang1 1 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ dtnghi@cit.ctu.edu.vn, pnkhang@cit.ctu.edu.vn TÓM TẮT - Trong bài báo này, chúng tôi đề xuất một mô hình máy học véc-tơ hỗ trợ cục bộ mới dựa trên máy học véc-tơ hỗ trợ (SVM) và giải thuật gom cụm dữ liệu (clustering), gọi là kSVM, dùng để phân lớp phi tuyến dữ liệu lớn. kSVM sử dụng giải thuật k-means để phân hoạch dữ liệu thành k cụm (cluster). Sau đó, với mỗi cụm kSVM huấn luyện một mô hình SVM phi tuyến dùng để phân lớp dữ liệu của cụm. Việc huấn luyện các mô hình SVM trên từng cụm hoàn toàn độc lập với nhau, vì thế có thể được thực hiện song song trên các máy tính multi-core. Giải thuật song song để huấn luyện kSVM nhanh hơn rất nhiều so với các giải thuật SVM chuẩn như LibSVM, SVMLight trong bài toán phân lớp phi tuyến dữ liệu lớn. Kết quả thực nghiệm trên các tập dữ liệu của UCI và 3 tập dữ liệu nhận dạng ký tự viết tay cho thấy đề xuất của chúng tôi hiệu quả hơn mô hình SVM chuẩn. Từ khóa - Máy học véctơ hỗ trợ, máy học véc-tơ hỗ trợ cục bộ, phân lớp phi tuyến dữ liệu lớn. I. GIỚI THIỆU Trong những năm gần đây, mô hình máy học véctơ hỗ trợ (SVM) [1] và các phương pháp dựa trêm hàm nhân (kernel-based methods) đã cho thấy được tính hợp lý của nó trong các bài toán phân toán, hồi quy và phát hiện phần tử mới. Các ứng dụng thành công của SVM đã được công bố trong nhiều lĩnh vực khác nhau như nhận dạng mặt người, phân lớp văn bản và tin-sinh học [2]. Các phương pháp này đã trở thành các công phân tích dữ liệu phổ biến. Mặc dù sở hữu nhiều ưu điểm, SVM vẫn thích hợp khi xử lý dữ liệu lớn. Lời giải của bài toán SVM là kết quả bài toán quy hoạch toàn phương (QP), vì thế độ phức tạp tính toán của các giải thuật SVM ít nhất là O(m2) với m là số phần tử trong tập huấn luyện. Hơn nữa, do yêu cầu bộ nhớ lớn nên việc sử dụng SVM trở nên khó khăn hơn khi đối mặt với dữ liệu lớn. Điều này dẫn đến yêu cầu mở rộng khả năng xử lý (scale up) của các giải thuật học để có thể xử lý các tập dữ liệu lớn trên các máy tính cá nhân (PCs). Chúng tôi đầu tư đề xuất một giải thuật song song cho bài toán SVM cục bộ, gọi là kSVM, nhằm giải quyết bài toán phân lớp phi tuyến các tập dữ liệu lớn. Thay vì xây dựng một mô hình SVM toàn cục như các giải thuật cổ điển (rất khoa khi xử lý dữ liệu lớn), giải thuật kSVM xây dựng một tập các mô hình SVM cục bộ. Điều này có thể được thực hiện rất dễ dàng bằng cách áp dụng giải thuật SVM chuẩn trên các tập dữ liệu nhỏ. Giải thuật kSVM thực hiện việc huấn luyện qua hai giai đoạn. Trong giai đoạn đầu, sử dụng giải thuật k-means [3] phân hoạch tập dữ liệu huấn luyện thành k cụm (cluster). Trong giai đoạn thứ hai, với mỗi cụm dữ liệu xây dựng một mô hình SVM phi tuyến để phân lớp dữ liệu cho cụm. II. MÁY HỌC VÉCTƠ HỖ TRỢ Xét bài toán phân lớp nhị phân như Hình 1, với m phần tử xi (i = 1, 2, …, m) trong không gian n chiều, Rn. Mỗi phần tử có nhãn tương ứng yi ∈ {-1, +1}. Với bài toán này, giải thuật SVM [1] cố gắng tìm một siêu phẳng tối ưu (biểu diễn bằng pháp véctơ w ∈ Rn và độ lệch b ∈ R) tách các phần tử thành hai phần tương ứng với nhãn của chúng. Siêu phẳng tối ưu là siêu phẳng cách xa 2 lớp nhất. Bài toán này tương đương với việc cực đại hoá khoảng cách hay còn gọi là lề (margin) giữa hai siêu phẳng hỗ trợ của mỗi lớp (x.w – b = 1 đối với lớp +1 và w.x – b = -1 đối với lớp -1). Khoảng cách giữa hai siêu phẳng hỗ trợ bằng 2/||w|| trong đó ||w|| là độ lớn (2-norm) của pháp véctơ w. Trường hợp dữ liệu không khả tách tuyến tính (linearly separable), ta xem mỗi phần tử nằm sai phía so với mặt phẳng hỗ trợ tương ứng với lớp của chúng là lỗi, khoảng cách từ phần tử lỗi đến siêu phẳng hỗ trợ được ký hiệu zi (zi ≥ 0). Vì thế, bộ phân lớp SVM phải đồng thời cực đại hoá lề và cực tiểu hoá lỗi. Mô hình SVM chuẩn mô hình hoá bài toán tối ưu này về bài toán quy hoạch toàn phương (1). m 1 m m min ∑∑ yi y jαiα j K xi , x j − ∑α α 2 i=1 j=1 i=1 i với ràng buộc: ⎧ m ⎪ ∑ yiα i = 0 ⎪ ⎨ i=1 ⎪ ⎪ 0 ≤ αi ≤ C ∀i = 1, 2,..., m ⎩ (1) 548 5 PHÂ LỚP PHI TUY ÂN YẾN DỮ LIỆU LỚN VỚI GIẢI THUẬT SONG S ONG CHO MÔ H L T HÌNH MÁY HỌC VÉCTƠ… tr rong đó C là h hằng số dương dùng để điều chỉnh độ lớn của lề và tổn khoảng các lỗi; g n ng ch tính n K xi , x j là hàm nhân tuyến K xi , x j = xi • x j . Hìn 1. Tách tuyến tính các phần tử thành hai lớp nh n ớp. Giải bà toán quy ho ài oạch toàn phươ (1), ta thu được αi (i = 1, 2, …, m). Các phần tử xi tương ứng với αi > 0 ơng u . được gọi là cá véctơ hỗ tr Chỉ cần cá véctơ này ta có thể dựng lại được các siêu phẳng hỗ trợ và tìm được siêu đ ác rợ. ác t g c phẳng phân lớ tối ưu (nằm chính giữa h siêu phẳng hỗ trợ). Việc phân lớp ph tử mới x v mô hình SVM được p ớp m hai g hần với S cho bởi: c ⎛m ⎞ p predictSVM (x = sign ⎜∑ y iαi K x, xi − b ⎟ x) ⎝ i=1 ⎠ (2) ến i sử h ]. ó ớp Các biế thể của giải thuật SVM s dụng các hàm phân lớp khác nhau [8] Để có thể có hàm phân lớ khác, ta không cần thay đổi giải thuậ mà chỉ cần thay đổi hàm nhân tuyến tí bằng các h k y ật m ính hàm nhân khá Bằng cách này ta thu ác. được các mô h đ hình phân lớp dựa trên các v véctơ hỗ trợ kh nhau. Hai hàm nhân ph tuyến phổ bi là: hác hi iến ( ) K xi , x j = xi ⋅ x j +1 + d • Hàm đa thức bậc d d: • Hàm cơ sở bán kín (Radial Bas Function – RBF): nh sic K xi , x j = e −γ xi − j −x 2 nh VM quả ịnh, chịu đựng nhiễu tốt và phù hợp với các bài toán như: phân g à i Mô hìn máy học SV cho kết q cao, ổn đị lớp, hồi quy và phát hiện ph tử ngoại la Nhiều ứng dụng thành cô của SVM đã được công bố bao gồm nhiều lĩnh à hần ai. ông M g vực: nhận dạng ảnh, phân lo văn bản và sinh-tin học [2]. v g oại à III.GIẢI T THUẬT SON SONG CH MÁY HỌ VÉC-TƠ HỖ TRỢ CỤ BỘ NG HO ỌC ỤC Nghiên cứu trong [9] đã chỉ ra rằn độ phức tạp tính toán của SVM ít nhất là n ] ng p a t O (m 2 ) t trong đó m là số phần tử tr rong tập huấn luyện. Điều n làm SVM trở nên khó sử dụng trong các tập dữ liệ lớn. Huấn lu n này M s ệu luyện một mô hình SVM toàn cục trên m tập dữ liệu lớn là một th một u hách thức do độ phức tạp tín toán cao và cần nhiều bộ nhớ. đ nh à ộ A. Huấn luyệ các mô hình SVM A ện liệu huấn luyện thành k Giải thu kSVM củ chúng tôi s dụng giải th uật ủa sử huật k-means[3] để phân h hoạch tập dữ l cụm, và sau đó huấn luyện một mô hình SVM phi tuy trên mỗi cụm. Hình 2 minh hoạ kết quả của mô hình SVM c h yến t toàn cục (hình trái) và 3 mô hình SVM cụ bộ (hình ph h ô ục hải), sử dụng hàm nhân RBF với γ = 10 v hằng số dun hoà C = h F và ng 106. 1 Đỗ Thanh Nghị, P Đ Phạm Nguyên Kh hang 549 H Hình 2. Mô hìn SVM toàn cụ (trái) và các mô hình SVM c bộ (phải). nh ục m cục Bây giờ ta sẽ xem xé độ phức tạp của việc xây dựng k mô hì SVM cục bộ với giải th ờ ét p ình huật kSVM. Toàn bộ tập T dữ liệu huấn lu d uyện gồm m p phần tử được phân hoạch thành k cụm (giả sử cân bằ t ( ằng). Vì thế, m cụm có khoảng m/k mỗi phần tử. Độ ph tạp tính to của k mô hình SVM cụ bộ là p hức oán ục ( ) O k ( m ) = O ( mk k 2 2 n o ). Việc phân tích này cho thấy rằng huấn luyện k m hình SVM cục bộ trong giải thuật kSV nhanh hơ huấn luyện một mô hình SVM toàn cục (độ phức h mô M VM ơn tạp O (m 2 ) . hải g ược t h iều dung hoà giữa khả năng a Cần ph chú ý rằng tham số k đư sử dụng trong mô hình kSVM để đi chỉnh sự d nh ải g đề a tổng quát hoá và chi phí tín toán của giả thuật. Trong [10, 11, 12], Vapnik đã đ cập đến sự dung hoà giữa khả năng ử (k bộ), c tổng quát hoá và số phần tử trong tập học. Trong ngữ cảnh của mô hình kSVM ( SVM cục b điều này có thể hiểu như sau: n • Nếu k lớn, thời gia huấn luyện của giải thuậ kSVM giảm đáng kể (độ phức tạp củ kSVM là an n ật m ộ ủa O( m k 2 )) và kích t thước của các cụm (cluster) nhỏ. Tính cục bộ sẽ tăng và khả năng tổ quát hoá th ) v ổng hấp. Nếu k nhỏ, thời gia huấn luyện của giải thuậ kSVM giảm không đáng kể. Tuy nhiên do kích thư của các an n ật m n, ước cụm l nên khả nă tổng quát hoá cao. lớn ăng Điều nà cho thấy rằ ta cần phả điều chỉnh k sao cho kíc thước của c cụm đủ lớ (vd: 200 nh đề nghị ày ằng ải ch các ớn hư tr rong [11]). Hơ nữa, do kS ơn SVM huấn luy k mô hình độc lập từ k cụm dữ liệu n ta có thể song song hoá quá trình yện h nên huấn luyện kh dễ dàng. Đâ là một tính chất rất tuyệt vời của kSV Giải thuậ kSVM song song tận dụn ưu điểm h há ây h VM. ật g ng của các hệ thố tính toán hiệu năng ca như máy tín đa nhân ha hệ thống t c ống ao nh ay tính toán lưới. Việc cài đặt giải thuật t kSVM song so đơn giản nhất là sử dụn mô hình lậ trình đa xử lý sử dụng b nhớ chia sẻ openMPI [13] trên các k ong ụng ập ử bộ ẻ máy tính đa nh Các bước cơ bản của q trình huấn luyện kSVM song song đư mô tả trong giải thuật 1. m hân. c quá ược g • Giải thuật 1: Giải thuật máy học véct hỗ trợ cục bộ kSVM t t tơ b Đầu vào: • Tậ dữ liệu huấ luyện D ập ấn • Số mô hình cục bộ k ố c • Si tham số γ iêu • H Hằng số C Đầu ra: • K mô hình SVM cục bộ M Bắt đầu Áp dụn giải thuật g ng gom cụm k-me eans lên tập D thu đượ k cụm D1, D2, …, Dk và các tâm tương ứng c1, c2, … ck ợc g …, #pragm omp parallel for ma for i = 1 to k do /* H Huấn luyện m hình SVM cục bộ trên cụm Di */ mô c lsvmi = svm(Di, γ, C) m end return kSVM = { c1 , lsvm1 ), (c1 , lsvm1 ),..., (ck , lsvmk )} ( Kết thúc 550 PHÂN LỚP PHI TUYẾN DỮ LIỆU LỚN VỚI GIẢI THUẬT SONG SONG CHO MÔ HÌNH MÁY HỌC VÉCTƠ… B. Phân lớp phần tử mới bằng các mô hình SVM cục bộ Mô hình kSVM = { c1 , lsvm1 ), (c1 , lsvm1 ),…, (ck , lsvmk )} được dùng để phân lớp dữ liệu mới, x, như sau. ( Trước hết, ta tìm cụm gần với x nhất (tìm cụm có tâm gần với x nhất). cNN = argmin d(x, c) (3) c trong đó d(x, c) là khoảng cách từ phần tử x đến tâm của cụm c. Sau đó, sử dụng mô hình SVM cục bộ lsvmNN (tương ứng với cNN ) để dự báo lớp của x. predict(x, kSVM ) = predict(x, lsvmNN ) (4) IV. ĐÁNH GIÁ Chúng tôi quan tâm đến hiệu quả của giải thuật SVM cục bộ song song được đề xuất (gọi là kSVM) cho bài toán phân lớp. Chúng tôi đã cài đặt giải thuật kSVM bằng ngôn ngữ C++ sử dụng thư viện OpenMP [13]. Để so sánh, chúng tôi sử dụng thư viện SVM chuẩn libVM [14]. Đánh giá hiệu quả phân lớp được thực hiện trên hai tiêu chí: độ chính xác phân lớp và thời gian huấn luyện. Chúng tôi quan tâm đến việc so sánh hiệu quả giải thuật kSVM và libSVM. Tất cả các thí nghiệm được chạy trên máy tính cá nhân, cài hệ điều hành Linux Fedora 20, bộ vi xử lý Intel® Core i7-4790, 3.6 GHz, 4 nhân và bộ nhớ RAM 32 GB. Thí nghiệm được thực hiện trên 4 tập dữ liệu UCI [4] và 3 bộ dữ liệu ký tự viết tay chuẩn hai bộ cũ: USPS [5], MNIST [6] và một bộ dữ liệu ký tự viết tay mới [7]. Bảng 1 trình bày mô tả của các tập dữ liệu thực nghiệm. Nghi thức kiểm tra đánh giá được chỉ ra trong cột cuối của bảng. Dữ liệu đã được chia thành hai tập: huấn luyện (Trn) và kiểm tra (Tst). Chúng tôi sử dụng tập huấn luyện để huấn luyện các mô hình SVM. Sau đó, sử dụng các mô hình SVM thu được để phân lớp dữ liệu trong tập kiểm tra. Chúng tôi đề xuất sử dụng hàm nhân RBF trong cả kSVM và SVM chuẩn vì tính tổng quát và tính hiệu quả của nó [15]. Chúng tôi cũng điều chỉnh siêu tham số gamma của hàm nhân RBF (hàm nhân RBF của hai phần tử xi, xj) và tham số C (tham số dung hoà lỗi và độ lớn của lề SVM) để có được kết quả cao nhất. Hơn nữa giải thuật kSVM của chúng tôi có sử dụng thêm một tham số k. Chúng tôi đề xuất chọn k sao cho mỗi cụm dữ liệu có khoảng 1000 phần tử. Ý tưởng chính là tạo ra một sự dung hoà giữa khả năng tổng quát hoá [12] và chi phí tính toán. Bảng 2 trình bày các siêu tham số được sử dụng cho kSVM và SVM. Bảng 1. Bảng mô tả tập dữ liệu thực nghiệm ID 1 2 3 4 5 6 7 Dataset Opt. Rec. of Handwritten Digits Letter Isolet USPS Handwritten Digit A New Benchmark for Hand. Char. Rec. MNIST Forest Cover Types Số phần tử 5620 20000 7797 9298 40133 70000 581012 Số thuộc tính 64 16 617 256 3136 784 54 Số lớp 10 26 26 10 36 Nghi thức kiểm tra 3832 Trn - 1797 Tst 13334 Trn - 6666 Tst 6238 Trn - 1559 Tst 7291 Trn - 2007 Tst 36000 Trn - 4133 Tst 10 7 60000 Trn - 10000 Tst 400000 Trn - 181012 Tst Bảng 2. Các siêu tham số của kSVM và SVM ID 1 2 3 4 5 6 7 Dataset Opt. Rec. of Handwritten Digits Letter Isolet USPS Handwritten Digit A New Benchmark for Hand. Char. Rec. MNIST Forest Cover Types γ 0.0001 0.0001 0.0001 0.0001 0.001 0.05 0.0001 C k 100000 100000 100000 100000 100000 100000 100000 10 30 10 10 50 100 500 Kết quả phân lớp của libSVM và kSVM trên 7 tập dữ liệu được cho trong bảng 3 và các hình 3 và hình 4. Như mong đợi, giải thuật kSVM của chúng tôi có thời gian huấn luyện ngắn hơn nhiều so với giải thuật libSVM. Về tiêu chí độ chính xác phân lớp, giải thuật của chúng tôi cho kết quả có thể so sánh được với giải thuật libSVM. Đỗ Thanh Nghị, P Đ Phạm Nguyên Kh hang 551 Với 5 tập dữ liệu nhỏ đầu tiên, cải tiến về mặt thời gian của kSVM là khôn đáng kể. T nhiên với các tập dữ ỏ i t k ng Tuy liệu lớn, kSVM tăng tốc đán kể quá trìn huấn luyện Với tập dữ liệu MNIST, kSVM nhanh hơn libSVM đến 33.64 M áng nh n. l h lần. Đặc biệt, với tập dữ liệ Forest cov type (được xem như là tập dữ liệu kh đối với SV phi tuyến [16, 17]), ệu ver c hó VM n libSVM chạy đ 23 ngày v chưa cho r lời giải. Tro khi đó, kS đến vẫn ra ong SVM thực hiệ huấn luyện trong 223.7 giây và cho ện g độ chính xác p đ phân lớp 97.06 6%! Bảng 3. So sán hiệu quả của các phương ph theo độ chín xác (%) và t B nh a háp nh thời gian huấn l luyện (giây) ID 1 2 3 4 5 6 7 Dataset Opt. R of Handw Rec. written Digits Letter Isolet t USPS Handwritten Digit S n A Ne Benchmark for Hand. Ch Rec. ew k har. MNIS ST Fores Cover Type st es Độ chính xác (%) h li ibSVM kSVM 98.33 97.05 97.40 96.14 96.47 95.44 96.86 96.86 95.14 92.98 98.37 98.11 NA 97.06 Thời gi huấn luyệ (giây) ian ện libSV VM kSVM 0.5 8 0.21 2.87 7 0.5 8.37 7 2.94 2 5.8 8 3.82 107.0 07 35.7 1531 .06 45.50 4 NA A 223.7 2 Hình 3. So sánh thời gian huấn luyện. s h Hình 4. So sá độ chính xá phân lớp. ánh ác V THẢO LU V. UẬN VỀ CÁC CÔNG TR RÌNH CÓ LIÊ QUAN ÊN Đề xuất của chúng tô liên quan đế các giải thu huấn luyện SVM trên m số khía cạn Các phươn pháp cải t ôi ến uật n một nh. ng n ệu ồm ng ụng để ài tiến việc huấn luyện SVM đối với dữ liệ lớn bao gồ các phươn pháp sử dụ heuristic đ phân rã bà toán quy hoạch toàn phư h ương gốc thàn nhiều bài to nhỏ [9, 14 18, 19]. nh oán 4, Mangas sarian và các cộng sự đã đ xuất cải biên bài toán SVM để có đ đề S được các mô hình máy học mới như Lagragian SVM [20], proxi L M imal SVM [21], Newton SVM [22]. Mô hình SVM b S ô bình phương tối thiểu (Lea squares ast SVM), do Suy S ykens và Vand dewalle [23] đ xuất, thay đổi bài toán tối ưu SVM c đề t chuẩn thành b toán SVM khác hiệu bài quả hơn (về m thời gian). Các giải thu này chỉ cần giải hệ phươ trình tuyế tính thay v phải giải bà toán quy q mặt . uật n ơng ến vì ài hoạch toàn phư h ương. Điều nà làm giảm đ ày đáng kể thời gian huấn luyệ Gần đây h g ện. hơn, phương p pháp giảm gra adient ngẫu