Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người

Chia sẻ: Minh Minh | Ngày: | Loại File: PDF | Số trang:11

Thêm vào BST

Báo xấu

41
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo trình bày các kết quả thực nghiệm của chúng tôi tiến hành theo các đề xuất của Jun Liu. Kết quả cho thấy rằng phương pháp này có khả năng phân lớp dự đoán bệnh ung thư (dựa trên mẫu dữ liệu CGH của bệnh nhân) chính xác hơn so với các phương pháp thường được sử dụng trước đó.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người

JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol. 56, pp. 48-58 PHÂN LỚP DỮ LIỆU CGH DỰ ĐOÁN BỆNH UNG THƯ Ở NGƯỜI Hồ Cẩm Hà(∗), Nguyễn Thị Hạnh Khoa CNTT - ĐHSP Hà Nội (∗) Email: hahc@hnue.edu.vn Tóm tắt. Bằng phép lai gen so sánh CGH (Comparative Genomic Hy- bridization), người ta đã phát hiện ra sự mất cân bằng số lượng sao chép (Copy Number Alterations) ADN trong các gen đột biến gây ung thư. Tiến sĩ Jun Liu [2] đã đề xuất phương pháp sử dụng bộ phân loại vectơ hỗ trợ SVM (Support Vector Machine) với hàm nhân Raw và phương pháp lựa chọn đặc trưng phân lớp MIFS (Maximum Influence Feature Selection) để phân tích dữ liệu CGH. Bài báo trình bày các kết quả thực nghiệm của chúng tôi tiến hành theo các đề xuất của Jun Liu. Kết quả cho thấy rằng phương pháp này có khả năng phân lớp dự đoán bệnh ung thư (dựa trên mẫu dữ liệu CGH của bệnh nhân) chính xác hơn so với các phương pháp thường được sử dụng trước đó. 1. Giới thiệu Ung thư là một căn bệnh nguy hiểm đe dọa mạng sống con người nhưng nó không phải là không thể chữa trị được. Nhiệm vụ quan trọng hàng đầu đặt ra cho các nghiên cứu về căn bệnh này là phát hiện và phân loại bệnh nhân ung thư sớm trước khi có các triệu chứng lâm sàng, dựa trên việc phân tích di truyền học phân tử của đột biến gen gây ung thư. Một cách tiếp cận được đề xuất là khai phá nguồn dữ liệu CGH để hỗ trợ cho việc xác định sớm bệnh nhân có mắc ung thư hay không, cụ thể là ung thư loại nào (nếu có). Đây chính là bài toán phân lớp dữ liệu (classification) trong lĩnh vực học máy (Machine Learning). Mục tiêu của bài toán là phân lớp dữ liệu CGH để chuẩn đoán và phân loại bệnh nhân ung thư ngay từ giai đoạn tiền phát thông qua phân tích sự thay đổi trong cấu trúc phân tử ADN của người bệnh. Đã có nhiều nghiên cứu phân lớp dữ liệu CGH với các phương pháp khác nhau như Na¨ıve Bayes, K-láng giềng gần nhất (K-nearest neighbor), cây quyết định (Decision Tree), ... Trong đó phương pháp dùng bộ phân loại vectơ hỗ trợ SVM cho kết quả tốt nhất [2]. SVM được đánh giá là một công cụ rất mạnh trong việc phân tích dữ liệu chuỗi nhỏ (microarray) nói chung và dữ liệu CGH nói riêng. Tuy nhiên, 48
Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người do những đặc thù riêng của dữ liệu CGH, bộ phân loại SVM cơ bản với hàm nhân tuyến tính (linear kernel) chưa khai thác được hết mối quan hệ giữa các cặp mẫu học trong quá trình huấn luyện. Chính vì lẽ đó, một hàm nhân phi tuyến Raw mới đã được đề xuất bởi Jun Liu. Đặc điểm của dữ liệu CGH là có số lượng đặc trưng lớn và trong các khoảng gen tương ứng với các đặc trưng thì chỉ có một số khoảng gen bị đột biến gây ra ung thư. Do đó cần thiết lựa chọn được tập con các đặc trưng có tác động lớn đến kết quả phân lớp. Việc lựa chọn tập đặc trưng này không những làm tăng tính chính xác và tốc độ phân lớp mà còn tìm ra được những khoảng gen đột biến quan trọng gây ra ung thư. Tiến hành nghiên cứu, so sánh tác động của các phương pháp lựa chọn đặc trưng khác nhau trong SVM tới kết quả phân lớp dữ liệu biểu diễn gen, Chai và Domeniconi đã chỉ ra rằng các phương pháp nhóm đóng gói (ví dụ: R-SVM, SVM-RFE) cho hiệu quả tốt hơn các phương pháp nhóm lọc (VD: MRMR) [3]. Do đó, dựa trên cơ sở các phương pháp nhóm đóng gói, Jun Liu đã đề xuất một phương pháp lựa chọn đặc trưng phân lớp dựa trên sự tác động tối đa MIFS (Maximum Influence Feature Selection) nhúng vào bộ phân loại SVM với hàm nhân Raw. Chúng tôi đã tiến hành chạy thực nghiệm trên 5918 mẫu dữ liệu CGH về 23 loại bệnh ung thư biểu mô (Carcinomas) ở người, sử dụng phương pháp thẩm định chéo 10-fold (cross validation 10-fold). Kết quả cho thấy, SVM với hàm nhân Raw phân lớp chính xác hơn SVM với hàm nhân tuyến tính. SVM với hàm nhân Raw sử dụng MIFS cho kết quả tốt hơn là sử dụng một phương pháp lựa chọn đặc trưng phổ biến thuộc nhóm đóng gói SVM-RFE và tốt hơn nhiều so với trường hợp không sử dụng phương pháp lựa chọn đặc trưng nào. 2. Nội dung nghiên cứu 2.1. Một số khái niệm Phép lai gen so sánh CGH (Comparative Genomic Hybridization): Phương pháp này dùng để đo quang sai của bộ gen, được giới thiệu bởi Kallioniemi năm 1992. CGH có khả năng phân tích phân tử học di truyền để phát hiện đồng thời hàng nghìn gen mất cân bằng thuộc loại đột biến CNV (Copy Number Variant) chỉ bằng một thí nghiệm. Người ta tiến hành phép quang sai trên chip silicon và đo mật độ ảnh quang sai trên từng lỗ nhỏ (spot). Nếu bộ gen tham khảo là bình thường, tức không có đột biến gen, thì việc tăng hay giảm tỉ lệ mật độ huỳnh quang của phép lai tại một vị trí ADN tương ứng trên hai bộ gen sẽ chỉ định trực tiếp sự thay đổi số lượng sao chép ADN trong bộ gen của tế bào kiểm tra. Dữ liệu CGH: Là kết quả của phương pháp lai gen so sánh CGH. Giá trị dữ liệu của phép lai là các dãy số liên tục được tính bằng cách đo tỉ lệ màu quang sai. Các giá trị này sẽ được tiền xử lý trước khi dùng để khai phá. Sau khi tiền xử lý, 49
Hồ Cẩm Hà, Nguyễn Thị Hạnh mỗi mẫu dữ liệu CGH gồm một dãy các giá trị trạng thái 1, -1, 0. Trong đó một đại diện cho khoảng gen tương ứng thừa đoạn AND, -1 tương ứng với thiếu đoạn ADN, 0 tương ứng với không bị đột biến CNV ở khoảng gen đang xét. Trong cơ sở dữ liệu Progenetix, mỗi mẫu dữ liệu CGH gồm 862 khoảng gen. 2.2. Các kỹ thuật khai phá 2.2.1. Phương pháp phân lớp SVM sử dụng hàm nhân Raw Nhằm cải thiện hiệu quả phân lớp dữ liệu CGH bằng cách khai thác các mối liên hệ tiềm ẩn bên trong dữ liệu, Jun Liu đã đề xuất một hàm nhân phi tuyến Raw [2]. Hàm này sử dụng độ đo Raw để tính mức độ tương đồng giữa các cặp mẫu học, làm tăng độ chính xác kết quả phân lớp. Sự tương đồng giữa các cặp mẫu học CGH thể hiện ở mức độ sai khác về số lượng sao chép đoạn ADN trên các khoảng gen tương ứng. Chúng được biểu diễn bằng sự giống nhau về giá trị thừa (1), thiếu (-1) hay không thay đổi (0) quang sai trên cùng một đặc trưng. Cho một cặp mẫu a = a1 , a2 , . . . , am và b = b1 , b2 , . . . , bm . Sự tương đồng giữa hai mẫu a và b được tính toán bởi độ đo Raw theo công thức: Pm Raw(a, b) = S(ai , bi ) i=1 Ở đó S(ai , bi ) = 1 nếu ai = bi và ai 6= 0 có nghĩa là hai giá trị đặc trưng cùng thừa đoạn ADN (ai = bi = 1); hoặc thiếu đoạn ADN (ai = bi = -1) thì mức độ tương đồng giữa chúng là bằng 1. Các trường hợp còn lại thì S(ai , bi ) = 0. Để sử dụng độ đo Raw như một hàm phi tuyến trong huấn luyện SVM, Raw phải là hàm nhân và tồn tại một ánh xạ phi tuyến Φ xác định bởi Raw. Sử dụng hàm nhân Raw trong huấn luyện SVM. Sử dụng SVM với hàm nhân Raw có nghĩa là giải quyết bài toán tối ưu bậc 2 sau: Cực đại hóa J trên αi : n X n n 1 X X J= αi − αi αj yi yj Raw(xi xj ) αi ≥ 0, αi y i = 0 (2.1) i=1 2 i=1,j=1 i=1 Theo đó hàm quyết định kết quả phân lớp một mẫu mới z sẽ phải là: n X D(z) = αi yi Raw(xi , z) + b (2.2) i=1 Nếu D(z) ≥ 0 thì z thuộc lớp mẫu dương; Nếu D(z) < 0 thì x thuộc lớp mẫu âm. Bộ phân loại SVM cơ bản đề cập ở trên chỉ có khả năng phân lớp hai mẫu học, còn bài toán phân lớp dữ liệu CGH là phân đa lớp, do đó cần phải sử dụng SVM 50
Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người đa lớp. Các SVM đa lớp được xây dựng dựa trên việc huấn luyện một tập SVM nhị phân theo hai chiến lược SVM One - Versus - All (OVA: một đối lại tất cả) và One - Versus - One (OVO: một đối lại một). Các thí nghiệm của Ben Aisen đã cho thấy trên nhiều tập dữ liệu hai phương pháp này có độ chính xác và tốc độ huấn luyện gần như tương đương [4]. Trong trường hợp phân lớp dữ liệu CGH ở đây, chúng tôi sử dụng SVM OVA cải tiến được giới thiệu bởi Vladimir Vapnik năm 1998 [1]. Việc phân lớp cho một mẫu dữ liệu mới trong SVM OVA được thực hiện bởi chiến lược winner - takes - all. Nghĩa là ta sẽ tính toán hàm phân lớp đầu ra cho mẫu dữ liệu trên từng SVM nhị phân, nhãn lớp của mẫu sẽ là nhãn lớp tương ứng với giá trị hàm đầu ra lớn nhất. SVM OVA cải tiến là chiến lược phổ biến nhất cho việc huấn luyện SVM đa lớp hiện nay . 2.2.2. Phương pháp lựa chọn đặc trưng phân lớp Khi số lượng các đặc trưng rất lớn thì sự tìm kiếm có chất lượng một tập con các đặc trưng hợp lý cho phân lớp trở nên khó khăn. Bởi vậy có thể sử dụng một chiến lược tìm kiếm tham lam lựa chọn dần các đặc trưng tốt. Tiêu chí sự tương đồng được dùng để lựa chọn một đặc trưng tiếp theo, đưa vào tập đặc trưng đã được lựa chọn. Ý tưởng cơ bản của phương pháp MIFS là tính toán sự thay đổi giá trị hàm mục tiêu khi thêm vào hay bớt đi các đặc trưng lựa chọn, từ đó xác định tập đặc trưng làm tối ưu hàm mục tiêu. Đặc trưng được thêm vào tại mỗi bước là đặc trưng có tác động tối đa tới hàm mục tiêu (khi so với các đặc trưng còn lại chưa được lựa chọn). Các đặc trưng có tác động tối đa tới hàm mục tiêu được chỉ ra như sau [2]: Cho S là tập các đặc trưng lựa chọn ở một bước của thuật toán đã đưa ra. J(S) là giá trị hàm mục tiêu sử dụng tập đặc trưng lựa chọn S. Cho k là một đặc trưng không chứa trong S. Sự thay đổi giá trị hàm mục tiêu của SVM sau khi thêm k vào tập S sẽ được tính là DJ(k) = |J(S ∪ k) − J(S)|. Với hàm mục tiêu: Pn 1 P n Pn J(S) = αi − αi αj yi yj Raw(xi , xj ) αi ≥ 0, αi yi = 0 i=1 2 i=1,j=1 i=1 Cho mỗi đặc trưng k nếu được thêm vào S, thực hiện tính toán giá trị hàm mục tiêu mới J(S(+k)) (tức J(S ∪ {k})). Để tính toán được dễ dàng, ta coi các giá trị hệ số αi là không thay đổi khi thêm k vào. Giả thuyết này cho phép ta không phải huấn luyện lại SVM, tức không cần tính lại αi cho bài toán đối ngẫu Lagrange. Khi đó hàm mục tiêu mới sau khi thêm k vào sẽ là: n X n 1 X J(S ∪ {k}) = αi − αi αj yi yj Raw(xi (+k), xj (+k)) (2.3) i=1 2 i=1,j=1 Trong đó xi (+k) là mẫu huấn luyện i bất kỳ với đặc trưng k được thêm vào. 51
Hồ Cẩm Hà, Nguyễn Thị Hạnh Từ (2.1) và (2.3) suy ra :
1
n X n X
DJ(k) =
αi αj yi yj Raw(xi , xj ) − αi αj yi yj Raw(xi (+k), xj (+k))
2
i=1,j=1 i=1,j=1
(2.4) Sau khi tính toán với tất cả các đặc trưng k không thuộc S, tiến hành so sánh, tìm ra đặc trưng k có giá trị DJ(k) lớn nhất k để đưa thêm vào tập S. Quá trình lựa chọn đặc trưng trong trường hợp này được mô tả bằng thuật toán sau [2]: Đầu vào: - Tập mẫu {x1 , x2 , ..xn } có các nhãn lớp tương ứng {y1 , y2 , ..yn }, y ∈ {−1, 1}. - Khởi tạo tập S, số lượng đặc trưng dự đoán trước r. - D là tập tất cả các đặc trưng. 1. Khởi tạo. Danh sách các đặc trưng đã được sắp xếp RL = S (RL là danh sách các đặc trưng sau khi đã được sắp xếp của tập S, |S| là số lượng đặc trưng trong S) và L = D − S. 2. Thực hiện vòng lặp. Trong khi |S| < r a. Huấn luyện SVM sử dụng tập mẫu huấn luyện với các đặc trưng trong RL. b. Tính toán sự thay đổi hàm mục tiêu DJ(k) cho tất cả các đặc trưng k ∈ L. c. Tìm ra một đặc trưng e nào đó có DJ(k) lớn nhất. d. Cập nhật RL = [RL, e] (đồng nghĩa với thêm e vào S) và L = L − {e}. 3. Kết quả trả về. Trả ra danh sách đặc trưng được lựa chọn và đã sắp xếp RL. Để tăng tốc độ tính toán khi giá trị r lớn, có thể chọn hơn một đặc trưng đưa vào tập RL (hay S) trong bước 2d của thuật toán. Độ phức tạp về thời gian của thuật toán: Với n là số mẫu dữ liệu, r là số lượng đặc trưng được lựa chọn, độ phức tạp thời gian của thuật toán tối ưu trong trường hợp thông thường là O(n3 r 2 ), trong trường hợp học có kinh nghiệm là O(n1.7 r 2 ). Phương pháp trên yêu cầu tập đặc trưng S ban đầu không được rỗng (do trước khi thêm vào đặc trưng ở bước 2d đã có sự tính toán huấn luyện SVM trên tập RL = S). Vì vậy để thực hiện thuật toán này, cần xác định đặc trưng đầu tiên trong S. Một cách phổ biến để giải quyết vấn đề này là sắp xếp các đặc trưng theo thứ tự sức mạnh dự đoán của chúng đối với các nhãn lớp, sau đó lựa chọn S là đặc trưng có sức mạnh dự đoán lớn nhất. Có nhiều tiêu chí để đánh giá khả năng dự đoán của các đặc trưng, có thể sử dụng một phương pháp rất thông dụng, lấy tiêu chí đánh giá sự tương tác của đặc trưng tới nhãn lớp theo công thức: X p(ri , si ) I(r, s) = p(ri , si ) log (2.5) i,j p(ri )p(si ) 52
Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người Cho một đặc trưng bất kỳ k, tập nhãn lớp y = {y1 , y2 , . . . yn }, I(k, y) là giá trị mức độ tương tác, tức là mức độ ảnh hưởng của k tới việc xác định nhãn lớp y. Đặc trưng k có giá trị I(k, y) lớn nhất sẽ được chọn làm đặc trưng khởi đầu cho tập S trong thuật toán nêu trên. Phương pháp lựa chọn đặc trưng phân lớp MIFS chỉ sử dụng cho trường hợp phân dữ liệu thành hai lớp. Bài toán phân lớp dữ liệu CGH là phân thành nhiều lớp tương ứng với phân nhóm nhiều loại bệnh ung thư khác nhau. Vì vậy cần mở rộng phương pháp MIFS cho trường hợp phân dữ liệu đa lớp. Sử dụng phương pháp lựa chọn đặc trưng phân lớp MIFS cho trường hợp nhiều lớp và chiến lược huấn luyện SVM OVA như sau [2]: Bước 1: Cho C ≥ 3, C dùng chỉ số lớp. Với mỗi 1 ≤ I ≤ C, một SVM nhị phân dùng phân tách lớp thứ i và một lớp khác được huấn luyện trên tập đặc trưng S. Bước 2: Với mỗi SVM nhị phân, tính toán DJ(k) cho mỗi đặc trưng k trong S. Thực hiện sắp xếp tất cả các đặc trưng dựa trên giá trị hàm DJ. Kết quả đạt được là các danh sách đặc trưng đã được sắp xếp theo thứ tự tác động tới giá trị hàm mục tiêu của từng SVM nhị phân trong tập C. Mỗi danh sách đã được sắp xếp tương ứng với một bộ vectơ phân loại của C. Khi đó mỗi một đặc trưng ứng viên sẽ tương ứng với một vectơ thể hiện các thứ tự sắp xếp của nó trong các bộ phân loại SVM nhị phân khác nhau của C. Bước 3: Một đặc trưng có thể có thứ tự thấp trong danh sách này nhưng có thứ tự cao trong danh sách kia. Các đặc trưng được quan tâm là các đặc trưng có nhiều thông tin nhất trong việc phân tách một lớp so với các đặc trưng khác, mặc dù có thể nó chứa ít thông tin cho việc phân tách các lớp khác. Các đặc trưng có thứ tự thấp hơn chính là các đặc trưng ở tốp đầu danh sách sẽ được thêm vào S. Vì vậy với tập S, các đặc trưng cũng được sắp xếp dựa trên thứ tự thêm vào danh sách của nó. Thuật toán lựa chọn đặc trưng phân lớp MIFS cho trường hợp phân đa lớp được mô tả như thuật toán sau [2]: Đầu vào: Tập mẫu huấn luyện {x1 , x2 , ..., xn }, và các nhãn lớp tương ứng {y1 , y2 , ..., yn }, 1 ≤ yi ≤ C . Khởi tạo tập S, số lượng đặc trưng dự đoán trước r. D là tập tất cả các đặc trưng. 1. Khởi tạo danh sách các đặc trưng đã được sắp xếp RL = S và L = D − S. 2. Thực hiện vòng lặp: While |S| < r a. For i = 1 to C - Xây dựng các nhãn lớp mới {y1 , y2, . . . , yn }, yi = 1 nếu yj = i và các trường hợp khác yj = −1. 53
Hồ Cẩm Hà, Nguyễn Thị Hạnh - Huấn luyện một SVM sử dụng tập mẫu huấn luyện với các đặc trưng trong RL. - Tính toán sự thay đổi của hàm mục tiêu DJ(k) cho mỗi đặc trưng ứng viên k ∈ L. - Sắp xếp lần lượt các đặc trưng k theo thứ tự DJ(k) giảm dần để tạo ra một danh sách sắp xếp tập đặc trưng (các đặc trưng có tác động mạnh tức giá trị DJ lớn hơn được xếp trước, và ngược lại). b. Tính toán vectơ thể hiện thứ tự sắp xếp cho tất cả các đặc trưng trong L từ danh sách đã được sắp xếp C. c. Sắp xếp các thành phần trong mỗi vectơ theo thứ tự tăng dần. d. Thực hiện thuật toán sắp xếp Radix cho tất cả các vectơ để tạo ra danh sách sắp xếp toàn cục các đặc trưng. e. Tìm đặc trưng e ở đầu danh sách sắp xếp toàn cục nói trên và cập nhật RL = [RL, e] and L = L − {e}. 3. Kết quả trả về: Danh sách các đặc trưng đã được sắp xếp RL. Cũng tương tự như thuật toán lựa chọn đặc trưng cho việc phân hai lớp, để tăng tốc độ tính toán trong trường hợp r lớn, trong bước 2e của thuật toán này có thể chọn hơn một đặc trưng đưa vào RL (hay S). Độ phức tạp thời gian của thuật toán: với n là số mẫu dữ liệu, r là số lượng đặc trưng được lựa chọn, C là số lượng SVM nhị phân trong SVM OVA, độ phức tạp thời gian của thuật toán tối ưu trong trường hợp thông thường là O(n3 r 2 C), trong trường hợp học có kinh nghiệm là O(n1.7r 2 C). 2.3. Thực nghiệm 2.3.1. Chuẩn bị dữ liệu thực nghiệm Dữ liệu thực nghiệm được lấy từ CSDL Progenetix (http://www.progenetix.net) bao gồm 5918 mẫu CGH về 23 loại bệnh ung thư biểu mô (Carcinomas) ở người. Dữ liệu lấy mẫu đã được chuẩn hóa sẵn bởi các công cụ tiền xử lý. Mỗi mẫu gồm 862 đặc trưng, tương ứng với 862 khoảng gen, trích xuất từ 24 nhiễm sắc thể. Mỗi đặc trưng mang một trong 3 giá trị trạng thái: 1(thừa), -1 (thiếu), 0 (không thay đổi). Ngoài ra, mỗi mẫu còn chứa các thông tin về tiểu sử của bệnh nhân được lấy mẫu và nguồn gốc tập mẫu. Mỗi tập dữ liệu được biểu diễn bằng một tệp phẳng có định dạng như hình 1. Dữ liệu được biểu diễn dưới dạng ma trận. Hàng đầu tiên cho biết mã khoảng gen và các trường thông tin thể hiện trên mỗi mẫu dữ liệu. Các hàng tiếp theo, mỗi hàng là một mẫu dữ liệu, hay còn gọi là trường hợp dữ liệu. Cột đầu tiên cho biết tên của mẫu dữ liệu, các cột tiếp theo là các trường giá trị thông tin của mẫu. Tập dữ liệu 5918 mẫu trên được chia đều thành 10 tập con và sử dụng phương 54
Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người pháp thẩm định chéo 10-fold (cross validation 10-fold). Mỗi tập con lại được chia làm 10 phần có kích thước tương đương nhau. Trong đó chín phần được dùng để huấn luyện, một phần dùng để kiểm tra độ chính xác kết quả huấn luyện. Kích thước các tập dữ liệu thể hiện trong bảng 1. Hình 1. Mẫu tệp dữ liệu CGH Bảng 1: Các tập dữ liệu thực nghiệm Tập 1 2 3 4 5 6 7 8 9 10 Train (mẫu) 533 533 533 533 533 532 532 532 532 533 Test (mẫu) 59 59 60 59 60 59 59 59 59 59 Kết quả thực nghiệm được đánh giá bằng phương pháp xác suất thống kê trên 10 tập con mẫu dữ liệu CGH.. 2.3.2. Chương trình thực nghiệm Chương trình thực nghiệm của bài toán ứng dụng được cải tiến từ hai công cụ có sẵn là DAGSVM (http://www.support-vector-machines.org/SVM_soft.html, được xây dựng bởi Cawly năm 2000, cho mục đích phân lớp dữ liệu đa lớp bằng phương pháp SVM, hàm nhân tuyến tính và hàm nhân đa thức) và Feature (http://bi- oinformatics.oxfordjournals.org/content/24/13/i86.full, được xây dựng bởi Jun Liu năm 2008, dùng để demo cho phương pháp lựa chọn đặc trưng MIFS trong SVM đa lớp). Chương trình sử dụng kỹ thuật tối ưu hóa tối thiểu tuần tự SMO (Sequential Minimal Optimization), chiến lược phân chia SVM đa lớp OVA cải tiến. Chương trình được viết bằng Matlab và C++. 2.4. Kết quả và thảo luận Tiến hành chạy thực nghiệm so sánh trên 10 tập con dữ liệu CGH về nhóm các bệnh ung thư biểu mô ở người và phương pháp thẩm định chéo 10-fold. Kết quả 55
Hồ Cẩm Hà, Nguyễn Thị Hạnh độ phân lớp chính xác khi sử dụng hàm nhân Raw và hàm nhân tuyến tính (linear) được tổng hợp và so sánh trong bảng sau (chú ý: 1 = 100%, 0 = 0%). Bảng 2: So sánh hàm nhân Raw và hàm nhân tuyến tính Tập 1 2 3 4 5 6 7 8 9 10 TB Raw 0.74074 0.75862 0.71429 0.69388 0.72727 0.87234 0.73333 0.60784 0.67347 0.68627 0.720805 Linear 0.74074 0.7069 0.73469 0.67347 0.72727 0.78723 0.77778 0.62745 0.65306 0.58824 0.701683 Nhìn vào bảng số liệu trên ta thấy, hàm nhân Raw cho kết quả phân lớp chính xác hơn hàm nhân tuyến tính trên đa số các tập dữ liệu. Thậm chí có những trường hợp hàm nhân Raw chính xác hơn hàm nhân tuyến tính tới gần 10% như đối với tập dữ liệu 6 và 10. Tỉ lệ phân lớp chính xác trung bình của hàm nhân Raw trên 10 tập dữ liệu là 0.720805, lớn hơn tỉ lệ trung bình của hàm nhân tuyến tính là 0.701683. Vậy theo đánh giá xác suất thống kê thì nhìn chung hàm nhân Raw tốt hơn hàm nhân tuyến tính trong việc phân lớp dữ liệu CGH. Bảng 3: So sánh phương pháp MIFS và SVM-RFE (viết tắt là RFE) Tập Phương dữ 8 16 40 60 100 250 500 pháp liệu MIFS 0.64815 0.7037 0.7037 0.77778 0.75926 0.72222 0.72222 1 RFE 0.66667 0.66667 0.7037 0.7037 0.72222 0.72222 0.72222 MIFS 0.60345 0.74138 0.72414 0.75862 0.75862 0.75862 0.75862 2 RFE 0.58621 0.68966 0.74138 0.72414 0.68966 0.72414 0.75862 MIFS 0.46939 0.59184 0.73469 0.79592 0.71924 0.71429 0.69388 3 RFE 0.42857 0.59184 0.71429 0.73469 0.71429 0.71429 0.71429 MIFS 0.53061 0.65306 0.73469 0.7551 0.71429 0.69388 0.67347 4 RFE 0.46939 0.61224 0.73469 0.7551 0.67347 0.69388 0.67347 MIFS 0.45455 0.63636 0.72727 0.75 0.72727 0.68182 0.72727 5 RFE 0.61364 0.63636 0.65909 0.68182 0.75 0.72727 0.72727 MIFS 0.68085 0.74468 0.85106 0.89362 0.87234 0.85106 0.85106 6 RFE 0.59574 0.68085 0.80851 0.85106 0.80851 0.87234 0.85106 MIFS 0.6 0.68889 0.75556 0.7778 0.8 0.75556 0.75556 7 RFE 0.57778 0.71111 0.75556 0.71111 0.75556 0.75556 0.75556 MIFS 0.39216 0.58824 0.60784 0.56863 0.62745 0.62745 0.60784 8 RFE 0.4902 0.5098 0.54902 0.56863 0.60784 0.62745 0.58824 MIFS 0.53061 0.71429 0.71429 0.69388 0.65306 0.65306 0.65306 9 RFE 0.5102 0.69388 0.71429 0.67347 0.69388 0.69388 0.65306 MIFS 0.4902 0.56863 0.60784 0.60784 0.66667 0.68627 0.68627 10 RFE 0.41176 0.54902 0.5098 0.66667 0.58824 0.62745 0.64706 Trung MIFS 0.539997 0.663107 0.716108 0.737919 0.72982 0.714423 0.712925 bình RFE 0.535016 0.634143 0.689033 0.707039 0.700367 0.715848 0.709085 Nhằm xem xét tính hiệu quả của phương pháp MIFS, chúng tôi tiến hành thực nghiệm so sánh tỉ lệ phân lớp chính xác của SVM sử dụng hàm nhân Raw với lần lượt các phương pháp lựa chọn đặc trưng MIFS, SVM-RFE trên 10 tập con dữ liệu CGH về nhóm bệnh ung thư biểu mô. Đồng thời chúng tôi cũng so sánh các 56
Phân lớp dữ liệu CGH dự đoán bệnh ung thư ở người trường hợp số lượng đặc trưng lựa chọn khác nhau (8, 16, 40, 60, 100, 250, 500) để tìm ra những đặc trưng thực sự tác động tốt tới kết quả phân lớp. Thí nghiệm tiến hành theo phương pháp thẩm định chéo 10-fold. Nhìn vào bảng 3, ta có thể rút ra kết luận là phương pháp MIFS cho kết quả phân lớp tốt hơn phương pháp SVM-RFE trên tất các tập dữ liệu. Bên cạnh đó, kết quả cũng chỉ ra rằng không phải tất cả 862 đặc trưng của mẫu dữ liệu đều có tác động như nhau tới hiệu quả phân lớp. Kết quả phân lớp tốt nhất khi chọn khoảng từ 60 - 100 đặc trưng, tức khoảng 10-20% tổng số đặc trưng. Kết luận này được rút ra từ mật độ tập trung cao các kết quả in đậm, là các kết quả phân lớp có độ chính xác cao nhất trên mỗi tập dữ liệu, trong bảng thống kê. Điều đó có nghĩa là thực chất chỉ có khoảng 10 – 20% số đặc trưng có ý nghĩa đối với việc phân lớp dữ liệu CGH, trong các mẫu dữ liệu chỉ có một số đột biến trên một số khoảng gen tương ứng có thể là nguyên nhân gây bệnh ung thư. Các đặc trưng này là khác nhau trên từng tập mẫu dữ liệu, tùy thuộc vào từng bệnh ung thư. Ví dụ trên tập dữ liệu thứ hai trong mười tập trên, các đặc được lựa chọn và cho ra hiệu quả phân lớp tốt nhất là 60 đặc trưng ở vị trí số: 845, 704, 4, 63, 752,... Ngoài ra, ta còn thấy khi phân lớp dữ liệu CGH thì chỉ cần chọn khoảng từ 10% - 20% số lượng đặc trưng mà vẫn đạt kết quả phân lớp chính xác không kém trường hợp chọn cả 100% số đặc trưng. Sau khi phân tích kết quả thực nghiệm, chúng tôi rút ra các kết luận sau: - Hàm nhân Raw cho kết quả phân lớp chính xác hơn là hàm nhân tuyến tính trên đa số các tập dữ liệu. - Phương pháp lựa chọn đặc trưng MIFS có tác động tốt hơn phương pháp SVM-RFE đối với việc phân lớp dữ liệu CGH. - Trong thực tế cũng chỉ có một số đặc trưng thực sự có ý nghĩa tới việc phân lớp dữ liệu CGH, cụ thể với 10 tập dữ liệu kể trên thì số lượng đó là khoảng từ 10 – 20% đặc trưng. - Khi số lượng đặc trưng lựa chọn là hợp lý thì phương pháp MIFS có khả năng cải tiến hiệu quả phân lớp của SVM sử dụng hàm nhân Raw, chẳng hạn theo thống kê trung bình trên 10 tập dữ liệu của bảng 3, lựa chọn khoảng từ 60 - 100 đặc trưng cho kết quả phân lớp chính xác hơn trường hợp chọn cả 862 đặc trưng (0.737919 > 0.720805 và 0.72982 > 0.720805). 3. Kết luận Kỹ thuật phân lớp dữ liệu CGH có khả năng phân loại và phát hiện sớm bệnh ung thư, dựa trên phân tích cấu trúc di truyền học phân tử trong các tế bào khối u của bệnh nhân. Do những tính chất đặc thù của loại dữ liệu CGH, Jun Liu đã đề xuất một hàm nhân Raw và phương pháp lựa chọn đặc trưng phân lớp MIFS dùng trong bộ phân loại vectơ hỗ trợ SVM. Bằng phương pháp chạy thực nghiệm, chúng tôi đã chứng minh được những đề xuất này có khả năng cải tiến được độ chính xác 57