Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn

Chia sẻ: ViHasaki2711 ViHasaki2711 | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

17
lượt xem 0
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn

JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0053 Educational Sci., 2015, Vol. 60, No. 7A, pp. 61-69 This paper is available online at http://stdb.hnue.edu.vn MỘT PHƯƠNG PHÁP DỰ ĐOÁN GEN GÂY BỆNH SỬ DỤNG DỮ LIỆU CHƯA CÓ NHÃN 1 Lê Thu Hương 2 Thái Thị Thanh Vân và 3 Trần Đăng Hưng 1 Khoa Tự nhiên, Trường Cao đẳng Sư phạm Điện Biên 2 KhoaCông nghệ Thông tin, Học viện Kỹ thuật Mật mã 3 Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Trong bài báo này, chúng tôi trình bày một giải pháp sử dụng các dữ liệu chưa gán nhãn cho bài toán dự đoán gen gây bệnh (gọi tắt là gen bệnh). Thông thường, bài toán dự đoán gen bệnh có thể coi là bài toán phân lớp nhị phân. Tuy nhiên, trong bài toán này dữ liệu âm tính (negative) thường khó xác định, nên hiệu quả của các phương pháp dự đoán chưa cao. Chúng tôi đã đề xuất một phương án xây dựng tập âm tính bằng cách sử dụng dữ liệu chưa có nhãn để huấn luyện các mô hình học máy nhằm tăng hiệu quả dự đoán. Từ khóa: Dự đoán, gen gây bệnh, dữ liệu chưa có nhãn, phân lớp nhị phân. 1. Mở đầu Từ các nghiên cứu thực nghiệm cho thấy rằng với từng loại bệnh cụ thể, có thể do một số gen quy định gây ra. Tuy nhiên, các nhà thực nghiệm chỉ tìm ra được các gen gây bệnh một cách đơn lẻ trên một số cá thể, hơn nữa các thực nghiệm này rất mất thời gian và chi phí lớn. Khi số lượng dữ liệu sinh học phân tử ngày càng nhiều, các nhà sinh học tính toán có thể đưa ra các phương pháp tính toán dựa trên những gen gây bệnh đã biết để tiên lượng các gen khác. Triết lí chung của các phương pháp tính toán là các gen có quan hệ “gần” với nhau sẽ có khả năng có chung một số chức năng nào đó. Giả sử rằng, ta biết được thông tin quan hệ giữa các gen trong một loài sinh vật thì có thể dự đoán chức năng cho các gen mới. Nhìn từ lĩnh vực khai phá dữ liệu, có thể coi bài toán dự đoán gen gây bệnh là một bài toán phân lớp hoặc bài toán xếp hạng. Giả sử chúng ta có một tập các gen của một loài cụ thể nào đó, trong đó đã biết (dựa trên thực nghiệm) một số gen liên quan đến một bệnh cụ thể, chúng ta cần dự đoán xem trong số các gen còn lại, gen nào có khả năng là gen gây bệnh. Để làm được điều này, chúng ta phải dựa vào các thông tin đã có của mỗi gen rồi tìm cách mô hình hóa các gen này trong mối tương quan với các gen khác. Các phương pháp đã có và được ứng dụng nhiều cho bài toán dự đoán/tiên lượng gen bệnh trong tin sinh học gồm các phương pháp: phương pháp phân tích liên kết (linkage analysis), phương pháp dựa vào chú giải chức năng gen (functional annotation-based), phương pháp dựa trên mạng sinh học (biological network-based) và dựa vào các kĩ thuật học máy (machine learning-based). Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Trần Đăng Hưng, e-mail: hungtd@hnue.edu.vn 61 Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng Phương pháp phân tích liên kết: Phương pháp phân tích liên kết nhằm thiết lập mối liên kết giữa các gen trong một hệ gen. Phương pháp này chủ yếu dựa trên thống kê để tìm ra vị trí của các gen có một chức năng nào đó trên nhiễm sắc thể. Tuy nhiên, với số lượng gen lớn như hệ gen người thì việc tìm kiếm vị trí chính xác của các gen là rất khó khăn [1, 3]. Cho đến hiện nay, phương pháp này có ứng dụng khá phổ biến trong việc lập bản đồ gen với các bệnh phổ biến. Tuy nhiên, để thực hiện thành công với phương pháp này đòi hỏi cần nhiều thời gian, tài chính và nguồn dữ liệu lớn. Phương pháp dựa vào chú giải chức năng: Phương pháp này tìm cách xếp hạng các gen ứng viên dựa vào độ tương tự về chức năng của gen ứng viên với tập hợp các gen bệnh đã biết căn cứ vào profile được xây dựng dựa trên rất nhiều cơ sở dữ liệu sinh học [2, 3, 5]. Do đó, các phương pháp này chủ yếu tập trung vào việc tích hợp nhiều nguồn dữ liệu chú giải gen để thu được độ chính xác cao hơn. Tuy nhiên, các phương pháp này gặp phải hạn chế khi mà nguồn dữ liệu chú giải gen hiện nay chưa đầy đủ cho tất cả các gen [15, 20]. Gần đây các phương pháp phân hạng gen ứng viên đã được mở rộng theo các hướng tiếp cận sử dụng các mạng sinh học [5, 11] và tỏ ra nổi trội hơn các phương pháp dựa vào chú giải chức năng [7, 13]. Các phương pháp này chỉ dựa trên mạng tương tác và do đó không bị hạn chế bởi sự thiếu hụt của các cơ sở dữ liệu chú giải gen. Ngoài ra, sự nổi trội của các phương pháp dựa trên mạng là do các phương này dựa trên nguyên lí “mô đun bệnh” đã được chứng minh (đó là, các gen/protein liên quan đến cùng một bệnh hoặc các bệnh tương tự nhau thường hình thành các mô đun chức năng/vật lí trên các mạng tương tác gen/protein [16, 19]). Trong các phương pháp dựa trên mạng thì phương pháp dựa trên thuật toán bước ngẫu nhiên có quay trở lại (RWRs) nổi trội hơn so với các phương pháp khác như hàng xóm trực tiếp (nearest neighbor), khoảng cách ngắn nhất. Do thuật toán này tính toán độ tương tự giữa gen ứng viên và gen gây bệnh đã biết một cách toàn cục trên toàn mạng, và do đó không chỉ các gen liên kết trực tiếp với gen bệnh đã biết được xem xét, mà cả các gen gián tiếp cũng được xem xét. Cùng với hai phương pháp trên, gần đây các kĩ thuật học máy cũng được sử dụng nhiều trong bài toán dự đoán gen bệnh [9, 12, 14, 15]. Bản chất của phương pháp học máy là huấn luyện các mô hình (phân lớp/phân cụm) từ các dữ liệu đã có trong quá khứ, nhằm dự đoán cho các dữ liệu mới. Đối với bài toán dự đoán gen bệnh, chúng ta có thể coi là một bài toán phân lớp nhị phân (binary classification) hoặc phân lớp đơn phân (one-class classification). Vấn đề đối với các phương pháp học máy là cần có lượng dữ liệu đủ lớn để huấn luyện các mô hình. Về cơ bản, càng có nhiều dữ liệu thì mô hình xây dựng sẽ càng chính xác. Vì vậy, việc tích hợp được nhiều nguồn dữ liệu khác nhau sẽ làm tăng độ chính xác của các kĩ thuật học máy trong bài toán dự đoán/tiên lượng gen gây bệnh. Một số phương pháp theo kĩ thuật học máy đã phát triển gần đây như Endevour [19], ProDiGe [14],... Tuy nhiên, với sự phát triển của công nghệ sinh học, lượng dữ liệu sinh học phân tử vẫn đang được sinh ra ngày càng nhiều, việc tích hợp các nguồn dữ liệu này sẽ cho kết quả dự đoán/tiên lượng với độ chính xác cao hơn. Khi coi bài toán phân loại/dự đoán gen bệnh là bài toán phân lớp nhị phân, trong đó dữ liệu positive là tập các gen đã biết là gen gây bệnh, các gen này thường được phát hiện bằng các phương pháp thực nghiệm và số lượng gen gây bệnh của mỗi bệnh cụ thể thường rất ít. Dữ liệu negative là tập những gen còn lại, tuy nhiên khi sử dụng tập gen này sẽ có hai vấn đề xảy ra: (1) số lượng gen rất lớn, thường lớn hơn rất nhiều so với tập positive, từ đó dẫn đến bài toán huấn luyện dữ liệu mất cân bằng; (2) trong số những gen còn lại đó, chưa thể nói chắc chắn những gen đó là gen không gây bệnh, nên sẽ có nhiều false negative trong dữ liệu. Để giải quyết vấn đề này, trong lĩnh vực học máy đã có một phương pháp được gọi là huấn luyện mô hình dự đoán từ dữ liệu positive và dữ liệu chưa biết nhãn (unlabeled data). Nghĩa là 62 Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn chúng ta coi phần dữ liệu còn lại là dữ liệu chưa có nhãn, và tìm cách sử dụng dữ liệu này cho quá trình huấn luyện mô hình. Một số nghiên cứu trước đây đã đề xuất mô hình phân lớp nhị phân cho bài toán dự đoán gen bệnh, trong đó tập negative được chọn ngẫu nhiên [8, 9, 11], hoặc sử dụng kĩ thuật bagging để lựa chọn tập negative [14, 15]. Tuy nhiên các cách làm này đều cho kết quả dự đoán chưa cao vì trong số các gen còn lại, rất khó để khẳng định một gen nào đó là gen không gây bệnh [12]. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự đoán gen bệnh bằng cách sử dụng hai tập dữ liệu: tập dữ liệu positive (P) là tập gen bệnh đã biết bằng thực nghiệm; tập các gen còn lại gọi là tập dữ liệu chưa có nhãn (U). Để huấn luyện được mô hình dự đoán, chúng tôi đề xuất một cách phân chia tập dữ liệu U thành các tập dữ liệu N1, N2, N3, N4. Sau khi xây dựng được các tập dữ liệu này rồi, chúng tôi sử dụng phương pháp học máy weighted support vector machine (wSVM) để huấn luyện mô hình, trong đó phương pháp wSVM cho phép đặt các trọng số khác nhau cho mỗi gen trong từng tập N1, N2, N3, N4 nhằm thể hiện mức độ đóng góp vào quá trình huấn luyện của các gen trong mỗi tập là khác nhau. Cuối cùng chúng tôi thử nghiệm trên tập dữ liệu thực tế để kiểm chứng độ chính xác của phương pháp. 2. Nội dung nghiên cứu 2.1. Biểu diễn đặc trưng gen Trong bài toán dự đoán gen bệnh, mỗi gen gi được biểu diễn bằng các loại thông tin khác nhau, như thông tin về cấu trúc của gen hoặc của các thành phẩm gen (protein), thông tin về chú giải chức năng gen từ GO (gene ontology),. . . Nhìn chung, càng tích hợp được nhiều nguồn thông tin sinh học liên quan đến gen thì mô hình dự đoán sẽ cho kết quả tốt hơn. Trong nghiên cứu này, chúng tôi biểu diễn mỗi gen bằng một véc-tơ gồm các thông tin lấy từ 4 nguồn chính sau: 1. Miền protein (D) 2. Các chức năng phân tử (MF) 3. Các quá trình sinh học (BP) 4. Các thành phần tế bào (BP) Trong đó (1) được lấy từ CSDL PFAM, (2)-(4) được lấy từ cây từ điển gen [4]. Như vậy, mỗi gen gi được biểu diễn như một vectơ Vgi bao gồm: - Thành phần miền protein Dgi - Thành phần chức năng phân tử MFgi - Thành phần quá trình sinh học BPgi - Thành phần thành phần tế bào CCgi Tức là Vgi = (Dgi , MFgi , BPgi , CCgi ). * Thành phần miền Dgi của gen gi được biểu diễn : Dgi = (di1 , di2 ,. . . ., di|P f am−A| ) - Trong đó: + dij = 1 nếu sản phẩm của gen gi chứa miền tương ứng trong Pfam-A + dij = 0 nếu ngược lại (với 1 ≤ j ≤ |P f am − A|) . (CSDL Pfam-A được lấy trong http://pfam.sanger.ac.uk/) * Đối với các thành phần chức năng phân tử MFgi , thành phần quá trình sinh học 63 Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng BPgi , thành phần thành phần tế bào CCgi sử dụng cơ sở dữ liệu GO được lấy từ (GO, http://www.geneontology.org/ )và chúng được biểu diễn tương tự nhau. Thành phần chức năng phân tử MFgi của gen gi được biểu diễn : - M F gi = (mfi1 , mfi2 , . . . , mfi|SM F |), - BP gi = (bpi1 , bpi2 , . . . , bpi|SBP | ), - CCgi = (cci1 , cci2 , . . . , cci|SCC| ). Trong đó các thành phần này bằng 1 nếu gen gi liên quan đến term GO tương ứng trong mỗi loại từ điển, và bằng 0 trong trường hợp ngược lại. Như vậy mỗi gen gi sẽ biểu diễn bằng 1 véc-tơ gồm nhiều thành phần, trong đó mỗi thành phần có giá trị 0 hoặc 1. 2.2. Thuật toán xây dựng các tập dữ liệu N1, N2, N3, N4 1. Chúng tôi xây dựng tập các gen âm tính tin cậy N1 từ U bằng cách tính toán sự tương đồng giữa các gen chưa gán nhãn trong U với các gen dương tính trong P; ý tưởng chính là chúng tôi tìm cách nhặt lần lượt các gen trong U ở xa so với tập P vào tập N1, trong đó khái niệm ở xa được hiện thực bằng một độ đo khoảng cách giữa 2 gen, hay nói cách khác chính là độ đo sự giống nhau về mặt chức năng của 2 gen. Chi tiết thuật toán được cho trong đoạn giả mã dưới đây: 1. N 1 = ∅; 2. Biểu diễn mỗi gen gi trong P và U bằng một vector Vgi ; P|P | 3. pr = i=1 V gi |P |; 4. ave_dist = 0; 5. Với mỗi gi ǫUthực hiện 6. ave_dist += dist(pr,Vgi )/|U|; 7. Với mỗi gi ǫUthực hiện 8. Nếu(dist(pr,Vgi ) > ave_dist) 9. N 1 = N 1 ∪ {gi } Trong đó dist(a,b) là khoảng cách Ơ-cơ-lít giữa hai vector a và b. Như vậy, sau bước này chúng ta có 3 tập gen: tập P, tập N1, và U\N1. Tiếp theo, chúng tôi tiếp tục phân chia tập U\N1 thành các tập N2, N3, N4. Trong đó, tập N2và tập N3 là tập chứa các gen gần với ranh giới phân loại tập positive và tập negative.Để làm được điều này, chúng tôi xây dựng 1 đồ thị biểu diễn mối quan hệ giữa các gen trong P ∪ U (chú ý là xét toàn bộ gen trong P và U): * Xét đồ thị GSIM = (VSIM , ESIM ) Trong đó: + VSIM là tập các đỉnh vbiểu diễn cho một gen trong P ∪ U. + ESIM là tập các cạnh (gi ,gj ) biểu diễn cho một kết nối giữa hai gen khác nhau gi và gj . Sau đó biểu diễn đồ thị GSIM bằng ma trậnWij để tìm ra độ giống nhau giữa hai gen gi và gj bất kỳ như sau: dist(gi , gj ) − minkǫ[1,|P ∪U |]dist(gi , gk ) Wi j = 1 − (1) maxkǫ[1,|P ∪U |]dist(gi , gk ) − minkǫ[1,|P ∪U |]dist(gi , gk ) - Nếu Wij đạt giá trị cao chỉ ra rằng hai gengivà gjcó đặc trưng sinh học giống nhau và do 64 Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn đó có khả năng hai gen này thuộc về cùng một loại. - Với hệ thống có các gen mang đặc điểm gần giống nhau trong GSIM , lúc này chúng tôi áp dụng thuật toán bước đi ngẫu nhiên để phát hiện ra những phần tử gần giống dương tính (positive) và gần giống âm tính (negative), thuật toán được tiến hành như sau: * Thuật toán bước đi ngẫu nhiên: Bước 1: Khởi tạo các xác suất tiên nghiệm của mẫu dương tính và âm tính thật sự. - Đặt P0 và N0 biểu diễn xác suất tiên nghiệm của mẫu dương tính và âm tính. - Trong P0 , xác suất tiên nghiệm của mẫu dương tính trong P được gán bằng +1(tổng xác suất bằng |P| ). - Trong N0 , xác suất tiên nghiệm của mẫu thực sự âm tính trong N1được gán -|P| / |N1| (tổng của xác suất bằng - |P|). - Biểu diễn chung vector xác suất tiên nghiệm cho dữ liệu: Go = (P0 ,U0 ,N0 ) Trong đó ΣP0 = ΣN0 và xác suất trước đó của U0 bằng 0. Bước 2: Truyền các ảnh hưởng thông tin gắn nhãn từ G0 đến các gen của U\N1. Áp dụng thuật toán bước đi ngẫu nhiên vào đồ thị GSIM : - Đặt G0 là vector xác suất tiên nghiệm. - Gr là vector xác suất ở bước r có thể được tính như sau: Gr = (1 − α)Wij Gr − 1 + αG0 , (r ≥ 2) (2) Trong đó: G1 = Go vWij = D −1 Wij (3) Dii = Σk Wik vα = 0.8; (chúng tôi lựa chọn giá trị của α là 0.8) Khi Dif = |Gr − Gr−1 | ⇐ 10−6 thì thuật toán dừng. Bước 3: Gán nhãn cho những gen có khả năng dương tính (N2), những gen có khả năng âm tính (N3) và những gen âm tính yếu (N4). Dựa vào giá trị của vector Gr , chúng tôi phân chia các gen gi vào các tập như sau: - N 2 = N 2 ∪ gi nếu Gr (gi ) > 1 − α - N 3 = N 3 ∪ gi nếu Gr (gi ) ← (1 − α) - N 4 = N 4 ∪ gi nếu −(1 − α) ≤ Gr (gi ) ≤ (1 − α) Như vậy, từ dữ liệu ban đầu gồm hai tập P và U, chúng tôi đã phân chia thành 5 tập với ý nghĩa như trên: P, N1, N2, N3, N4. Tiếp theo chúng tôi sẽ huấn luyện mô hình phân lớp với 5 tập dữ liệu này sử dụng phương pháp wSVMs. 2.3. Huấn luyện mô hình với wSVMs Chúng tôi xây dựng mô hình phân lớp để huấn luyện mô hình dựa trên các dữ liệu đã chuẩn bị bằng phương pháp wSVMs. Trong đó hàm mục tiêu của phương pháp wSVMs được điều chỉnh như sau: 1 minimize |w|2 + c0 ΣiǫN 1 ξi + c2 ΣiǫN 2 ξi + c3 ΣiǫN 3 ξi + c4 ΣiǫN 4 ξi (4) 2 Thỏa mãn các ràng buộc: 65 Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng yi (wT xi + B) ≥ 1ξi (i = 1, 2, ..., n) (5) - Trong đó ξi là một tham số cho phép sự phân loại sai của một số mẫu huấn luyện, và c0 , c1 , c2 , c3 và c4 là các hệ số phạt khác nhau cho từng loại dữ liệu thuộc vào các tập mà chúng tôi đã phân loại trong mục 2.1. Chúng tôi huấn luyện và kiểm thử các mô hình dự đoán gen bệnh sử dụng thư viện libsvm [6] trong môi trường linux. Chi tiết về thực nghiệm được trình bày trong mục dưới đây. 2.4. Thực nghiệm 2.4.1. Dữ liệu Như đã trình bày trong các phần trước, mỗi gen được biểu diễn bởi các thuộc tính thuộc vào 5 nhóm đặc trưng : (1) các miền protein D, (2) các chức năng phân tử MF, (3) các quá trình sinh học mà gen đó tham gia BP, và (4) các thành phần tế bào CC. Trong đó các dữ liệu thuộc nhóm (1) được lấy từ cơ sở dữ liệu PFAM (http://pfam.sanger.ac.uk/), các dữ liệu thuộc nhóm (2), (3), (4) được lấy từ cơ sở dữ liệu GeneOntology (http://www.geneontology.org/).Ngoài ra thông tin về danh sách các gen bệnh đã biết được lấy từ cơ sở dữ liệu OMIM (http://www.omim.org). Từ các nguồn dữ liệu được download về, chúng tôi đã tiền xử lí để có được dữ liệu đầu vào thực nghiệm thuật toán đề xuất. Thông tin cụ thể trong Bảng 1. Bảng 1. Thông tin về dữ liệu thực nghiệm STT Đối tượng Số lượng 1 Tổng số gen sử dụng 9720 2 Số gen bệnh 1235 3 Số lượng miền protein 100 4 Số lượng chức năng phân tử 100 5 Số lượng quá trình sinh học 100 6 Số lượng thành phần tế bào 100 7 Số lượng protein lân cận được xét (bao gồm 1N và 2N) 50 Như vậy, mỗi gen sẽ được biểu diễn bởi một vector gồm 450 đặc trưng, giá trị tại mỗi đặc trưng là 0 hoặc 1 (0 – nếu gen đó không có đặc trưng tương ứng và 1 trong trường hợp ngược lại). Tổng số gen trong dữ liệu thực nghiệm là 9720 gen, trong đó 1235 được gán nhãn là gen bệnh (thuộc tập P), còn lại 8485 gen là chưa biết nhãn. 2.4.2. Công cụ tính toán Dữ liệu khi download từ các CSDL từ các website chứa nhiều loại thông tin khác nhau, chúng tôi đã viết các đoạn trình bằng C++ (trong môi trường linux) để xử lí các giá trị nhiễu, ghép nối các phần dữ liệu từ nhiều nguồn thông qua tên định danh của gen. Dữ liệu cuối cùng chúng tôi có được như đã trình bày trong Bảng 1. Để tính toán ra các tập N 1, N 2, N 3 và N 4 theo thuật toán trong mục 2.2, chúng tôi đã viết chương trình bằng C++. Sau khi chuẩn bị được dữ liệu dạng vector, chúng tôi đã sử dụng bộ công cụ libsvm (http://www.csie.ntu.edu.tw/ cjlin/libsvm/) để huấn luyện và kiểm thử mô hình wSVMs cho bài toán dự đoán gen bệnh. 66 Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn 2.4.3. Một số kết quả Chúng tôi đã thử nghiệm mô hình weighted svm với các bộ tham số huấn luyện khác nhau trên dữ liệu đã chuẩn bị. Để đánh giá mô hình dự đoán, chúng tôi đã sử dụng 3 tiêu chuẩn quen thuộc trong học máy là precision, recall và F1-measure. Gọi T P là số lượng phần tử được mô hình dự đoán đúng cho lớp positive. T N là số lượng phần tử được mô hình dự đoán đúng cho lớp negative. F P là số lượng phần tử mô hình dự đoán sai cho lớp positive. F N là số lượng phần tử mô hình dự đoán sai cho lớp negative. Ta có T P + F N, T N + F P lần lượt là tổng số phần tử của lớp positive và tổng số phần tử của lớp negative thực có trong dữ liệu thử nghiệm. Từ đó các tiêu chuẩn đánh giá mô hình được tính như sau: TP P recisionpositive = ; TP + FP TN P recisionnegative = ; TN + FN TP Recallpositive = ; TP + FN TN Recallnegative = ; TN + FN P recisionpositive + P recisionnegative P recision = ; 2 Recallpositive + Recallnegative Recall = ; 2 2∗ (P recision ∗ Recall) F 1 − measure = (P recision + Recall) Chúng tôi thực hiện 10-fold cross-validation trên tập dữ liệu thực nghiệm, kết quả chạy mô hình weighted svm với các bộ tham số khác nhau được liệt kê trong bảng dưới đây, trong đó các hệ số phạt c0 , c1 , c2 , c3 , c4 lần lượt là: 1.0, 1.5, 2.0, 2.5 và 3.0. Bảng 2. Kết quả dự đoán trên dữ liệu thực nghiệm Tham số Precision (%) Recall (%) F1-Measure (%) RBF Kernel (gamma = 0.001) 86,5 86,4 86,4 RBF Kernel (gamma = 0.01) 83,2 81,4 82,3 Polynomial kernel (d = 3) 81,7 81,5 81,6 Linear kernel 79,2 80,4 79,8 Khi thực nghiệm với dữ liệu đã chuẩn bị bằng phương pháp weighted SVMs, chúng tôi đã thực nghiệm trên 3 hàm nhân phổ biến là RBF, linear, và polynomial. Với mỗi loại hàm nhân, chúng tôi đã thử và chọn ra được giá trị của các tham số phù hợp cho kết quả dự đoán cao nhất (Bảng 2). Trong 3 loại hàm nhân này thì hàm nhân RBF cho kết quả cao nhất với F1 = 85.50, và hàm nhân Linear cho kết quả thấp nhất F1 = 79.8. Đối với hàm nhân RBF, thì tham số gamma (gamma = 1/(2*sigma2 )) được chúng tôi thử nghiệm và tìm ra giá trị tốt nhất là gamma = 0.001. Ngoài ra, để đánh giá mức độ ảnh hưởng của các nhóm đặc trưng đến kết quả phân lớp, chúng tôi cũng đã thử nghiệm xây dựng mô hình trên từng nhóm đặc trưng riêng rẽ, và sử dụng đồng thời các nhóm đặc trưng. Kết quả của các thử nghiệm này được cho trong Bảng 3. Mặc dù sự sai khác khi sử dụng các nhóm đặc trưng khác nhau là không quá nhiều, tuy nhiên, chúng tôi thấy rằng khi sử dụng từng nhóm đặc trưng riêng rẽ thì kết quả dự đoán không 67 Lê Thu Hương, Thái Thị Thanh Vân và Trần Đăng Hưng được cao như trong trường hợp sử dụng kết hợp nhiều nhóm đặc trưng. Bảng 3. Kết quả thực nghiệm với các nhóm đặc trưng khác nhau Nhóm đặc trưng Precision (%) Recall (%) F1-Measure (%) (1) 76,3 74,9 75,6 (2) 79,6 80,1 79,8 (3) 81,9 80,3 81,1 (4) 78,4 77,2 77,8 (2)+(3)+(4) 83,2 84,6 83,9 (1)+(2)+(3)+(4) 86,5 86,4 86,4 Điều này có thể lí giải khi kết hợp nhiều loại thông tin khác nhau để mô tả một gene thì khi huấn luyện mô hình weighted svm có thể dự đoán tốt hơn. Tuy nhiên, điều này cũng còn phụ thuộc vào việc lựa chọn các tham số mô hình và giá trị phạt c0 , c1 , c2 , c3 , c4 . Trong thực nghiệm này thì chúng tôi mới chỉ lựa chọn các giá trị tham số phạt này theo trực quan (như thực nghiệm bên trên). Trong thời gian tới chúng tôi sẽ thực nghiệm với nhiều bộ tham số khác nhau để tìm ra bộ giá trị tốt nhất cho từng loại nhóm đặc trưng khác nhau. 3. Kết luận Để tìm kiếm các gen bệnh, các phương pháp học máy cổ điển thường xây dựng mô hình phân lớp nhị phân, trong đó sử dụng các gen bệnh đã biết làm dữ liệu positive (P), và tập những gen còn lại là dữ liệu negative (N). Tuy nhiên, tập dữ liệu N này sẽ chứa nhiều nhiễu, vì trong số các gen còn lại này có thể sẽ chứa một số gen gây bệnh. Trong nghiên cứu này chúng tôi đã đưa ra một phương pháp mới để xây dựng mô hình dự đoán gen bệnh từ dữ liệu gen bệnh đã biết (P) và các gen còn lại được coi là dữ liệu chưa biết nhãn (U). Chúng tôi tìm cách phân chia tập U thành các tập khác nhau, sau đó huấn luyện mô hình wSVMs trên các tập dữ liệu này. Thực nghiệm trên dữ liệu thực tế cho kết quả dự đoán khá cao, điều này chứng tỏ phương pháp đề xuất phù hợp cho bài toán dự đoán gen bệnh. Ngoài ra, chúng tôi tin rằng phương pháp này có thể áp dụng cho các bài toán khác khi dữ liệu negative khó xác định. Lời cảm ơn. Bài báo hoàn thành dưới sự tài trợ của Quỹ NAFOSTED (Mã số đề tài: 102.01-2011.05). TÀI LIỆU THAM KHẢO [1] Adie, E. et al., 2005. Speeding disease gene discovery by sequence based candidate prioritization. BMC Bioinformatics, 6(1): 55. [2] Adie, E.A., Adams, R.R., Evans, K.L., Porteous, D.J. and Pickard, B.S., 2006. SUSPECTS: enabling fast and effective prioritization of positional candidates, Bioinformatics, 22, 773-774. [3] Aerts, S., Lambrechts, D., Maity, S., Van Loo, P., Coessens, B., De Smet, F., Tranchevent, L.-C., De Moor, B., Marynen, P., Hassan, B., Carmeliet, P. and Moreau, Y., 2006. Gene prioritization through genomic data fusion, Nature Biotechnology, 24, 537-544. [4] Ashburner M. et al., 2000. "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium". Nat. Genet. 25 (1): 25–29. [5] Barabasi, A.-L., Gulbahce, N. and Loscalzo, J., 2011. Network medicine: a network-based approach to human disease. Nat Rev Genet, 12, 56-68. [6] Chang, C. & Lin, C., 2011. LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 27:1-27. 68 Một phương pháp dự đoán gen gây bệnh sử dụng dữ liệu chưa có nhãn [7] Chen J., Aronow B. J. and Jegga A. G., 2009. Disease candidate gene identification and prioritization using protein interaction networks. BMC Bioinformatics, 10:73. [8] Chen, J., Xu, H., Aronow, B. and Jegga, A., 2007. Improved human disease candidate gene prioritization using mouse phenotype. BMC Bioinformatics, 8, 392. [9] De Bie, T., Tranchevent, L.-C., Van Oeffelen, L.M.M. and Moreau, Y., 2007. Kernel-based data fusion for gene prioritization. Bioinformatics, 23, i125-i132. [10] Ideker, T., & Sharan, R., 2008. Protein networks in disease. Geno. Res., 18: 644-652. [11] Jonsson, P.F. and Bates, P.A., 2006. Global topological features of cancer proteins in the human interactome. Bioinformatics, 22, 2291-2297. [12] Kann M. G., 2010. Advances in translational bioinformatics: computational approaches for the hunting of disease genes. Briefings In Bioinformatics, 11(1), 96-110. [13] Kohler, S. et al., 2008. Walking the Interactome for Prioritization of Candidate Disease Genes. The American Journal of Human Genetics, 82(4):949-958. [14] Mordelet, F. and Vert, J.-P., 2011. ProDiGe: Prioritization Of Disease Genes with multitask machine learning from positive and unlabeled examples. BMC Bioinformatics, 12, 389. [15] Moreau, Y. and Tranchevent, L.-C., 2012. Computational tools for prioritizing candidate genes: boosting disease gene discovery. Nat Rev Genet, 13, 523-536. [16] Oti M, Snel B, et al., 2006. “Predicting disease genes using protein–protein interactions”. JMG, 43(8):691-698. [17] Peng Y., Xiao L.L., Jian P.M., and Chee K.K., 2012. Positive-Unlabeled Learning for Disease Gene Identification. Bioinformatics, Vol. 28 no, pages 2640–2647. [18] Richard Twyman, 2003. Linkage analysis: Finding the rough position of human disease genes relative to known genetic markers. [19] Tranchevent L. C., Barriot R., Yu S., Van Vooren S., Van Loo P., Coessens B., De Moor B., Aerts S., Moreau Y., 2008. ENDEAVOUR update: a web resource for gene prioritization in multiple species. Nucleic Acids Res, 36:W377-W384 [20] Wang, D., Wang, J., Lu, M., Song, F. and Cui, Q., 2010. Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases.Bioinformatics, 26, 1644-1650. ABSTRACT Predicting disease-causing genes using unlabelled data In this paper, we present a method that uses unlabeled data to confront the disease-causing gene prediction problem. Normally, disease-causing gene prediction does not have binary classification problems but it is difficult to identify negative data in our problems, and that leads to low prediction accuracy. We propose the use of unlabeled data to train machine learning model in process of building negative set in order to improve efficiency. Keywords: Disease-causing gene, unlabeled data, binary classification. 69