Phân loại bệnh rung nhĩ dùng XGBoost và học sâu

Chia sẻ: ViMessi2711 ViMessi2711 | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

46
lượt xem 1
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết này đề xuất một phương pháp phân loại tín hiệu rung nhĩ được đo từ các thiết bị điện tâm đồ (ECG) cầm tay. Phương pháp tiếp cận của chúng tôi sử dụng kết hợp XGBoost và mô hình học sâu (deep learning) trong đó XGBoost được xây dựng trên bộ đặc trưng được tăng cường và tinh chỉnh qua thực nghiệm, thực hiện vai trò sinh dữ liệu cho mô hình học sâu.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân loại bệnh rung nhĩ dùng XGBoost và học sâu

Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 85 - 91 PHÂN LOẠI BỆNH RUNG NHĨ DÙNG XGBOOST VÀ HỌC SÂU Nguyễn Hồng Quang1*, Trịnh Văn Loan1, Phạm Ngọc Hưng3, Hà Quang Thái2, Bùi Trung Anh2, Phan Công Mạnh2 1 Trường Đại học Bách Khoa Hà Nội, Công ty TNHH phát triển phần mềm Toshiba (Việt Nam), 3 Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 TÓM TẮT Bài báo này đề xuất một phương pháp phân loại tín hiệu rung nhĩ được đo từ các thiết bị điện tâm đồ (ECG) cầm tay. Phương pháp tiếp cận của chúng tôi sử dụng kết hợp XGBoost và mô hình học sâu (deep learning) trong đó XGBoost được xây dựng trên bộ đặc trưng được tăng cường và tinh chỉnh qua thực nghiệm, thực hiện vai trò sinh dữ liệu cho mô hình học sâu. Chúng tôi sử dụng các kỹ thuật phân đoạn và sinh nhãn cho các đoạn tín hiệu, giúp tăng cường, tạo sự cân bằng và độ tin cậy cho bộ dữ liệu. Mô hình học sâu với hướng tiếp cận học chuyển đổi (transfer learning) được sử dụng để thực hiện phân loại các đoạn tín hiệu dưới dạng ảnh phổ tần số. Chúng tôi thử nghiệm mô hình trên bộ dữ liệu của cuộc thi PhysioNet/Computing in Cardiology Challenge 2017 (PCCC 2017) để phân loại 4 loại tín hiệu: rung nhĩ, bình thường, các loại bệnh tim khác và nhiễu. Mô hình học sâu thể hiện khả năng dự đoán tốt trên các đoạn dữ liệu ngắn với kết quả F1 = 0.8397. Nghiên cứu của chúng tôi mở ra một hướng phát triển mới cho bài toán phân loại tín hiệu ECG khi thực hiện phân loại trên các đoạn tín hiệu ngắn, đồng thời mang đến một giải pháp ứng dụng các mô hình học sâu khi bài toán gặp những hạn chế về mặt dữ liệu. Từ khóa: Tín hiệu điện tim, Bệnh rung nhĩ, học sâu, XGBoost, mạng nơ ron tích chập, Biến đổi Wavelet rời rạc GIỚI THIỆU* Rung nhĩ (hay rung tâm nhĩ, atrial fibrillation) là một trong những bệnh rối loạn nhịp tim thường gặp. Rung nhĩ có nguy cơ dẫn đến suy tim, đột quỵ, và các biến chứng tim mạch nguy hiểm khác. Người bị bệnh thường phải đến bệnh viện khám định kỳ để theo dõi nhịp tim bằng hệ thống máy đo điện tâm đồ (ECG), tốn kém nhiều thời gian và chi phí. Những năm gần đây các nhà sản xuất đã cho ra đời nhiều loại thiết bị đo ECG cầm tay, giúp việc theo dõi nhịp tim trở nên thuận lợi và nhanh chóng hơn với người bệnh. Sự phát triển của các thiết bị đo này cũng mở ra nhiều cơ hội cho các nhà phát triển tích hợp các hệ thống phần mềm thông minh đi kèm. Tuy nhiên, so với việc sử dụng các hệ thống máy đo ECG 12 kênh (12-lead) thông thường, chất lượng tín hiệu của các thiết bị đo cầm tay sẽ kém hơn do chỉ đo đơn kênh (single-lead) và thường gặp rất nhiều nhiễu do tác động của môi trường, cũng như sai số do việc đo được * Tel: 0978 813688, Email: quangnh@soict.hust.edu.vn thực hiện bởi những người không chuyên. Những điều này đặt ra nhiều thách thức cho việc phát triển các thuật toán phân loại tín hiệu. Nắm bắt được xu hướng phát triển này, PCCC 2017 đã triển khai đề tài phân biệt tín hiệu bệnh rung nhĩ với các tín hiệu nhịp tim thông thường, tín hiệu nhiễu hay các tín hiệu bệnh tim khác. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp giải quyết bài toán phân loại tín hiệu nhịp tim theo hướng tiếp cận sử dụng kết hợp XGBoost và học sâu, trong đó XGBoost đóng vai trò tạo ra dữ liệu, và mô hình học sâu thực hiện phân loại các mẫu tín hiệu. Trước tiên, chúng tôi trích chọn các đặc trưng từ tín hiệu ECG để xây dựng một mô hình XGBoost. Các đặc trưng sẽ được điều chỉnh và cải tiến qua quá trình thực nghiệm. Tiếp theo đó, mô hình XGBoost được sử dụng để sinh dữ liệu cho mô hình học sâu. Chúng tôi áp dụng kỹ thuật học chuyển đổi (transfer learning) trên một mạng CNN (Convolutional Neural Network) được huấn luyện trước (pretrained) là VGG-16 [16], kết hợp với một 85 Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ kiến trúc Multi-layer Perceptron (MLP) với hai lớp ẩn. Bài báo này đề xuất một phương pháp mới có khả năng phát hiện các mẫu tín hiệu ngắn bất thường xuất hiện trong đoạn tín hiệu dài. Chúng tôi thử nghiệm và đánh giá mô hình này trên dữ liệu của PCCC 2017. Phần tiếp theo sẽ trình bày về các nghiên cứu liên quan. Phần 3 mô tả phương pháp đề xuất. Phần 4 trình bày kết quả thử nghiệm và đánh giá. Phần 5 là kết luận và định hướng nghiên cứu tiếp theo. CÁC NGHIÊN CỨU LIÊN QUAN Bài toán phân loại tín hiệu ECG đã được các nhà nghiên cứu thử nghiệm và tiếp cận theo nhiều hướng khác nhau. Hướng nghiên cứu trích chọn đặc trưng (feature engineering) kết hợp các thuật toán phân lớp trong họ cây quyết định là một hướng tiếp cận phổ biến và hiệu quả. Chẳng hạn như Teijeiro và cộng sự [6] (đạt kết quả tốt nhất của PCCC 2017) đã thử nghiệm trên 79 đặc trưng, bao gồm các đặc trưng hình thái, đặc trưng thống kê và sử dụng XGBoost để tối ưu trên 8-fold crossvalidation. Zabihi và cộng sự [8] cũng sử dụng 491 đặc trưng, bao gồm các đặc trưng về hình thái miền thời gian, các đặc trưng miền tần số, các đặc trưng miền thời gian-tần số; sau đó 150 đặc trưng được lựa chọn và sử dụng bộ phân lớp Random Forest. Bin và cộng sự [7] sử dụng các đặc trưng riêng của bệnh rung nhĩ, hay các đặc trưng liên quan đến khoảng RR (khoảng cách giữa 2 đỉnh R của tín hiệu điện tim), sử dụng tập hợp cây quyết định huấn luyện bằng thuật toán AdaBoost.M2. Trên bộ dữ liệu MIT/BIH gồm 5 loại nhịp tim, Emanet trích chọn các đặc trưng từ tín hiệu ECG sử dụng biến đổi wavelet rời rạc (Discrete Wavelet Transform) kết hợp với bộ phân lớp Random Forest và đạt độ chính xác 99.8% [9]. Bên cạnh hướng trích chọn đặc trưng, không nằm ngoài xu hướng chung, học sâu cũng được thử nghiệm cho bài toán phân loại tín 86 189(13): 85 - 91 hiệu ECG. Các nghiên cứu sử dụng mạng CNNs có thể kể đến Pyakillya và cộng sự [10] sử dụng 7 lớp 1D-CNNs và 3 lớp FC (Fully Connected) với đầu vào là dữ liệu chuỗi thời gian (time series), hay Al Rahhal và cộng sự [11] sử dụng CNNs với hướng tiếp cận transfer learning. Ngoài ra, các kiến trúc RNNs, GRU hay LSTM là một hướng triển vọng khác cho dữ liệu dạng time series như ECG. Sujadevi và cộng sự [12] sử dụng bộ dữ liệu MIT-BIH Physionet để thử nghiệm các kiến trúc RNNs, GRU, LSTM trên tín hiệu gốc, không cần qua các bước tiền xử lý như khử nhiễu hay lọc tín hiệu nhưng đạt độ chính xác 95% đến 100%. Mohamad M. Al Rahhal và cộng sự [13] thử nghiệm kết hợp CNN và LSTM (CRNN) trên dữ liệu ảnh phổ tần số được biến đổi từ tín hiệu ECG gốc. Các mô hình học sâu là một hướng tiếp cận phổ biến trong nhiều lĩnh vực với hiệu quả vượt trội so với nhiều thuật toán học máy truyền thống khác. Tuy nhiên học sâu thường chỉ phù hợp cho các bài toán có kích thước dữ liệu lớn. Trong khi đó các bộ dữ liệu về ECG như bộ dữ liệu của PCCC 2017 thường bị giới hạn về số lượng, đặc biệt là các mẫu nhịp tim thể hiện bệnh. Vì vậy các nghiên cứu ứng dụng học sâu trong lĩnh vực liên quan đến tín hiệu ECG vẫn chưa thực sự dồi dào do giới hạn về mặt dữ liệu. Nghiên cứu này của chúng tôi mở ra một hướng giải quyết để xây dựng các mô hình học sâu trong điều kiện hạn chế về mặt dữ liệu. Ngoài ra, điểm chung của các nghiên cứu kể trên là việc phân loại được thực hiện trên đoạn tín hiệu ECG dài (như bộ dữ liệu PCCC 2017 các tín hiệu dài 9 đến 61 giây). Trong khi đó đặc điểm của rất nhiều bệnh tim (trong đó có bệnh rung nhĩ) là các dấu hiệu bất thường chỉ xảy ra bất chợt trong vài giây, đặt ra nhu cầu trong việc xác định được các mẫu tín hiệu nhịp tim bệnh trên cả đoạn tín hiệu dài. Phương pháp đề xuất của chúng tôi cũng có khả năng phát hiện các mẫu tín hiệu ngắn bất thường xuất hiện trong đoạn tín hiệu dài. Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ PHƯƠNG PHÁP ĐỀ XUẤT Phương pháp chúng tôi đề xuất gồm các bước phân đoạn tín hiệu điện tim ngắn, lọc các đoạn tín hiệu điện tim ngắn sử dụng bộ phân lớp XGBoost, huấn luyện và thử nghiệm nhận dạng các đoạn tín hiệu điện tim ngắn sử dụng phương pháp học sâu. Phân đoạn tín hiệu điện tim ngắn Để có thể phát hiện các mẫu tín hiệu bất thường trong tín hiệu điện tim, chúng tôi thực hiện đánh giá trên từng đoạn tín hiệu điện tim ngắn. Vì tín hiệu ngắn nhất trong bộ dữ liệu PCCC 2017 có độ dài 2352 mẫu, và vì thông tin chúng tôi sử dụng để huấn luyện mô hình học sâu là thông tin trên miền tần số, do vậy chúng tôi chọn độ dài của đoạn tín hiệu điện tim là 2048 mẫu (giá trị lũy thừa của 2 lớn nhất nhỏ hơn độ dài trên). Như đã trình bày ở phần trên, để có thể huấn luyện mạng nơ ron sâu hiệu quả thì cần có bộ dữ liệu lớn và có phân bố đồng đều giữa các lớp. Tuy nhiên bộ dữ liệu của PCCC 2017 lại có sự phân bố không đồng đều giữa các lớp (mục 4.1). Do đó để tạo sự cân bằng dữ liệu giữa các lớp trong tập dữ liệu huấn luyện, chúng tôi lựa chọn khoảng dịch khi thực hiện phân đoạn dựa vào lớp của tín hiệu. Chúng tôi chọn cố định 20000 đoạn tín hiệu điện tim ngắn cho từng lớp. Như vậy với lớp có nhiều mẫu thì độ dịch lớn và ngược lại với lớp có ít mẫu thì độ dịch nhỏ. Từ đó với từng lớp Normal, AF, Other và Noise, chúng tôi tính được khoảng dịch là 2248 điểm, 150 điểm, 400 điểm và 35 điểm. Lọc các tín hiệu điện tim ngắn Vì trong cả một tín hiệu điện tim dài, đã phần là ở dạng Normal, các dạng tín hiệu điện tim bất thường như AF, Other và Noise chỉ xuất hiện rải rác. Như vậy không phải tất cả các đoạn trong mẫu AF (Other/Noise) đều được gán nhãn là AF. Do vậy chúng tôi đã xây dựng một bộ lọc dựa trên mô hình XGBoost để gán nhãn lại cho từng đoạn tín hiệu điện tim ngắn. 189(13): 85 - 91 Đầu tiên chúng tôi thực hiện trích chọn đặc trưng. Các đặc trưng phổ biến cho tín hiệu ECG đã được phát triển và chọn lọc từ nhiều nghiên cứu trước [2], như các đặc trưng xử lý tín hiệu số sử dụng biến đổi wavelet [17], các đặc trưng về hình thái sóng [18] hay sử dụng mạng nơ-ron để xác định các đặc trưng cho tín hiệu ECG [19]. Ở trong nghiên cứu này, chúng tôi sử dụng 2 nhóm đặc trưng của tín hiệu ECG. Hình 1. Lựa chọn đoạn tín hiệu để huấn luyện mô hình deep learning cho lớp Normal Các đặc trưng thống kê: Một mẫu tín hiệu ECG đặc trưng sẽ xuất hiện các sóng P-QRST. Các thông tin liên quan đến vị trí, khoảng cách, biên độ các sóng này trên mỗi tín hiệu sẽ được thu thập. Ví dụ: các biên độ của sóng R, các vị trí của sóng R, các khoảng cách giữa 2 đỉnh R, ... Các hàm thống kê như average, median, standard deviation, min, max, percentile [75%, 25%, 90%, 10%] được sử dụng để rút ra những đặc trưng thống kê trên mỗi miền đặc trưng thu thập được. Các đặc trưng biến đổi nhịp tim (HRV, HeartRate Variability) [14]: các đặc trưng HRV được trích xuất từ tín hiệu ECG qua các đặc trưng miền thời gian, miền tần số và phân tích thống kê, cung cấp thông tin về sự thay đổi giữa các nhịp tim liên tiếp. Chúng tôi sử dụng bộ công cụ Neurokit [15] để trích xuất các đặc trưng này. Chúng tôi sử dụng những đặc trưng trên để huấn luyện bộ phân lớp sử dụng mô hình XGBoost. Đầu vào của bộ phân lớp là một đoạn tín hiệu điện tim ngắn và đầu ra là 1 trong 4 lớp Normal, AF, Other và Noise. Tiếp 87 Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ theo đoạn tín hiệu điện tim ngắn được mô hình XGBoost nhận dạng khác với lớp của mẫu chứa đoạn tín hiệu này thì đoạn tín hiệu này sẽ bị loại bỏ [Hình 1]. Sau đó chúng tôi chuyển đổi đoạn tín hiệu ECG này sang dạng ảnh phổ tẩn số [Hình 2]. 189(13): 85 - 91 toán điện tim. Đầu vào của mạng VGG-16 là các ảnh có kích thước 224x224x3. Vector đặc trưng đầu ra của khối convolution trong mạng VGG-16 có kích thước 25088 chiều. Chúng tôi xây dựng thêm một số lớp kết nối đầy đủ (fully-connected) phù hợp cho việc phân loại các tín hiệu ECG. THỬ NGHIỆM VÀ ĐÁNH GIÁ Bộ dữ liệu PCCC 2017 Hình 2. Ví dụ ảnh phổ tần số của đoạn tín hiệu ECG Huấn luyện mạng nơ ron sâu để nhận dạng bệnh rung nhĩ Ảnh phổ tần số (224x224x3) Mạng VGG16 Lớp kết nối đầy đủ (25088) Lớp kết nối đầy đủ (2048) Lớp kết nối đầy đủ (2048) Kết quả nhận dạng (4) Hình 3. Kiến trúc mô hình học sâu Chúng tôi đề xuất kiến trúc mô hình học sâu mới dựa trên mô hình mạng CNN để nhận dạng một đoạn tín hiệu điện tim ngắn thuộc vào một trong 4 lớp Normal, AF, Other và Noise [Hình 3]. Các mạng CNNs thường bao gồm 2 thành phần chính: phần trích xuất đặc trưng (các lớp convolution) và phần phân loại (là các lớp fully-connected). Chúng tôi áp dụng phương pháp “transfer learning” theo cách dùng 1 một mạng CNN đã xây dựng sẵn để làm bộ trích xuất đặc trưng. Phần trích xuất đặc trưng của nhiều mô hình CNNs đã được huấn luyện trên bộ dữ liệu lớn nên có khả năng học được các đặc trưng tốt cho phần lớn các dữ liệu cùng loại. Ở đây chúng tôi chọn mạng VGG-16 vì hai nguyên nhân. Thứ nhất mạng VGG-16 đạt thứ hạng rất cao (thứ 2) trong cuộc thi phân loại ảnh ImageNet 2014 [21]. Nguyên nhân thứ 2 là mạng VGG16 có số tầng không quá lớn, vì vậy phù hợp với bài toán có bộ dữ liệu hạn chế như bài 88 Bộ dữ liệu được sử dụng trong cuộc thi PCCC 2017 bao gồm 8528 bản ghi ECG đơn kênh ở tần số 300Hz, với độ dài khác nhau, từ 9 giây (2700 giá trị) đến 61 giây (18300 giá trị). Dữ liệu được gán nhãn thành 4 lớp: N (Normal) bao gồm các tín hiệu nhịp tim thông thường, A (AF) là các tín hiệu nhịp tim của người bị rung nhĩ, O (Other) là các tín hiệu nhịp tim bệnh khác, ~ (Noise) là các tín hiệu nhiễu. Số lượng các mẫu trong từng lớp là không cân bằng, phần lớn là các mẫu Normal với 5076 mẫu và Other với 2415 mẫu. Số lượng mẫu AF và Noise rất ít với 758 và 279 mẫu. Hình 3. Phân bố chiều dài của các mẫu dữ liệu trong tập huấn luyện (hình bên trái), tập xác thực (hình ở giữa) và tập thử nghiệm (hình bên phải), đồng thời tương ứng với 4 lớp Normal (dòng trên cùng), AF (dòng thứ hai), Other (dòng thứ ba) và Noise (dòng thứ tư). Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ Chúng tôi chia dữ liệu thành 3 tập: tập huấn luyện (Training), tập xác thực (Validation), tập kiểm tra (Test). Trong đó, 70% số mẫu của mỗi lớp được dùng cho Training, 15% mẫu mỗi lớp dùng cho Validation, 15% mẫu mỗi lớp dùng cho Test. Nhìn hình 1 chúng tôi nhận thấy đa phần các bản ghi có chiều dài 9000 mẫu (tương ứng với 30 giây). Tuy còn có những bản ghi có chiều dài rất ngắn (khoảng 2500 mẫu) hoặc có những bản ghi có chiều dài lớn (khoảng 18000 mẫu), tuy nhiên số lượng các bản ghi này khá nhỏ. Sự phân bố này đồng đều cho tất cả 4 lớp Normal, AF, Other, Noise, cũng như có sự phân bố đồng đều trên các tập huấn luyện, tập xác thực và tập thử nghiệm. Độ chính xác của mô hình được đánh giá bằng giá trị F1 = (F1n + F1a + F1o + F1n)/4, trong đó F1n, F1a, F1o, F1n lần lượt là giá trị F1 tính trên từng lớp Normal, AF, Other và Noise. Phân loại tín hiệu gốc dùng XGBoost Như chúng tôi đã đề cập, tín hiệu ECG thu thập qua các thiết bị cầm tay thường gồm rất nhiều nhiễu, vì vậy chúng tôi cũng kết hợp thử nghiệm việc lọc nhiễu tín hiệu trước khi đưa vào XGBoost. Chúng tôi phân rã tín hiệu thành các thành phần tần số khác nhau theo kỹ thuật Wavelet Multi-Resolution Analysis, sử dụng DWT, hàm ‘db6’, mức phân rã là 9. Những tín hiệu thành phần có tần số không phù hợp như D1 và D9 sẽ được loại bỏ. Bảng 1. Kết quả thử nghiệm phân lớp tín hiệu điện tim sử dụng bộ phân lớp XGBoost (tính theo F1-score) Đặc trưng Thống kê Thống kê + HRV Dữ liệu gốc 0.7133 0.7222 Dữ liệu lọc nhiễu 0.6898 0.7421 Chúng tôi thử nghiệm mô hình phân lớp XGBoost trên các loại đặc trưng khác nhau: đặc trưng thống kê và đặc trưng HRV. Các đặc trưng sẽ được trích xuất trên cả 2 bộ dữ liệu gốc và bộ dữ liệu đã được lọc nhiễu. Kết quả phân lớp tính theo F1-score được liệt kê trong Bảng 1. 189(13): 85 - 91 Như vậy, lọc nhiễu giúp mô hình dự đoán chính xác hơn ngoại trừ trường hợp chỉ dùng đặc trưng thống kê. Việc tăng cường thêm đặc trưng cũng giúp mô hình đạt được kết quả cao hơn cho dữ liệu gốc. Kết quả nhận dạng các đoạn tín hiệu ngắn ECG Chúng tôi thử nghiệm huấn luyện tối ưu mạng theo hai hàm loss: Cross-entropy loss và F1 loss [5]. Kết quả phân loại F1-score được tổng hợp trong bảng 2. Kết quả ở bảng 2 cho thấy việc tối ưu trực tiếp theo F1 đem lại kết quả trên F1-score tốt hơn (0.8397 so với 0.8304). Các mô hình thường gặp nhầm lẫn nhiều ở các trường hợp: AF bị nhầm thành Other và ngược lại. Trường hợp này thường dễ xảy ra do nhiều bệnh lý về tim khác (Other) cũng xuất hiện những dấu hiệu bất thường về nhịp tim như rung nhĩ, trong khi đó các hình thái của bệnh rung nhĩ cũng khá đa dạng. Kết quả F1 = 0.8397 là tương đương với kết quả của top 1 trong cuộc thi PCCC 2017. Sự khác biệt cũng như ưu điểm trong phương pháp của chúng tôi là mô hình có thể dự đoán cho mẫu tín hiệu ngắn hơn. Bảng 2. Kết quả nhận dạng (F1) các đoạn tín hiệu ECG khi tối ưu theo cross-entropy loss và F1-score Lớp Tối ưu theo cross entropy loss Tối ưu theo F1-score Normal 0.8747 0.8759 AF 0.8316 0.8427 Other 0.6915 0.7098 Noise 0.9239 0.9302 F1 trung bình 0.8304 0.8397 KẾT LUẬN Trong nghiên cứu này, chúng tôi đã đề xuất một hướng giải quyết mới cho việc ứng dụng học sâu trên các bài toán gặp hạn chế về dữ liệu nói chung và bài toán phân loại tín hiệu ECG nói riêng. Phương pháp của chúng tôi kết hợp 2 mô hình XGBoos và học sâu trong đó XGBoost được xây dựng trước và đóng 89