intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Kết hợp đặc trưng sâu trong hỗ trợ chẩn đoán ung thư vú trên nhũ ảnh X quang

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

35
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một giải pháp có thể hỗ trợ bác sỹ hình ảnh phát hiện chính xác bệnh ung thư vú và phân loại ung thư khi chụp X-quang tuyến vú bằng cách sử dụng phương pháp huấn luyện end-to-end kết hợp với mô hình CNN state-of-the-art EfficientNetB3.

Chủ đề:
Lưu

Nội dung Text: Kết hợp đặc trưng sâu trong hỗ trợ chẩn đoán ung thư vú trên nhũ ảnh X quang

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00170 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG Nguyễn Chí Thanh1, Võ Thị Huyền Trang1, Lê Minh Hưng1, Hoàng Lê Uyên Thục2 1 Trường ĐH Công nghệ thông tin - Đại học Quốc gia TP. HCM 2 Trường Đại học Bách khoa - Đại học Đà Nẵng 16521118@gm.uit.edu.vn, 16521283@gm.uit.edu.vn, hunglm@uit.edu.vn, hluthuc@dut.udn.vn TÓM TẮT: Bệnh Ung thư vú là loại ung thư nguy hiểm nhất đối với phụ nữ, các phương pháp sàng lọc bệnh phổ biến là chẩn đoán dựa trên nhũ ảnh, kết quả chẩn đoán bệnh lệ thuộc vào chất lượng ảnh và chuyên môn của bác sĩ. Điều này dẫn đến tốn chi phí, thời gian, công sức mà hiệu quả đạt được không cao. Hiện nay, có nhiều hệ thống hỗ trợ các bác sĩ hình ảnh nâng cao khả năng chẩn đoán bệnh qua nhũ ảnh như phần mềm phát hiện và chẩn đoán bằng máy tính (Computer Aided Diagnosis - CAD) đã được phát triển và ứng dụng lâm sàng từ những năm 1990, có nhiều phương pháp mới sử dụng deep learning, mạng neuron tích chập để tự động học và trích xuất các đặc trưng giúp mang lại độ chính xác cao hơn các phương pháp truyền thống. Tuy nhiên, các phương pháp hiện nay chỉ mới tập trung vào phân loại mà không chỉ ra cụ thể vùng bệnh (tổn thương) nên gây rất nhiều khó khăn cho việc chẩn đoán và điều trị bệnh. Trong bài báo này, chúng tôi đề xuất một giải pháp có thể hỗ trợ bác sỹ hình ảnh phát hiện chính xác bệnh ung thư vú và phân loại ung thư khi chụp X-quang tuyến vú bằng cách sử dụng phương pháp huấn luyện end-to-end kết hợp với mô hình CNN state-of-the-art EfficientNetB3. Thực nghiệm được tiến hành trên các ảnh chụp X-quang tuyến vú đã được số hóa từ tập dữ liệu Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM), mô hình tốt nhất đạt AUC là 0,91 (độ nhạy: 81 % , độ đặc hiệu: 83 %). Từ khóa: Mammograms, Breast cancer, Deep Convolutional Neural Networks (DCNNs), EfficientNet. I. GIỚI THIỆU Sự phát triển nhanh chóng của khoa học máy tính, cụ thể sự bùng nổ của máy học, đặc biệt là học sâu tiếp tục thúc đẩy các nhà khoa học máy tính chuyên nghiên cứu y khoa quan tâm đến việc áp dụng các kỹ thuật mới này để hỗ trợ cho bác sỹ cải thiện độ chính xác của việc chẩn đoán ung thư. Ung thư vú là một trong những nguyên nhân chính gây tử vong do ung thư ở phụ nữ Mỹ [1] và chụp nhũ ảnh để sàng lọc bệnh là việc quan trọng đã được chứng minh giúp giảm tỷ lệ tử vong [2]. Mặc dù, nhũ ảnh được sử dụng rộng rãi trong chẩn đoán ung thư, nhưng việc giải thích những hình ảnh này vẫn còn nhiều thách thức. Xác định dương tính giả (có bệnh) có thể gây ra những lo lắng không đáng có cho bệnh nhân và kéo theo các thủ tục chẩn đoán xâm lấn không cần thiết, tốn kém hay ung thư bị bỏ sót trong sàng lọc (âm tính giả) có thể không được xác định cho đến khi bệnh phát triển nặng hơn. Computer-aided detection (CAD) được phát triển để giúp bác sĩ X-quang thuận tiện trong việc đọc nhũ ảnh. Ban đầu, một số nghiên cứu đã đưa ra các kết luận về tương lai đầy hứa hẹn của CAD [3], [4], [5], [6]. Tuy nhiên, trong hơn thập kỷ qua, nhiều nghiên cứu kết luận rằng CAD hiện đang được sử dụng không cải thiện hiệu suất của bác sĩ X-quang trong công việc hàng ngày ở Mỹ [7], [8], [9]. Với sự thành công vượt bậc của học sâu trong nhận dạng và phát hiện đối tượng [10], ngày càng xuất hiện nhiều nghiên cứu phát triển các công cụ học sâu để hỗ trợ các bác sĩ X-quang nhằm cải thiện độ chính xác của chẩn đoán trên nhũ ảnh [11], [12], [13], [14], [15]. Các nghiên cứu cũng chỉ ra rằng một hệ thống CAD dựa trên học sâu hoạt động tốt tương đương với hiệu suất của bác sĩ X-quang độc lập [16], [17]. Nhũ ảnh là ảnh có kích thước lớn, việc phát hiện vùng ung thư (vùng tổn thương) trên nhũ ảnh là vùng bất thường có kích thước rất nhỏ so với kích thước của ảnh rất khó khăn và là thách thức lớn. Ví dụ, nhũ ảnh thuộc bộ dữ liệu CBIS-DDSM thường là 3000×5000 pixel trong khi vùng quan tâm có khả năng gây ung thư (ROI) có thể nhỏ tới 100×100 pixel. Ngoài ra, vùng tổn thương có thể xuất hiện ở những vị trí khó phát hiện như ở cơ ngực và các vùng dày đặc trong ảnh nên rất khó để nhận ra. Vì vậy, nhiều nghiên cứu đã giới hạn lại, chỉ tập trung vào việc phân loại các chú thích tổn thương [18], [19], [20], [21], [22]. Mặc khác, sự hạn chế của các bộ dữ liệu nhũ ảnh và rất ít bộ dữ liệu nhũ ảnh đã công khai được chú thích đầy đủ [23] cộng với việc hiếm khi có sẵn chú thích tổn thương mà chỉ chú thích tình trạng như ung thư hay không ung thư, đây cũng là một thách thức lớn. Pre-training là một phương pháp huấn luyện đầy hứa hẹn để giải quyết vấn đề huấn luyện một bộ phân loại khi không có sẵn bộ dữ liệu huấn luyện đủ lớn. Cụ thể, Hinton và cộng sự đã sử dụng phương pháp pre-training để khởi tạo các tham số trọng số cho mạng Deep Belief Networks (DBN) với ba lớp ẩn và sau đó tinh chỉnh nó để phân loại kết quả đã cải thiện tốc độ huấn luyện cũng như độ chính xác của bộ nhận dạng chữ viết tay [24]. Một phương pháp huấn luyện phổ biến khác là trước tiên huấn luyện một mô hình học sâu trên cơ sở dữ liệu lớn như ImageNet [25] và sau đó tinh chỉnh mô hình cho một tác vụ khác, mặc dù tác vụ cụ thể có thể không liên quan đến tập dữ liệu huấn luyện ban đầu, các tham số trọng số của mô hình, thứ đã được khởi tạo từ trước để nhận dạng các đặc trưng cơ bản, như cạnh, góc và kết cấu, có thể dễ dàng sử dụng cho một tác vụ sau, điều này tiết kiệm thời gian huấn luyện và cải thiện hiệu suất mô hình [26]. Trong bài báo này, chúng tôi dựa trên phương pháp được đề xuất của nhóm tác giả Trường Y khoa Icahn tại Mount Sinai, New York, Mỹ được đăng tại IPS 2017 workshop có tên: “Deep Learning to Improve Breast Cancer Detection on Screening Mammography” [27] để đề xuất một giải pháp có thể hỗ trợ bác sĩ hình ảnh phát hiện chính xác bệnh ung thư vú, xác định vùng tổn thương và phân loại ung thư bằng cách sử dụng phương pháp huấn luyện end-to- end kết hợp với mô hình CNN state-of-the-art EfficientNetB3. Phương pháp được chia làm hai giai đoạn. Giai đoạn 1, huấn luyện bộ phân loại trên vùng ảnh cục bộ (gọi là patch model) bằng cách sử dụng tập dữ liệu được chú thích đầy
  2. Nguyễn Chí Thanh, Võ Thị Huyền Trang, Lê Minh Hưng, Hoàng Lê Uyên Thục 207 đủ với thông tin ROI. Giai đoạn 2, sử dụng các tham số trọng số của patch model để khởi tạo các tham số trọng số của mô hình phân loại toàn hình ảnh (gọi là whole image model). Nghiên cứu này đã đánh giá các kiến trúc mạng khác nhau để xây dựng patch model và whole image model sao cho đạt được hiệu suất tốt nhất. Những đóng góp chính của bài báo này, bao gồm: - Đề xuất xây dựng hệ thống hỗ trợ chuẩn đoán bệnh ung thư vú sử dụng mô hình mạng CNN: VGG16, ResNet50 và EfficientNetB3 kết hợp với phương pháp huấn luyện end-to-end. - Theo cách tiếp cận này, chú thích vùng bệnh (tổn thương) trên ảnh chỉ được yêu cầu trong giai đoạn huấn luyện ban đầu và các giai đoạn tiếp theo chỉ yêu cầu gán nhãn hình ảnh, loại bỏ phụ thuộc vào các chú thích vùng bệnh (tổn thương) hiếm khi có sẵn trên các loại ảnh y khoa. - Tiến hành nhiều thực nghiệm trên bộ dữ liệu Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM) đánh giá và so sánh kết quả đạt được. Bài báo cáo này được trình bày gồm phần 1 giới thiệu và các công việc liên quan, các phương pháp được sử dụng trong nghiên cứu này được thể hiện trong phần 2. Thực nghiệm và đánh giá được trình bày trong phần 3, phần 4 là phần kết luận và hướng phát triển. II. PHƯƠNG PHÁP Thách thức lớn nhất của bài toán này là vùng bất thường (có bệnh) có kích thước rất nhỏ so với kích thước của ảnh nhũ, do đó việc phân loại nhũ ảnh trên cấp độ toàn hình ảnh sẽ gặp nhiễu dẫn đến chẩn đoán sai. Một cách tiếp cận phổ biến là sử dụng mô hình phân loại vùng ảnh hoạt động như một cửa sổ trượt (sliding window) để tạo ra một lưới xác suất (gọi là heatmap). Theo sau đó là một tiến trình khác với mục đích tổng hợp đầu ra của mô hình phân loại vùng ảnh, cho kết quả phân loại cuối cùng (cấp độ toàn bộ hình ảnh - whole image). Tuy nhiên, cách tiếp cận này yêu cầu hai bước mà mỗi bước cần phải tối ưu riêng biệt. Đồng thời, đã giả thuyết rằng heatmap có thể gây mất mát thông tin trong mô hình phân loại nhũ ảnh. Giả thuyết này đã được chứng minh là đúng [28]. Điều này chỉ ra rằng việc loại bỏ heatmap có lợi cho mô hình phân loại nhũ ảnh. 2.1. Bộ dữ liệu DDSM [29] là một bộ dữ liệu ảnh nhũ được định dạng lossless-JPEG. Trong phạm vi bài báo này, sử dụng bộ dữ liệu CBIS-DDSM [30] là một phiên bản mới của bộ dữ liệu DDSM. CBIS-DDSM chứa tập các ảnh được giải nén và chuyển đổi sang định dạng DICOM tiêu chuẩn. Bộ dữ liệu có tất cả 2821 nhũ ảnh từ 1249 phụ nữ, được lấy từ trang chủ CBIS-DDSM. Bộ dữ liệu gồm hai nhóm ảnh ung thư là ảnh khối và ảnh vôi hoá. Bên trong mỗi ảnh DICOM có chứa nhiều thông tin khác nhau: thông tin bệnh nhân, trạng thái bệnh lý, vùng chứa tổn thương trong ảnh,… Mỗi ảnh được gán một trong hai nhãn là benign và malignant tương ứng với hai mức độ khác nhau trong chẩn đoán ung thư vú là lành tính và ác tính. Ngoài ra, mỗi một ảnh cũng được chú thích về vị trí của vùng tổn thương ung thư gồm cả khối u lành tính, khối u ác tính và vôi hoá lành tính, vôi hóa ác tính xuất hiện trong ảnh. Trong phạm vi bài báo này chúng tôi chỉ thực hiện phân loại trên nhóm ảnh khối (còn được gọi là ảnh mass). Đầu tiên, chuyển toàn bộ dữ liệu từ định dạng DICOM sang JPEG với kích thước là 1152×896 để phù hợp với cấu hình phần cứng. Sau đó, chia ngẫu nhiên bộ dữ liệu thành hai phần training set và testing set theo tỉ lệ 85:15. Từ training set, tiếp tục chia ngẫu nhiên theo tỉ lệ 90:10 để tạo validation set độc lập. Việc chia này vẫn đảm bảo tỉ lệ các trường hợp ung thư là giống nhau trên ba bộ training set, testing set và validation set. Bộ dữ liệu có 2 nhãn là lành tính (benign) và ác tính (malignant). Trong nghiên cứu này, chúng tôi qui ước trường hợp dương tính (positive - POS) tương ứng với ác tính và trường hợp âm tính (negative - NEG) tương ứng với lành tính. Nhìn chung, bộ dữ liệu có số lượng ảnh ít so với yêu cầu bài toán là phân loại hình ảnh, do đó cần áp dụng các kỹ thuật xử lý của bài toán phân loại khi gặp dữ liệu có số lượng ít. Tỉ lệ hai lớp NEG và POS trong cả ba tập dữ liệu train, test, validation không chênh lệch nhau nhiều nên có thể xem là các lớp cân bằng với nhau. Sự khác nhau giữa hai nhãn NEG và POS là rất khó phân biệt đối với người không có chuyên môn, do đó thách thức của bài toán này là rất lớn. 2.2. Các giai đoạn huấn luyện 2.2.1. Giai đoạn 1: Bộ phân loại trên vùng ảnh (patch model) Để mô hình có thể phân biệt được vùng bình thường (Background) và hai loại vùng bất thường (POS và NEG) với nhau, trước tiên tiến hành huấn luyện một mô hình trên vùng ảnh - gọi là patch model. a. Bộ dữ liệu vùng ảnh (patch set) Bộ patch set có 3 nhãn là Background, POS và NEG. Bộ dữ liệu cung cấp các ảnh nhũ và ảnh khoanh vùng bệnh (MASK). Mỗi ảnh patch trong bộ patch set được tạo bằng cách lấy phần tương ứng giữa ảnh MASK và ảnh nhũ. Để tăng số lượng ảnh patch dùng cho việc huấn luyện mô hình, mỗi vùng khả nghi được tăng số lượng bằng cách lấy ngẫu nhiên thêm 9 vùng được cắt từ cùng ảnh nhũ sao cho tỉ lệ trùng lấp (overlap) lớn hơn 90 %. Đối với ảnh mang nhãn Background, chúng tôi cũng cắt từ cùng ảnh nhũ sao cho tỉ lệ trùng lấp (overlap) bằng 0 %. Số lượng ảnh
  3. 208 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG background được cắt từ ảnh nhũ là 5 để cân bằng số lượng ảnh của 3 lớp. Sau đó, tất cả ảnh patch được resize về kích thước 224×224 để đưa vào patch model. Hình 1. Quy trình tạo patch set. (a) Ảnh nhũ gốc, (b) Ground truth ROI (MASK), (c) Ảnh patch được cắt chưa được tiền xử lý, (d) Ảnh patch sau khi được tăng độ tương phản Một vấn đề xảy ra trong quá trình cắt là độ tương phản. Sau khi cắt ảnh patch từ ảnh nhũ, bức ảnh có độ tương phản thấp. Tại đây, tiến hành tăng độ tương phản của ảnh patch lên bằng gói ứng dụng tích hợp trong hệ điều hành linux, có tên là Imagemagick. b. Kiến trúc patch model Vì huấn luyện trên dữ liệu nhỏ, nên trong nghiên cứu này sử dụng hai phương pháp là học chuyển tiếp (transfer learning) và tinh chỉnh mạng (fine tuning). Tiến hành lần lượt thử nghiệm trên 3 mô hình mạng đã được huấn luyện trên bộ dữ liệu ImageNet [31] là: VGG16, ResNet50 và EfficientNetB3. Đồng thời, thay thế lớp FC phân loại 1000 nhãn bằng một lớp global average pooling và theo sau đó là một đầu ra phân loại 3 nhãn bởi một lớp FC khác. Đầu tiên, với mỗi ảnh nhũ (mamogram) và ảnh MASK tương ứng của nó, thu được 10 ảnh patch và 5 ảnh background. Mỗi ảnh sẽ được tiền xử lý bằng Imagemagick để tăng độ tương phản và resize về 224×224. Từ đây có được bộ patch set với 3 lớp là Background, NEG và POS. Các mô hình được tiền huấn luyện trên bộ dữ liệu ImageNet, gọi tắt là NNet. Chúng tôi thay thế các lớp FC cuối bằng lớp global average pooling theo sau là một lớp FC để phân loại 3 nhãn. Áp dụng phương pháp học chuyển tiếp lên NNet, chỉ tiến hành huấn luyện những lớp vừa thêm, đóng băng các lớp còn lại trong NNet. Tiếp theo, áp dụng phương pháp tinh chỉnh mạng bằng cách mở băng những lớp trong NNet và huấn luyện nó cùng với những lớp vừa thêm. Kết thúc quy trình có được một mô hình có thể phân loại 3 nhãn trên bộ dữ liệu patch vừa tạo ở trên. 2.2.2. Giai đoạn 2: Bộ phân loại trên toàn nhũ ảnh (whole image model) a. VGG block Một mô hình mạng nơ ron tích chập hiện đại thông thường được xây dựng bởi việc xếp chồng các lớp Conv lên trên đầu vào, tiếp theo đó là một hoặc nhiều lớp FC để tạo đầu ra phân loại các nhãn. Lớp Max pooling thường được sử dụng giữa các lớp Conv để cải thiện tính bất biến cũng như giảm kích thước feature map. Các lớp liên tiếp với nhau có thể được gom lại thành một “block” để kích thước feature map được giảm (thường theo hệ số là 2) ở đầu hoặc cuối mỗi block nhưng vẫn giữ nguyên ở những nơi khác trong block. Một VGG block có cấu trúc là một stack gồm nhiều lớp 3×3 Conv có cùng độ sâu theo sau là một lớp 2×2 Max pooling, làm giảm kích thước feature map theo hệ số là 2. Mặc dù những kích thước bộ lọc khác cũng có thể được sử dụng nhưng 3×3 Conv và 2×2 Max pooling vẫn được sử dụng rộng rãi hơn. Từ kiến trúc trên, một block VGG có thể được biểu diễn bằng mẫu [N × K] với N đại diện cho độ sâu của mỗi lớp Conv và K đại diện cho số lượng lớp Conv. Batch normalization (BN) là một phương pháp hiệu quả khi huấn luyện một mô hình mạng nơ ron. Mục tiêu của phương pháp này là chuẩn hóa đầu ra của mỗi lớp sau khi đi qua hàm activation về trạng thái zero-mean với độ lệch chuẩn. Để cải tiến kiến trúc VGG block nguyên bản, tác giả VGG đã sử dụng lớp Batch normalization xen giữa lớp Conv và lớp Max pooling. Việc can thiệp này với mục đích giúp cho mô hình hội tụ nhanh hơn cũng như có hiệu ứng regularization khiến cho mô hình có thể tránh được “overfiting”. Trong bài báo này, chúng tôi sử dụng VGG block có Batch normalization trong kiến trúc mô hình mạng phân loại nhũ ảnh. Kiến trúc mô hình sẽ trình bày chi tiết ở phần tiếp theo. b. Chuyển mô hình phân loại ảnh patch (patch model) sang phân loại ảnh nhũ (whole image model)
  4. Nguyễn Chí Thanh, Võ Thị Huyền Trang, Lê Minh Hưng, Hoàng Lê Uyên Thục 209 Hình 2. Chuyển đổi patch model thành whole image model có thể được huấn luyện từ đầu đến cuối (end-to-end) bằng cách sử dụng kiến trúc all convolutional. Trọng số từ các patch được gán trực tiếp vào mô hình whole image classification và được tinh chỉnh lại để tổng hợp các kết quả chẩn đoán trên các patch thành kết quả cuối cùng của toàn ảnh Sau khi huấn luyện patch model, tiến hành xây dựng mô hình phân loại nhũ ảnh bằng phương pháp bài báo [27] đề xuất: Bằng cách thay thế đầu vào X của patch model với p là chiều rộng, q là chiều dài của patch bằng M với r là chiều rộng, s là chiều dài của ảnh nhũ. Sau đó, thêm vào top layer của patch model lớp Conv. Điều này làm cho patch model hoạt động giống một bộ lọc, trượt trên toàn bộ ảnh nhũ và tính xác suất các vùng đó theo mỗi nhãn đã được huấn luyện từ trước. Kết quả đầu ra mỗi vùng được dùng để tổng hợp kết quả phân loại cuối cùng bằng cách thêm các lớp global average pooling và lớp FC vào cuối mô hình mạng. Việc áp dụng patch model lên ảnh nhũ mà không cần thay đổi tham số của mô hình là nhờ vào tính chất của mạng tích chập sâu là chia sẻ trọng số (weight sharing) và các đặc tính cục bộ (locality properties). Bản chất phương pháp này là dựa trên nguyên lí cốt lõi trong bài toán xác định vật thể (object detection). Muốn xác định có vật thể hay không trong một tấm ảnh, sử dụng một của sổ trượt (sliding window). Lần lượt trượt từ đầu đến cuối của tấm hình, kết quả sau mỗi lần trượt sẽ có các giá trị như xác suất vùng ảnh là vật thể hay background dựa trên các đặc trưng của vật thể mà mô hình đã học trước đó. Nếu là vật thể sẽ theo sau đó là tọa độ của nó trên ảnh. Từ các giá trị sau mỗi lần trượt trên, mô hình sẽ xác định liệu tấm hình có chứa vật thể và vị trí vật thể ở đâu nếu có. Vì mỗi lần trượt mô hình phải tính toán lại nên dẫn đến thời gian xử lí chậm, đây cũng là nhược điểm của phương pháp này. Khi thay đầu vào của patch model từ patch sang whole image, mô hình sẽ cho đầu ra là một heatmap thể hiện xác suất vùng ảnh là khả nghi hay không. Các vùng ảnh như được tính toán song song cùng một lúc nên sẽ cải thiện đáng kể thời gian xử lí, tối ưu hơn phương pháp sliding window ở trên. Ban đầu sử dụng heatmap làm đầu ra của patch model, rồi tiếp tục huấn luyện mô hình whole image để tổng hợp kết quả phân loại. Tuy nhiên, vì sử dụng heatmap để huấn luyện nên kết quả phân loại không đạt yêu cầu, vì thế tác giả đã loại bỏ heatmap, dùng đặc trưng trước khi tổng hợp heatmap để huấn luyện mô hình phân loại nhũ ảnh. Mô hình sau đó đã cải thiện độ chính xác đáng kể. Điều này được chứng minh ở Bảng 1 [27]. Bảng 1. AUC của whole image model sử dụng VGG16 làm patch model trên bộ kiểm tra độc lập. #Epochs cho biết tại epoch nào thì đạt được AUC cao nhất trên valisation set. Các mô hình hoạt động tốt nhất được hiển thị bằng chữ in đậm Block 1 Block 2 AUC [95 % CI] A-AUC [95 % CI] #Epochs 512×3 512×3 0,81 [0,77, 0,84] 0,82 [0,78, 0,85] 91 256×1 128×1 0,85 [0,81, 0,88] 0,86 [0,83, 0,89] 61 128×1 64×1 0,84 [0,80, 0,87] 0,86 [0,82, 0,89] 142 Thêm heatmap và lớp FC vào top layer của patch model Pool size FC1 FC2 5×5 64 32 0,71 [0,66, 0,75] NA 26 2x2 512 256 0,68 [0,63, 0,73] NA 27 1x1 2048 1024 0,70 [0,65, 0,74] NA 50 Nhận xét: Bằng việc sử dụng tính chất của mạng nơ ron tích chập sâu, sử dụng patch model như một bộ lọc phân loại đồng thời từng vùng ảnh làm cho quá trình phân loại nhanh hơn nhiều lần với cách tiếp cận phổ biến. Cách tiếp cận này khiến cho mô hình trở thành mô hình end-to-end, do đó chỉ cần tối ưu mô hình thành một bước thay vì hai bước riêng biệt. Không những vậy, cách tiếp cận trên cho phép giảm một cách đáng kể yêu cầu sẵn có đối với các chú thích tổn thương trong bộ dữ liệu, mang lại nhiều ứng dụng trong xử lý ảnh y khoa cũng như bài toán phát hiện (detection) ung thư vú trên nhũ ảnh.
  5. 210 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG III. THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1. Môi trường và ngôn ngữ cài đặt Chúng tôi tiến hành cài đặt mô hình bằng ngôn ngữ Python3, với các thư viện: tensorflow, opencv, scikit-learn, pydicom, pandas. Chương trình chạy trên máy ảo do Google Colab cung cấp với cấu hình: 25 GB RAM, GPU Tesla P100-PCIE. 3.2. Huấn luyện các mô hình Huấn luyện mô hình phân loại nhũ ảnh trải qua hai bước. Bước đầu tiên, huấn luyện patch model, so sánh các mô hình có trọng số được huấn luyện trước trên sở dữ liệu ImageNet với các mô hình có trọng số được khởi tạo ngẫu nhiên [27]. Trong một mô hình đã được huấn luyện trước, các lớp dưới cùng đại diện cho các đặc trưng cơ bản có xu hướng được bảo toàn trên các tác vụ khác nhau, trong khi các lớp trên cùng đại diện cho các đặc trưng bậc cao liên quan đến các tác vụ cụ thể và yêu cầu cần huấn luyện tạo thêm. Trong quá trình huấn luyện, sử dụng cùng một learning rate cho tất cả các lớp có thể phá hủy các đặc trưng đã được học ở các lớp dưới cùng. Để ngăn chặn điều này, một chiến lược huấn luyện gồm 3 giai đoạn được sử dụng. Đóng băng tất cả các lớp trừ lớp cuối cùng và dần dần mở băng các lớp từ trên xuống dưới, đồng thời giảm learning rate. SGD (stochastic gradient descent) được sử dụng làm hàm tối ưu và batch size là 32. Cụ thể như sau: Huấn luyện last layer trên 3 epochs với learning rate bằng 1e-3. Huấn luyện last layer và top layer với learning rate bằng 1e-4 trên 10 epochs với số top layer bằng 15 đối với VGG16, 162 đối với ResNet50 và 352 đối với EfficientNetB3. Huấn luyện toàn mạng với learning rate bằng 1e-5 trên 30 epochs. Bước thứ hai, huấn luyện mô hình phân loại toàn ảnh nhũ được chuyển đổi từ patch model. Chiến lược đào tạo gồm 2 giai đoạn (Hình 2), đầu tiên huấn luyện các lớp trên cùng mới được thêm vào (tức là hàm g) và sau đó huấn luyện tất cả các lớp (tức là hàm h) với learning rate giảm dần (với hệ số là 0,5) sau mỗi 3 epochs. Sử dụng SGD làm hàm tối ưu, cụ thể như sau: Huấn luyện top layer trên 3 epochs với learning rate bằng 1e-2, weight decay bằng 1e-3. Huấn luyện toàn mạng trên 50 epochs với learning rate bằng 1e-3, weight decay bằng 1e-3. Để cải thiện tính tổng quát của các mô hình cuối cùng, việc tăng dữ liệu được thực hiện bằng cách sử dụng các phép biến đổi ngẫu nhiên sau: horizontal flip, vertical flip, rotation [−25, 25], zoom [0,8; 1,2]. Sau khi chạy các thực nghiệm của các patch model: VGG16, ResNet50, EfficientNetB3 kết quả đạt được như bảng dưới đây: Bảng 2. Kết quả phân loại của các patch model VGG16, ResNet50 và EfficientNetB3 trên bộ kiểm tra độc lập Mô hình Pre-trained Accuracy AUC VGG16 ImageNet 0,741 0,895 ResNet50 ImageNet 0,673 0,833 EfficientNetB3 ImageNet 0,718 0,875 Hình 3. Confusion Matrix phân loại ảnh patch 3 lớp cho Resnet50 (a) VGG16 (b) và EfficientNetB3 (c) trên bộ kiểm tra độc lập
  6. Nguyễn Chí Thanh, Võ Thị Huyền Trang, Lê Minh Hưng, Hoàng Lê Uyên Thục 211 3.3. Thực nghiệm trên mô hình mạng phân loại ảnh nhũ (whole image model) Bảng 3. AUC của các whole image model sử dụng VGG16, ResNet50 và EfficientNetB3 làm patch model trên bộ thử nghiệm độc lập. Mô hình hoạt động tốt nhất được hiển thị in đậm Block 1 Block 2 AUC AUC AUC VGG16 ResNet50 EfficientNetB3 512×1 512×1 0,822 0,856 0,870 512×1 256×1 0,855 0,817 0,872 256×1 128×1 0,814 0,814 0,892 128×1 64×1 0,842 0,887 0,899 64×1 32×1 0,833 0,860 0,891 3.4. Đánh giá mô hình a. Đánh giá thực nghiệm patch model Dựa vào các confusion matrix của 3 patch model, nhìn chung các mô hình phân loại vùng ảnh có độ chính xác chưa cao. Nhãn background dễ phân loại nhất trong khi POS thì khó nhất. b. Đánh giá thực nghiệm whole image model Nghiên cứu này đã tiến hành các thực nghiệm whole image model sử dụng VGG16, ResNet50 và EfficientNetB3 làm patch model và VGG block làm top layer. Từ kết quả bảng 3, cho thấy việc thay đổi cấu hình VGG block khi thêm vào top layer của whole image model ảnh hưởng nhiều đến độ tin cậy của mô hình. Đối với 2 mô hình ResNet50 và EfficientNetB3, 2 mô hình này đạt AUC cao nhất khi dùng 2 VGG block [128 × 1] và [64 × 1] làm top layer. Trong khi đó, mô hình VGG16 thì phù hợp với 2 VGG block [512 × 1] và [256 × 1]. Điều này chứng tỏ, mỗi mô hình phân loại sẽ phù hợp với mỗi cấu hình block khác nhau. Bên cạnh đó, trong các thực nghiệm của 2 mô hình ResNet50 và EfficientNetB3, AUC có xu hướng tăng khi được giảm độ sâu và số lớp Conv của VGG block. Tuy nhiên, khi giảm từ cặp 128 - 64 sang cặp 64 - 32, AUC bắt đầu giảm, kết quả này chứng tỏ độ sâu của VGG block không liên quan đến hiệu suất của mô hình. Từ đó, cho thấy để một whole image model đạt được hiệu suất cao, cần phải kiểm soát cấu hình của các block. Việc kiểm soát cấu hình này giúp cho mô hình đủ khả năng học được những đặc trưng không gian cần thiết mà không bị hiện tượng “overfitting” cũng như “underfitting”. Mô hình EfficientNetB3 có sự chênh lệch AUC giữa thực nghiệm đạt hiệu quả cao nhất và thấp nhất là 2,9 % so với 4,1 % của VGG16 và 7,3 % của Resnet50. Điều này cho thấy sự hiệu quả của mô hình EfficientNetB3 khi đã tối ưu độ sâu bên trong nhờ đó mà sự thay đổi độ sâu ở mô hình bên ngoài ít ảnh hưởng đến kết quả hơn. Với việc whole image model đạt kết quả cao hơn nhiều so với patch model cho thấy dữ liệu huấn luyện patch set bị thiếu sót nhiều thông tin để phân loại 2 nhãn NEG và POS. Một nguyên nhân có thể nghĩ đến là do bộ dữ liệu CBIS-DDSM cung cấp các ảnh MASK để cắt vùng ROI chưa đầy đủ hết thông tin vùng bệnh, dẫn đến các thông tin thiết yếu để phân biệt các loại bệnh lý bị thiếu sót, làm các mô hình bị nhầm lẫn khi phân loại 2 nhãn NEG và POS cũng như bị nhầm lẫn giữa Background và NEG. Đối với whole image model, khi được huấn luyện trên kích thước toàn bộ ảnh, mô hình sẽ thấy đầy đủ thông tin xung quanh vùng khả nghi. Việc mở đóng băng và huấn luyện tất cả các lớp trong giai đoạn 2 của quá trình huấn luyện sẽ giúp cho mô hình học được những thông tin xung quanh vùng khả nghi, từ đó giúp cho mô hình có đầy đủ thông tin để phân loại bệnh lý chính xác hơn. Hình 4. Hình bên trái là ảnh patch được cắt dựa trên ảnh MASK bộ dữ liệu cung cấp, hình bên phải là ảnh patch được chúng tôi cắt với gấp đôi kích thước MASK
  7. 212 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG Chúng tôi dùng phương pháp ensemble model dựa trên trung bình của 2 mô hình có AUC tốt nhất là ResNet50 và EfficientNetB3. Kết quả mô hình ensemble đạt được như sau: Bảng 4. Ensemble whole image model classification report precision recall F1-score NEG 0,86 0,83 0,85 POS 0,77 0,81 0,79 Macro avg 0,82 0,82 0,82 Weighted avg 0,82 0,82 0,82 Accuracy 0,82 Mô hình sau khi ensemble đạt được AUC = 0,912, kết quả tăng lên đáng kể so với các mô hình độc lập. Độ đặc hiệu (specificity) trung bình và độ nhạy (sensitivity) trung bình của công nghệ chụp ảnh nhũ ở Mỹ lần lượt là: 88,9 % và 86,9 % [32]. So sánh với mô hình đạt kết quả tốt nhất của chúng tôi với các giá trị trên cho thấy mô hình tuy đã đạt được độ chính xác cao, nhưng vẫn chưa đáng tin cậy so với chẩn đoán thực tế (Specificity: 83 % so với 88,9 % và Sensificity: 81 % so với 86,9 %). Hình 5. Confusion matrix của mô hình mạng ensemble 0.95 0.9 0.899 0.9123 0.887 0.85 0.87 0.855 0.8 AUC 0.75 0.73 0.7 0.65 0.6 Resnet50 VGG16 Resnet50 EfficientNetB3 Best Essemble Essemble Fine-tuning Best Model Best Model Model Resnet-Efficient-Vgg Resnet-Efficient Mô hình Hình 6. Biểu đồ AUC của các mô hình tốt nhất Với AUC của các mô hình đạt kết quả tốt nhất ở biểu đồ Hình 5 cho thấy được sự cải tiến hiệu năng đáng kể khi dùng phương pháp đã đề xuất so với việc dùng phương pháp tiếp cận fine-tuning thông thường. Ensemble các mô hình đạt AUC cao nhất đã giúp cải thiện AUC so với cái mô hình độc lập. IV. KẾT LUẬN Nghiên cứu này đã xây dựng hệ hỗ trợ chẩn đoán ung thư trên nhũ ảnh phân loại bệnh bằng các kĩ thuật học sâu với kết quả đạt được khả quan. Nghiên cứu này cho thấy có thể đạt được kết quả phân loại chính xác các ảnh chụp X- quang tuyến vú với một mô hình học sâu được đào tạo theo phương pháp end-to-end chỉ dựa vào các chú thích ROI lâm sàng trong giai đoạn đầu. Kết quả đạt được AUC của mô hình tốt nhất là 0,89 (độ nhạy: 81 % , độ đặc hiệu: 83 %).
  8. Nguyễn Chí Thanh, Võ Thị Huyền Trang, Lê Minh Hưng, Hoàng Lê Uyên Thục 213 Đồng thời với mô hình mạng EfficientNet không chỉ tập trung vào việc cải thiện độ chính xác, mà còn nâng cao hiệu quả đạt AUC của mô hình ensemble là 0,91. Tuy nhiên, mô hình vẫn còn nhiều hạn chế với mô hình đạt AUC cao nhất vẫn còn phân loại sai ở các nhũ ảnh có mật độ dày, mô hình đạt độ nhạy (sensitivity) và độ đặc hiệu (specificity) thấp hơn khoảng 6 % ở cả 2 độ đo so với thực tế (các hệ thống chụp nhũ ảnh ở Mỹ). Hướng nghiên cứu tiếp theo của chúng tôi để giải quyết bài toán này là tăng diện tích vùng ROI được cắt từ ảnh Mask mà bộ dữ liệu CBIS-DDSM cung cấp để tạo bộ Patch Set có đầy đủ thông tin vùng bệnh, thử nghiệm tăng cường các ảnh có mật độ dày để mô hình tổng quát được các trường hợp, kết hợp 2 hướng chụp ảnh là MLO và CC để thu được nhiều đặc trưng hơn giúp mô hình phân loại tốt hơn. từ đó, có thể giúp cho kết quả chẩn đoán bệnh của hệ thống với độ chính xác cao hơn. V. LỜI CẢM ƠN Bài báo được hoàn thành dưới sự hỗ trợ của Đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam. TÀI LIỆU THAM KHẢO [1] “American Cancer Society. How Common Is Breast Cancer?”, [Trực tuyến]. Available: https: www.cancer.org cancer breast-cancer/about/howcommon-is-breast-cancer.html. [2] Lehman, “National Performance Benchmarks for Modern Screening Digital Mammography: Update from the Breast Cancer Surveillance Consortium”, Radiol, số 283, pp. 49-58, 2016. [3] Birdwell, “Mammographic characteristics of 115 missed cancers later detected with screening mammography and the potential utility of computer-aided detection 1,” Radiology , số 219, pp. 192-202, 2001. [4] Brem, “Improvement in sensitivity of screening mammography with computer-aided detection: a multiinstitutional trial” , American Journal of Roentgenology, số 181, pp. 687-693, 2003. [5] Ciatto, “Comparison of standard reading and computer aided detection (cad) on a national proficiency test of screening mammography” , European journal of radiology, số 45, pp. 135-138, 2003. [6] J. Freer, “Screening mammography with computer-aided detection: prospective study of 12,860 patients in a community breast center”, Radiology , số 220, pp. 781-786, 2001. [7] Lehman, “Diagnostic accuracy of digital screening mammography with and without computer-aided detection”, JAMA internal medicine , số 175, pp. 1828-1837, 2015. [8] Fenton, “Influence of computer-aided detection on performance of screening mammography”, New England Journal of Medicine, số 356, pp. 1399-1409, 2007. [9] Fenton, “Effectiveness of computer-aided detection in community mammography practice”, Journal of the National Cancer institute, số 103, pp. 1152-1161, 2011. [10] G. LeCun, “Deep learning”, Nat, số 521, pp. 436-444, 2015. [11] Aboutalib, “Deep Learning to Distinguish Recalled but Benign Mammography Images in Breast Cancer Screening”, Clin. Cancer Res, 2018. [12] E.Kim, “Applying Data-driven Imaging Biomarker in Mammography for Breast Cancer Screening: Preliminary Study”, Sci. Reports , số 8, pp. 2762 , 2018. [13] R. Hamidinekoo, “Deep learning in mammography and breast histology, an overview and future trends”, Med. Image Analysis, số 47, pp. 45-67, 2018. [14] Burt, “Deep learning beyond cats and dogs: Recent advances in diagnosing breast cancer with deep neural networks”, The Br. J. Radiol, 2018. [15] M. R. Agarwal, “Automatic mass detection in mammograms using deep convolutional neural networks”, J. Med. Imaging, số 6, 2019. [16] Rodriguez-Ruiz, “Stand-Alone Artificial Intelligence for Breast Cancer Detection in Mammography: Comparison With 101 Radiologists”, JNCI: J. Natl. Cancer Inst, 2019. [17] Rodríguez-Ruiz, “Detection of Breast Cancer with Mammography: Effect of an Artificial Intelligence Support System”, Radiol, số 290, pp. 305-314, 2018. [18] Kooi, “Large scale deep learning for computer aided detection of mammographic lesions”, Med. Image Analysis, số 35, pp. 303-312, 2017. [19] M. L. Jamieson, “Breast image feature learning with adaptive deconvolutional networks”, Proc. SPIE , pp. 6-13, 2012. [20] A. G. Arevalo, “Convolutional neural networks for mammography mass lesion classification”, In 2015 37th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 797- 800, 2015.
  9. 214 KẾT HỢP ĐẶC TRƯNG SÂU TRONG HỖ TRỢ CHẨN ĐOÁN UNG THƯ VÚ TRÊN NHŨ ẢNH X-QUANG [21] M. A. Arevalo, “Representation learning for mammography mass lesion classification with convolutional neural networks”, Comput. Methods Programs Biomed, số 127, pp. 248-257, 2016. [22] J. A. Lévy, “Breast Mass Classification from Mammograms using Deep Convolutional Neural Networks”, arXiv preprint arXiv:1612.00542, 2016. [23] Moreira, “INbreast: Toward a Full-field Digital Mammographic Database”, Acad. Radiol, số 19, pp. 236-248, 2012. [24] W. Hinton, “A fast learning algorithm for deep belief nets”, Neural Comput, số 18, pp. 1527-1554, 2006. [25] Russakovsky, “ImageNet Large Scale Visual Recognition Challenge”, Int. J. Comput. Vis., số 115, pp. 211-252, 2015. [26] S. J. Oquab, “Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1717-1724, 2014. [27] S. Li Shen, “Deep Learning to Improve Breast Cancer Detection on Screening Mammography”, Nat., 2019. [28] W. S. Li Shen, “Deep Learning to Improve Breast Cancer Detection on Screening Mammography,” Nat., pp. 7, 2019. [29] K. W. Heath, “The Digital Database for Screening Mammography”, In Yaffe, M. (ed.) Proceedings of the Fifth International Workshop on Digital Mammography, pp. 212-218, Medical Physics Publishing, 2001. [30] R. D. Lee, “Curated Breast Imaging Subset of DDSM”, The Cancer Imaging Arch, 2016. [31] Russakovsky, “ImageNet Large Scale Visual Recognition Challenge”, Int. J. Comput. Vis., số 115, pp. 211-252, 2015. [32] Lehman, “National Performance Benchmarks for Modern Screening Digital Mammography: Update from the Breast Cancer Surveillance Consortium”, Radiol, số 283, pp. 49-58, 2016. FEATURES DEEP IN DIAGNOSE BREAST CANCER ON X-RAY Nguyen Chi Thanh, Vo Thi Huyen Trang, Le Minh Hung, Hoang Le Uyen Thuc ABSTRACT: Breast cancer is the most dangerous type of cancer for women, common screening methods are mammography-based diagnostics, the diagnosis of the disease depends on the quality of the image and the expertise of the doctor. This leads to cost, time and effort, but the effect is not high. Currently, there are many systems that support radiologists to improve their ability to diagnose a disease through mammograms such as computer detection (Computer Aided Diagnosis - CAD) and diagnostic software that has been developed and used in clinical applications since the 1990s. Many new methods use deep learning and convolutional neural networks to automatically learn and extract the features to bring about higher accuracy than traditional methods. However, the current methods only focus on classification but do not specify the specific area of the disease (lesions), thus causing a lot of difficulties for diagnosis and treatment of the disease. In this paper, we propose a solution that could assist doctors to accurately detect breast cancer and classify it with mammograms using the end-to-end training approach with state-of-the-art CNN model EfficientNetB3. We experimented with digitized mammograms from Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM), the best model achieved AUC of 0.91. (sensitivity: 81 %, specificity: 83 %).
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2