Xử lý mất cân bằng dữ liệu trong phân loại tổn thương da trên ảnh soi da

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

20
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Nghiên cứu này đề xuất một phương pháp mới là phương pháp gán trọng số động (Dynamic Classweight) nhằm mong muốn tạo nên một mô hình có khả năng thích nghi và không phụ thuộc vào tỷ lệ các lớp, hay là sự mất cân bằng dữ liệu

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Xử lý mất cân bằng dữ liệu trong phân loại tổn thương da trên ảnh soi da

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00238 XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƯƠNG DA TRÊN ẢNH SOI DA Võ Minh Thiện1, Lê Minh Hưng1, Trần Kim Tâm2, Trần Văn Lăng3 1 Trƣờng ĐH Công nghệ Thông tin - ĐHQG TP. HCM 2 Trƣờng Đại học Giao thông Vận tải TP. HCM 3 Viện Hàn lâm Khoa học và Công nghệ Việt Nam 16521170@gm.uit.edu.vn, hunglm@uit.edu.vn, kimtam.tran@ut.edu.vn, langtv@vast.vn TÓM TẮT: Ung thư hắc tố là một bệnh lý ác tính về da, có khả năng di căn đến các cơ quan khác và tiên lượng rất nặng nếu chẩn đoán muộn. Ở giai đoạn sớm, các tổn thương ác tính này rất dễ nhầm lẫn với nốt ruồi lành tính nếu chỉ thăm khám bằng mắt thường. Để khắc phục thực trạng này, máy soi da - một thiết bị quang học đã được sử dụng tại các bệnh viện da liễu để hỗ trợ các bác sĩ trong thăm khám các lớp nông của da với độ phóng đại lớn, đồng thời kết hợp với một hệ thống chụp và lưu trữ hình ảnh. Cuộc thi International Skin Image Collaboration 2018 (ISIC2018) được tổ chức với nhiệm vụ phân loại ảnh tổn thương da để phát hiện sớm các bệnh lý, nhất là ung thư ác tính. Dữ liệu bao gồm 10,015 ảnh soi da của 7 loại bệnh tổn thương. Vấn đề chính đặt ra của bài toán này là việc mất cân bằng dữ liệu nghiêm trọng khi chênh lệch giữa lớp nhiều nhất và lớp ít nhất lên đến 60 lần. Để giải quyết bài toán đặt ra, trong nghiên cứu này chúng tôi tiến hành thực hiện tinh chỉnh thông số có sẵn các mạng nơron tích chập sâu (Deep Convolutional Neural Network - DCNN) hiện đại, có thể kể đến như Inception, DenseNet. Với vấn đề mất cân bằng dữ liệu, nghiên cứu này đã thực nghiệm và so sánh các phương pháp phổ biến như cân bằng batch, gán trọng số trên lớp. Bên cạnh đó, nghiên cứu còn áp dụng một hàm mất mát đã mang lại những kết quả cải tiến đáng kể trong các bài toán phân loại ảnh là Large Margin Cosine Loss (CosFace) để có thể phân loại đặc trưng các lớp tốt hơn. Đặc biệt, trong nghiên cứu này đề xuất một phương pháp mới là phương pháp gán trọng số động (Dynamic Classweight) nhằm mong muốn tạo nên một mô hình có khả năng thích nghi và không phụ thuộc vào tỷ lệ các lớp, hay là sự mất cân bằng dữ liệu. Kết quả của phương pháp đề xuất cho thấy sự cải thiện tốt rõ rệt với độ chính xác đạt 82,9 % so với khi không can thiệp vào hàm mất mát là 70,7 % trên hệ thống kiểm thử của cuộc thi ISIC2018. Từ khóa: Ung thư da, ISIC2018, CosFace, Dynamic Classweight. I. GIỚI THIỆU Ung thƣ da là một trong những ung thƣ phổ biến ở Mỹ, với hơn 5 triệu trƣờng hợp mắc phải đƣợc chẩn đoán hằng năm. Ung thƣ hắc tố là giai đoạn nguy hiểm nhất của ung thƣ da, với xấp xỉ 91.000 ca bệnh mắc mới mỗi năm ở Mỹ và hơn 9.000 ngƣời chết. Điều trị ung thƣ hắc tố da tiêu tốn hơn 3 triệu đô la Mỹ mỗi năm chỉ tính riêng ở Mỹ. Ung thƣ da đặt ra vấn đề nhƣ là một mối đe dọa lớn đến với sức khỏe cộng đồng. Ở Úc, hơn 14.000 ca mắc bệnh mới của ung thƣ hắc tố đƣợc báo cáo hằng năm, gây ra 2.000 cái chết. Ở châu Âu, hơn 100.000 ca mắc ung thƣ hắc tố mới và 22.000 cái chết liên quan đến ung thƣ hắc tố đƣợc báo cáo định kỳ hằng năm. Một điều đáng báo động là không giống nhiều loại ung thƣ khác, tỷ lệ mắc bệnh của ung thƣ hắc tố đã tăng một cách đều đặn qua những thập kỷ gần trở lại đây, từ năm 1990 đến năm 2018, đã ghi nhận sự tăng lên đến 225 % ở Mỹ [1]. Trong quá khứ, phƣơng thức chẩn đoán chính của ung thƣ hắc tố là thăm khám lâm sàng không có sự hỗ trợ, điều này làm cho độ chính xác bị giới hạn và biến động, dẫn đến những thách thức quan trọng trong phát hiện sớm bệnh lẫn hạn chế việc sinh thiết không cần thiết. Trong những năm gần đây, kỹ thuật soi da đƣợc ra đời, đây một kỹ thuật hình ảnh có độ phân giải cao trên da cho phép sự hiển thị của các cấu trúc da sâu hơn bằng cách giảm phản xạ bề mặt, với độ phóng đại từ 10 đến 100 lần, điều này góp phần cải tiến khả năng chẩn đoán của các chuyên gia. Đây là một tiến bộ mới trong chẩn đoán lâm sàng các thƣơng tổn có sắc tố, cho phép gia tăng hiệu năng chẩn đoán so với quan sát và thăm khám đơn thuần bằng mắt thƣờng [2], hạn chế bỏ sót các tổn thƣơng ung thƣ hắc tố ở giai đoạn sớm. Hình 1. Hình ảnh lâm sàng và ảnh soi da của một nốt ruồi lành tính Những năm trở lại đây, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, các hệ thống máy tính hỗ trợ phát hiện và chẩn đoán (Computer-Aided Detection And Diagnosis System - CAD/CADx) đã và đang hỗ trợ các nhà bệnh lý học, các bác sĩ trong việc phát hiện các bất thƣờng bệnh lý trong lĩnh vực hình ảnh y khoa nói chung và bài toán phân loại các tổn thƣơng da đƣợc nghiên cứu ở đây nói riêng, giúp nâng cao độ chính xác trong việc chẩn đoán và phát hiện sớm các tổn thƣơng, mà đặc biệt là ung thƣ hắc tố, đồng thời giảm bớt khối lƣợng công việc, thời gian của các chuyên gia này. Những cách tiếp cận sớm ban đầu phụ thuộc vào việc trích xuất đặc trƣng do chuyên gia đề xuất (hand-crafted) để có thể đƣa chúng vào các bộ phân lớp truyền thống [3], [4]. Gần đây, những cách tiếp cận dựa trên học sâu (deep learning) đã cho thấy những thành công lớn trong lĩnh vực hình ảnh y khoa [5]. Một sự mở rộng cho phƣơng pháp trích xuất đặc trƣng cổ điển là sử dụng học sâu để trích xuất đặc trƣng kết hợp với các phƣơng pháp máy
Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng 757 học thông thƣờng để giải quyết bài toán phân loại tổn thƣơng da [6], [7]. Nhiều hƣớng tiếp cận hƣớng đến xây dựng mạng nơron tích chập (CNN) có khả năng học đầu-cuối cho chẩn đoán tổn thƣơng da [8], [9], [10]. Thêm vào đó, nhiều hƣớng tiếp cận đa mô hình sử dụng ảnh lâm sàng, ảnh soi da và siêu dữ liệu đã đƣợc đề xuất [11], cũng nhƣ một phƣơng pháp kết hợp sự phân đoạn ảnh và thông tin cấu trúc tổn thƣơng vào cùng một hệ thống [12]. Bên cạnh đó, nghiên cứu của Esteva et al. [13] thể hiện một nền tảng của chẩn đoán tổn thƣơng da với hiệu suất nhƣ một bác sĩ da liễu đạt đƣợc bởi một mạng CNN. Ở nghiên cứu của họ, nhóm tác giả đã huấn luyện kiến trúc mạng Inception-V3 [14] trên 130,000 bức ảnh lâm sàng và so sánh dự đoán của nó so với đánh giá của 21 bác sĩ gia liễu có tay nghề. Trong khi đây là một thành tựu đáng chú ý, hiệu suất cao đạt đƣợc phần lớn nhờ vào kích thƣớc dữ liệu khổng lồ với một mô hình tiêu chuẩn thay vì mô hình thiết kế chuyên biệt cho chẩn đoán tổn thƣơng da. Bộ dữ liệu HAM10000 đƣợc công bố công khai [15]. Bộ dữ liệu gồm 10015 ảnh soi da có thể phục vụ nhƣ là một tiêu chuẩn cho chẩn đoán tổn thƣơng da. HAM đƣợc sử dụng nhƣ là một tập huấn luyện cho cuộc thi “ISIC2018 Skin Lesion Diagnosis Challenge” với 7 lớp. Trong khi những nghiên cứu trƣớc đây phần lớn tập trung vào phân lớp nhị phân để xác định tổn thƣơng cần sinh thiết (“biopsy”) hay không cần sinh thiết (“no biopsy”), bộ dữ liệu HAM10000 rất phù hợp cho một bài toán phân loại tổn thƣơng da nhiều lớp kèm theo nhiều thách thức hơn phải giải quyết, đặc biệt là vấn đề mất cân bằng dữ liệu, một vấn đề phổ biến trong các bài toán phân loại ảnh y khoa, do đặc thù các bệnh lý về da trong đời sống vốn dĩ không đồng đều, có những bệnh nguy hiểm nhƣng lại thƣờng ít gặp hơn so với các bệnh lành tính khác. Bài báo này có những đóng góp nhƣ sau: Xử lý tập dữ liệu HAM10000 cuộc thi ISIC2018 và chọn ra phƣơng pháp tiền xử lý ảnh đầu vào để giữ đƣợc nhiều đặc trƣng nhất của ảnh soi da. Xây dựng mô hình CNN kết hợp các phƣơng pháp xử lý mất cân bằng quen thuộc nhƣ cân bằng batch, trọng số trên lớp, đồng thời áp dụng hàm mất mát mới là LMCL và phƣơng pháp mới là gán trọng số động. Thực hiện phƣơng pháp kết hợp (esssemble) giữa các mô hình để nâng cao hiệu suất. II. PHƯƠNG PHÁP A. Tiền xử lý ảnh đầu vào Nghiên cứu này xác định vấn đề mấu chốt đầu tiên chính là việc sử dụng ảnh có độ phân giải cao. Thông thƣờng, ảnh đƣợc giảm kích thƣớc (downsampling) xuống thành kích thƣớc đầu vào có độ phân giải thấp hơn cho phù hợp với các mô hình CNN, vì bộ nhớ và tài nguyên tính toán của máy tính thì có giới hạn. Quá trình downsampling chỉ ra rằng nhiều thông tin quan trọng trong ảnh bị mất sẽ là một vấn đề quan trọng trong ngữ cảnh y khoa. Bên cạnh đó, những hƣớng tiếp cận dựa trên patch mà sử dụng những crop nhỏ từ ảnh có độ phân giải cao làm đầu vào của một mạng CNN đƣợc sử dụng thƣờng xuyên. Để có đƣợc toàn bộ bức ảnh với những ảnh xén (crop) nhỏ, theo truyền thống, phƣơng pháp đánh giá multi-crop đƣợc sử dụng khi mà xác suất dự đoán từ tất cả các ảnh xén đƣợc kết hợp lại, thông qua lấy trung bình hoặc bình chọn. Cách tiếp cận này có thể là lợi thế vì việc sử dụng những patch nhỏ thì thấp về mặt tính toán và quan trọng hơn, các kiến trúc mạng thông thƣờng đƣợc huấn luyện sẵn từ ảnh trong đời sống thực tế với kích thƣớc đầu vào nhỏ thông thƣờng là 224 x 224 có thể đƣợc sử dụng. Tuy nhiên, phƣơng pháp đánh giá multi-crop có thể là thách thức vì các patch cục bộ cần đƣợc kết hợp một cách có ý nghĩa. Những phƣơng pháp đơn giản nhƣ lấy trung bình hay bỏ phiếu xem tất cả các patch một cách nhƣ nhau sẽ là vấn đề đối với việc phân lớp tổn thƣơng da vì trên thực tế tổn thƣờng chỉ bao phủ một phần của ảnh [16]. Hình 2. Phƣơng pháp Multi-crop với n=9 cho thấy sự không đồng đều giữa các crop [16] Do đó, ở vấn đề đầu tiên này, chúng tôi chọn thực hiện kết hợp cả phƣơng pháp single-crop (crop đơn thuần) và đánh giá multi-crop và gọi nó là đánh giá random multi-crop (đánh giá multi-crop ngẫu nhiên). Với mong muốn tạo ra một sự đa dạng đặc trƣng từ dữ liệu trong quá trình huấn luyện và đề cao yếu tố ngẫu nhiên của mô hình huấn luyện đƣợc, đồng thời cũng sử dụng downsampling để so sánh. Cụ thể: 1. Downsampling Đầu tiên, cơ bản và thƣờng đƣợc sử dụng nhất chính là phƣơng pháp downsampling, thực hiện giảm trực tiếp kích thƣớc cả bức ảnh xuống kích thƣớc đầu vào của các mô hình nhƣ Hình 3. Phƣơng pháp này đƣợc sử dụng cho cả giai đoạn huấn luyện và đánh giá. Bài báo sử dụng phƣơng pháp này nhƣ một hệ quy chiếu cơ bản để so sánh.
758 XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA 2. Single-Crop Kế tiếp là phƣơng pháp Single-Crop, thực hiện crop ảnh một cách ngẫu nhiên và thay đổi kích thƣớc thành kích thƣớc đầu vào của mô hình trong suốt quá trình huấn luyện nhƣ Hình 3. Do đó, có thể đạt đƣợc thêm sự đa dạng của dữ liệu trong suốt quá trình huấn luyện. Ở giai đoạn đánh giá, một crop trung tâm chiếm 85 % của ảnh đƣợc lấy và thay đổi kích thƣớc thành kích thƣớc đầu vào của mô hình. Phƣơng pháp này tƣơng tự nhƣ chiến thuật đƣợc sử dụng cho mô hình DenseNet121 và Inception-V3 ở bài báo gốc [14], [17]. Hình 3. Các phƣơng pháp tiền xử lý ảnh đầu vào 3. Multi-Crop Phƣơng pháp Multi-Crop không thay đổi kích thƣớc của ảnh và crop một cách ngẫu nhiên các patch về kích thƣớc đầu vào của mô hình. Trong suốt quá trình đánh giá, việc crop có thứ tự nơi mà vị trí của mỗi patch đƣợc cố định tại một điểm đƣợc định nghĩa trƣớc trong ảnh. Sau đó, tiến hành lấy trung bình trên xác suất dự đoán của tất cả các ảnh xén. Số lƣợng của ảnh xén là Nc thuộc {5, 9, 16} trong đó 5 bao phủ bốn góc và trung tâm, 9 và 16 thì đƣợc phân bố đều ảnh với những phần trùng lặp giữa các patches, ví dụ với N c = 16 ở Hình 3. Phƣơng pháp này đã đƣợc sử dụng thành công cho phân lớp tổn thƣơng da [18]. 4. Random Multi-crop Nghiên cứu này đề xuất phƣơng pháp Random Multi-Crop, đƣợc dựa trên ý tƣởng của Single-Crop và Multi- Crop, ảnh sẽ đƣợc xén một cách ngẫu nhiên trong suốt quá trình huấn luyện, với tỷ lệ dao động 0,08 đến 1,0 so với kích thƣớc ảnh gốc và trong quá trình đánh giá, ảnh sẽ đƣợc xén ngẫu nhiên 32 lần, sau đó đƣợc tổng hợp bằng phƣơng pháp lấy trung bình các giá trị xác suất dự đoán. Phƣơng pháp này cho ra kết quả cải thiện rõ rệt so với phƣơng pháp Downsampling cơ bản. Trong nghiên cứu này, phƣơng pháp tăng cƣờng dữ liệu đƣợc thực hiện trong quá trình huấn luyện, chỉ bao gồm lật ảnh trái phải và trên dƣới không thực hiện xoay ảnh và điều chỉnh màu của ảnh. B. Xử lý mất cân bằng dữ liệu 1. Oversampling Nghiên cứu này thực hiện lặp lại những mẫu của từng lớp trong tập huấn luyện mà các lớp có số lƣợng mẫu bằng nhau. Trong suốt quá trình huấn luyện, lấy mẫu một cách đồng đều và ngẫu nhiên từ tập mẫu mới này. Ở cách này, một số lƣợng mẫu bằng nhau từ mỗi lớp sẽ đƣợc xuất hiện xuyên suốt toàn bộ quá trình huấn luyện. Tuy nhiên, trong quá trình thực nghiệm, chúng tôi nhận kết quả cho thấy phƣơng pháp này không phù hợp do khối lƣợng dữ liệu đƣợc phình to ra nhƣng lại không có sự thay đổi về cấu trúc ảnh, dẫn đến tốn kém trong chi phí tính toán và thời gian huấn luyện. Hình 4. Minh họa cho phƣơng pháp Oversampling
Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng 759 2. Balanced batches Cách tiếp cận Oversampling không đảm bảo một số lƣợng bằng nhau của các mẫu trong mỗi batch, mà chỉ sấp xỉ trong toàn bộ quá trình huấn luyện. Do đó, nghiên cứu cũng cho thấy một cách nghiêm ngặt cân bằng mẫu tại mỗi batch đƣợc xây dựng sao cho nó chứa một cách chính xác số lƣợng mẫu của mỗi lớp. Hình 5. Minh họa cho phƣơng pháp Balanced batches 3. Trọng số lớp - classweight Đây là phƣơng pháp phổ biến đƣợc dùng đối với các bài toán có sự mất cân bằng giữa các lớp, với mục đích “trừng phạt” mạnh hơn đối với các lớp có số lƣợng mẫu ít, nghĩa là khi dự đoán sai các lớp hiếm gặp này sẽ gây ra một biến động lớn trong hàm mất mát, làm ảnh hƣởng đến quá trình tối ƣu hóa và hội tụ của mô hình, và ngƣợc lại đối với các lớp chiếm ƣu thế. Công thức đƣợc biểu diễn nhƣ sau: (1) trong đó: chính là trọng số ở lớp thứ i, ni là số lƣợng mẫu của lớp thứ i, N là tổng số mẫu dữ liệu, c là tổng số lớp. Có thể nói đây là phƣơng pháp đơn giản nhƣng mang lại hiệu quả rõ rệt nhất trong các bài toán mất cân bằng các lớp trong bộ dữ liệu. 4. Trọng số lớp động - dynamic classweight Ngoài ra, nghiên cứu này cũng đề xuất thử nghiệm một phƣơng pháp mới chính là trọng số lớp động (dynamic classweights). Các trọng số thay đổi ngẫu nhiên liên tục này sẽ đƣợc gán vào hàm mất mát trong suốt quá trình huấn luyện, có thể là trên mỗi epoch hoặc trên từng batch, với công thức nhƣ sau: ∑ ( ) ( ) ( ) (2) trong đó: H là giá trị hàm mất mát thu đƣợc sau cùng, ( )có giá trị bằng 1 khi nhãn của ảnh đang xét và bằng 0 khi thuộc các nhãn khác, ( ) là xác suất dự đoán thu đƣợc từ mô hình, ( ) trọng số đƣợc chọn ngẫu nhiên trong khoảng [1, 1 + s, 1 + 2s,…, α - 2s, α - s, α]. Ở đây giá trị mặc định là α = 100 và s = 1. Bằng cách kết hợp phƣơng pháp balanced batches và dynamic class weights, nghiên cứu này mong muốn tạo ra một mô hình có khả năng tƣơng thích trong điều kiện thay đổi của các trọng số lớp cổ điển, hƣớng tới việc giải quyết mất cân bằng dữ liệu. C. Áp dụng hàm mất mát Large Margin Cosine Loss Nhận diện khuôn mặt đã có những phát triển mạnh nhờ vào sự tiến bộ của mạng CNN. Nhiệm vụ trọng tâm của nhận diện khuôn mặt đó chính là xác thực và định danh khuôn mặt, liên quan đến phân biệt các đặc trƣng khuôn mặt khác nhau. Tuy nhiên, hàm mất mát Softmax truyền thống mạng CNN thƣờng thiếu khả năng phân biệt mạnh. Để giải quyết vấn đề này, một vài hàm mát mát gần đây nhƣ Center Loss, Large Margin Softmax Loss, Angular Softmax Loss và Large Margin Cosine Loss [19] đã đƣợc đề xuất. Tất cả những hàm mất mát cải tiến này đều có chung một ý tƣởng đó là: tối đa sự khác biệt giữa các lớp khác nhau và tối thiểu sự khác nhau trong một lớp. Trong đó, Large Margin Cosine Loss (LMCL) cho thấy kết quả cải thiện khá rõ rệt và đạt đƣợc state-of-the-art về hiệu suất trên các chuẩn đo về nhận diện khuôn mặt.
760 XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA Hình 6. Tổng quan về mô hình CosFace sử dụng LMCL [19] Với hàm mất mát Softmax, và vector đặc trƣng xi tƣơng ứng với nhãn yi, hàm mất mát Softmax đƣợc biểu diễn nhƣ công thức sau: ∑ ∑ ∑ (3) trong đó: pi ký hiệu cho xác suất của xi sau khi đƣợc phân loại một cách chính xác, N là số lƣợng mẫu huấn luyện, C là số lƣợng lớp, fj thƣờng đƣợc ký hiệu nhƣ là sự kích hoạt của lớp FC với vector trọng số W j và Bj. Hàm LMCL đƣợc định nghĩa bởi công thức sau: ( ( ) ) ∑ (4) ( ( ) ) ( ) ∑ Tùy thuộc theo: ‖ ‖ ‖ ‖ ( ) trong đó: N là số lƣợng mẫu huấn luyện, là vector đặc trƣng thứ i tƣơng ứng với nhãn là yi, Wj là vector trọng số của lớp thứ j, θj là góc giữa Wj và xi, s và m là 2 siêu tham số. Trong bài báo này chúng tôi áp dụng hàm mất mát LMCL thay thế cho hàm Softmax thông thƣờng, với kỳ vọng sẽ tạo ra đƣợc những đặc trƣng có khả năng phân biệt cao, từ đó nâng cao đƣợc độ chính xác của các mô hình, đồng thời kết hợp với các phƣơng pháp xử lý mất cân bằng khác. Hình 7. Một ví dụ trực quan so sánh đặc trƣng đƣợc tạo ra bởi LMCL với các giá trị m khác nhau [19]
Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng 761 D. Mô hình mạng Trong nghiên cứu này, sử dụng 02 mô hình là Inception-V3 [14] và DenseNet201 [17] đƣợc huấn luyện sẵn trên tập dữ liệu ImageNet mang lại hiệu quả cao hơn so với việc huấn luyện mạng lại từ đầu [18]. Đồng thời, thực hiện phƣơng pháp kết hợp (essemble) giữa các hƣớng tiếp cận dựa trên 2 mô hình này bằng cách lấy trung bình các xác suất dự đoán ở đầu ra và nâng cao độ chính xác của các mô hình. III. THỬ NGHIỆM VÀ ĐÁNH GIÁ A. Tập dữ liệu HAM10000 (ISIC2018) Bộ dữ liệu chứa 10015 bức ảnh để đƣợc phân loại thành 7 lớp khác nhau, với kích thƣớc là 600 x 450 pixel. Phân bố của dữ liệu thể hiện một thực tế trong thế giới thực với phần lớn tổng thể là hình ảnh lành tính trong khi những trƣờng hợp ác tính vẫn còn ít. Phân bố lớp của tập dữ liệu đƣợc hiển thị ở Bảng 1, cho thấy nổi bật lên vấn đề mất cân bằng lớp vốn có nhƣ là một vấn đề then chốt cần giải quyết. Ở đây, tổn thƣơng gồm có 7 loại bao gồm: melanoma (mel), melanocytic nevus (nv), basal cell carcinoma (bcc), actinic keratosis (akiec), benign keratosis (bkl), dermatofibroma (df) và vascular lesions (vasc). Hình 8. Ví dụ minh họa về 7 lớp của tập dữ liệu HAM10000, cuộc thi ISIC2018 Ngoài ra, một tập gồm 1512 ảnh không công khai, đƣợc sử dụng là tập kiểm tra và ghi nhận điểm trong suốt quá trình diễn ra cuộc thi. Tất cả các đánh giá, kiểm tra cuối cùng của nghiên cứu này đều đƣợc thực hiện trên tập kiểm thử này và đƣợc ghi nhận thông qua hệ thống chấm trực tuyến của cuộc thi. Bảng 1. Phân bố các lớp của bộ dữ liệu HAM10000, cuộc thi ISIC2018 MEL NV BCC AKIEC BKL DF VASC ISIC2018 1113 6705 514 327 1099 115 142 Để đảm bảo hạn chế sự ngẫu nhiên không đáng có khi chia tập dữ liệu, nghiên cứu này sử dụng 5-fold crossvalidation chia tập dữ liệu trên thành 5 bộ dữ liệu, mỗi bộ sẽ gồm 8012 ảnh để huấn luyện, 2003 ảnh để đánh giá và tinh chỉnh siêu tham số, mỗi bộ đều đảm bảo tỷ lệ phân bố của các lớp trong tập huấn luyện và đánh giá là nhƣ nhau và giống nhƣ tỷ lệ phân bố trên bộ dữ liệu gốc. Chúng tôi tiến hành thực hiện các thực nghiệm trên bộ dữ liệu fold-1, sau khi tinh chỉnh và chọn đƣợc cấu hình tối ƣu, tiến hành huấn luyện lại các bộ dữ liệu các fold còn lại đồng thời sử dụng phƣơng pháp esemble models để ghi nhận kết quả cuối cùng. B. Độ đo Về những chuẩn đo khi đánh giá, bản chất của vấn đề phân loại tổn thƣơng đa lớp phải đƣợc tính đến. Một độ chính xác (accuracy) bình thƣờng sẽ ủng hộ và khuyến khích sự phân lớp chính xác của những lớp xuất hiện nhiều, và sẽ không đánh giá đúng đƣợc hiệu suất đối với các tập dữ liệu mất cân bằng. Do đó, theo đề xuất của Nil Gessert el at [16], nghiên cứu này sử dụng multiclass sensitivity (MC-Sensitivity) viết tắt là S để đánh giá hiệu quả của những cách tiếp cận, đƣợc định nghĩa bởi công thức: ∑ (5) trong đó: TP biểu thị True Positives, FN biểu thị False Negatives, C biểu thị số lƣợng lớp. Độ đo này cũng chính là Macro-Recall, đƣợc tính bằng cách lấy trung bình cộng các Recall của mỗi lớp. Ngoài ra, độ đo này còn đƣợc gọi là overall balanced accuracy (BACC) theo cách quy ƣớc của cuộc thi ISIC2018. Để thống nhất và tiện theo dõi, trong bài báo này sẽ dùng ký hiệu BACC cho các kết quả ghi nhận đƣợc cuối cùng trên hệ thống cuộc thi.
762 XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA C. Các thực nghiệm Trƣớc tiên, để đánh hiệu quả của phƣơng pháp tiền xử lý ảnh đầu vào, nghiên cứu này tiến hành so sánh trên hai nhóm thực nghiệm lớn là sử dụng downsampling đơn thuần và sử dụng random multi-crop với 32 crops và chỉ dùng trên tập dữ liệu fold-1. Ở nhóm sử dụng downsampling, chúng tôi thực hiện các thực nghiệm sau: So sánh việc không sử dụng và có sử dụng riêng lẻ các phƣơng pháp xử lý mất cân bằng dữ liệu nhƣ: classweight, balanced batches và dynamic classweight và cũng nhƣ dùng hàm mất mát LMCL. So sánh việc sử dụng kết hợp các phƣơng pháp trên. Sau khi đã tìm ra phƣơng pháp tốt nhất ở trƣờng hợp downsampling, chúng tôi tập trung thực nghiệm các phƣơng pháp này trên trƣờng hợp random multi-crop vẫn ở tập dữ liệu fold-1. Và cuối cùng, tiến hành thực hiện các phƣơng pháp tốt nhất trên tất cả 5 fold cũng nhƣ thực hiện essemble các phƣơng pháp lại để cho ra kết quả cuối cùng. Phƣơng pháp huấn luyện và tối ƣu: trong nghiên cứu này chọn giải thuật tối ƣu Stochastic Gradient Descent (SGD) trong suốt quá trình thực nghiệm. Các thông số của quá trình huấn luyện nhƣ learning rate, batch size, momentum đƣợc điều chỉnh sao cho mỗi trƣờng hợp đạt kết quả cao nhất, số epoch rơi vào khoảng 200-300 epoch một lần chạy thực nghiệm. D. Kết quả thử nghiệm Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phƣơng pháp đề xuất, kết quả ở Bảng 2 cho thấy các phƣơng pháp đề xuất đều mang lại độ chính xác BACC cao hơn so với không xử lý, kết quả cũng cho thấy mô hình DenseNet201 đều cho kết quả cao hơn mô hình Inception-V3. Bảng 2. Kết quả đối với nhóm downsampling sử dụng riêng lẻ phƣơng pháp xử lý mất cân bằng và hàm LMCL Trường hợp InceptionV3 DenseNet201 Không xử lý mất cân bằng 60,2 70,7 Classweight 70,4 72,1 Balanced batches 69,6 74,0 Dynamic weight on epoch 69,2 71,4 Dynamic weight on batch 70,5 72,0 LMCL 65,4 70,4 Ở nhóm thực nghiệm downsampling sử dụng riêng lẻ các phƣơng pháp đề xuất, kết quả ở Bảng 3 cho thấy cách kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính xác BACC cao hơn hẳn so với khi sử dụng riêng lẻ từng phƣơng pháp cũng nhƣ không xử lý mất cân bằng. Tuy nhiên, ở mô hình Inception-V3 thì sự cải thiện này tƣơng đối không nhiều. Hai cách kết hợp này đƣợc chọn để thực nghiệm các trƣờng hợp tiếp theo trong nghiên cứu này. Bảng 3. Kết quả đối với nhóm downsampling sử dụng kết hợp phƣơng pháp xử lý mất cân bằng và hàm LMCL Trường hợp InceptionV3 DenseNet201 Classweight + LMCL 75,1 75,4 Balanced batches + Dynamic weight on batch 71,7 76,1 Balanced batches + LMCL 71,8 75,2 LMCL + Dynamic weight on batch 60,1 70,1 Balanced batches + LMCL + Dynamic weight on batch 65,4 68,8 Ở nhóm thực nghiệm random multi-crop với số crops là 32, kết quả ở Bảng 4 cho thấy cách không xử lý mất cân bằng và cách kết hợp giữa Classweight với LMCL, Balanced batches với Dynamic weight on batch cho ra độ chính xác BACC cao hơn hẳn so với khi sử dụng phƣơng pháp tiền xử lý ảnh là downsampling. Bảng 4. Kết quả đối với nhóm random multi-crop Trường hợp InceptionV3 DenseNet201 Không xử lý mất cân bằng 73,2 75,5 Classweight + LMCL 80,3 80,0 Balanced batches + Dynamic weight on batch 79,5 80,7 Cuối cùng, ở nhóm thực nghiệm random multi-crop với số crops là 32 và thực hiện essemble trên cả 5 fold cũng nhƣ các phƣơng pháp với nhau, kết quả ở Bảng 5 cho thấy mô hình DenseNet201 đều đạt đƣợc kết quả cao hơn hẳn Inception-V3, việc kết hợp 2 mô hình lại với nhau dẫn đến hiệu suất cải thiện không đáng kể.
Võ Minh Thiện, Lê Minh Hƣng, Trần Kim Tâm, Trần Văn Lăng 763 Bảng 5. Kết quả đối với nhóm random multi-crop và thực hiện essemble trên cả 5 fold và essemble các phƣơng pháp với nhau Trường hợp InceptionV3 DenseNet201 Classweight + LMCL 79,4 80,0 Balanced batches + Dynamic weight on batch 77,5 80,7 Essemble 2 phƣơng pháp 78,3 82,6 Esemble cả 2 mô hình 82,9 IV. KẾT LUẬN Nghiên cứu này đã tiến hành tìm hiểu bộ dữ liệu HAM10000 (ISIC2018) cho bài toán phân loại tổn thƣơng da và xác định các phƣơng pháp xử lý mất cân bằng dữ liệu cũng nhƣ áp dụng hàm mất mát LMCL để tăng khả năng phân loại. Đồng thời, áp dụng phƣơng pháp kết hợp giữa trọng số lớp cơ bản và hàm LMCL cũng nhƣ cách kết hợp cân bằng batch và trọng số lớp động đƣợc đề xuất mới đều cho ra kết quả cải thiện rõ rệt, với độ chính xác BACC cuối cùng đạt 82,9 %. Kết quả này đạt đƣợc hạng thứ 2 đối với các mô hình chỉ sử dụng dữ liệu công khai của cuộc thi và hạng thứ 6 đối với tất cả các mô hình dự thi cuộc thi ISIC2018 (bao gồm cả sử dụng bộ dữ liệu ngoài). Kỹ thuật đề xuất có thể đƣợc ứng dụng hiệu quả để khắc phục tính mất cân bằng dữ liệu cho các bài toán xử lý ảnh y khoa khác. Một số nghiên cứu cho thấy việc ứng dụng mô hình GAN (Generative adversarial network) vào giải quyết vấn đề thiếu và mất cân bằng dữ liệu về tổn thƣơng da nói riêng hay dữ liệu ảnh y khoa nói chung. Ngoài ra, việc nghiên cứu và đánh giá thật kỹ phƣơng pháp multi-crop có thể giúp tận dụng hết mức có thể các thông tin trong hình ảnh tổn thƣơng da, từ đó giúp phân loại các lớp tốt hơn. V. LỜI CẢM ƠN Bài báo đƣợc hoàn thành dƣới sự hỗ trợ của đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam. TÀI LIỆU THAM KHẢO [1] M. E. Celebi, N. Codella, and A. Halpern. "Dermoscopy image analysis: Overview and future directions". IEEE journal of biomedical and health informatics, 2019. [2] M. E. Vestergaard, P. Macaskill, P. E. Holt, and S. W. Menzies, “Dermoscopy compared with naked eye examination for the diagnosis of primary melanoma: A meta-analysis of studies performed in a clinical setting”, Brit. J. Dermatol., Vol. 159, No. 3, pp. 669-676, 2008. [3] M. Maragoudakis and I. Maglogiannis, “Skin lesion diagnosis fromimages using novel ensemble classification techniques”, in InformationTechnology and Applications in Biomedicine (ITAB), 10 th IEEE International Conference on. IEEE, 2010, pp. 1-5, 2010. [4] A. Madooei et al., “Intrinsic melanin and hemoglobin colour componentsfor skin lesion malignancy detection”, in MICCAI. Springer, pp.315-322, 2012. [5] G. Litjens et al., “A survey on deep learning in medical image analysis”, Medical Image Analysis, Vol. 42, pp. 60- 88, 2017. [6] N. Codella et al., “Deep learning, sparse coding, and svm for melanomarecognition in dermoscopy images”, in International Workshop on Machine Learning in Medical Imaging. Springer, pp. 118-126, 2015. [7] J. Kawahara et al., “Deep features to classify skin lesions”, in ISBI, pp. 1397-1400, 2016. [8] J. Kawahara and G. Hamarneh, “Multi-resolution-tract CNN with hybridpretrained and skin-lesion trained layers”, in International Workshop onMachine Learning in Medical Imaging. Springer, pp. 164-171, 2016. [9] A. R. Lopez et al., “Skin lesion classification from dermoscopic imagesusing deep learning techniques”, in Biomedical Engineering (BioMed),2017 13th IASTED International Conference on. IEEE, pp. 49-54, 2017. [10] J. Yang et al., “Clinical skin lesion diagnosis using representationsinspired by dermatologist criteria”, in CVPR, Vol. 11, 2018. [11] J. Kawahara et al., “7-point checklist and skin lesion classification usingmulti-task multi-modal neural nets”, IEEE Journal of Biomedical andHealth Informatics, 2018. [12] I. G. Diaz, “Dermaknet: Incorporating the knowledge of dermatologiststo convolutional neural networks for skin lesion diagnosis”, IEEEJournal of Biomedical and Health Informatics, 2018. [13] A. Esteva et al., “Dermatologist-level classification of skin cancer withdeep neural networks”, Nature, Vol. 542, No. 7639, pp. 115, 2017. [14] C. Szegedy et al., “Rethinking the inception architecture for computervision”, in CVPR, pp. 2818-2826, 2016.
764 XỬ LÝ MẤT CÂN BẰNG DỮ LIỆU TRONG PHÂN LOẠI TỔN THƢƠNG DA TRÊN ẢNH SOI DA [15] P. Tschandl et al., “The HAM10000 dataset, a large collection ofmulti-source dermatoscopic images of common pigmented skin lesions”, Scientific Data, Vol. 5, No. 180161, 2018. [16] Gessert, Nils & Sentker, Thilo & Madesta, Frederic & Schmitz, Rudiger & Kniep, Helge & Baltruschat, Ivo & Werner, René & Schlaefer, Alexander. "Skin Lesion Classification Using CNNs With Patch-Based Attention and Diagnosis-Guided Loss Weighting". IEEE Transactions on Biomedical Engineering. pp. 1-1. 10.1109/TBME.2019.2915839, 2019. [17] G. Huang et al., “Densely connected convolutional networks”, in CVPR, 2017. [18] N. Gessert et al., “Skin lesion diagnosis using ensembles, unscaled multicrop evaluation and loss weighting”, arXiv preprint arXiv:1808.01694, 2018. [19] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Zhifeng Li,Dihong Gong, Jingchao Zhou, and Wei Liu. "Cos face: Largemargin cosine loss for deep face recognition". In CVPR, 2018. HANDLE IMBALANCE OF DATA IN SKIN LESION CLASSIFICATION ON DERMOSCOPY Vo Minh Thien, Le Minh Hung, Tran Kim Tam, Tran Van Lang ABSTRACT: Melanoma is a malignant skin condition that has the potential to spread to other organs and has a very severe prognosis if diagnosed late. In an early stage, these malignant lesions are easy to confuse with benign moles if they are only examined with the naked eye. To overcome this situation, dermoscopes - an optical device that has been used in dermatology hospitals to assist physicians in examining shallow layers of the skin with a large magnification, at the same time with an image capture and storage system. The International Skin Image Collaboration 2018 (ISIC2018) is organized with the task of classifying photos of skin lesions for early detection of diseases, especially malignant cancer. Data included 10,015 skin scans of 7 lesions. The main problem posed by this problem is the severe data imbalance when the difference between the largest layer and the least layer reaches 60 times. To solve the problem posed, in this study, we conduct to refine the available parameters of modern Deep Convolutional Neural Network (DCNN), such as Inception, DenseNet. Given the problem of data imbalances, this study has experimented with and compared popular methods such as batch balancing and class weighting. In addition, the study also applied a loss function that has brought about significant improvements in image classification problems, namely Large Margin Cosine Loss (CosFace) to better classify classes. In particular, in this study, a new method is proposed which is the dynamic classweight method, aiming to create a model that is adaptable and does not depend on the ratio of classes, or the data imbalance. The results of the proposed method show a marked improvement with an accuracy of 82.9 % compared with 70.7 % when not interfering with the loss function on the test system of the ISIC2018 competition.