Phân loại các tổn thương thường gặp ở gan dựa vào chỉ số Hounsfield và kỹ thuật học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

19
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một tiếp cận mới sử dụng chỉ số Hounsfield để xác định chính xác các vùng tổn thương gan kết hợp với các mạng học sâu Faster R-CNN, R-FCN để phân loại một số tổn thương thường gặp trên gan.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Phân loại các tổn thương thường gặp ở gan dựa vào chỉ số Hounsfield và kỹ thuật học sâu

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0038 PHÂN LOẠI CÁC TỔN THƯƠNG THƯỜNG GẶP Ở GAN DỰA VÀO CHỈ SỐ HOUNSFIELD VÀ KỸ THUẬT HỌC SÂU Phan Anh Cang1, Lê Thị Ngưu Huỳnh2, Phan Thượng Cang3 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long 2 Trường THPT Huỳnh Văn Sâm, Cái Bè, Tiền Giang 3 Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, lehuynhhvs@gmail.com, ptcang@cit.ctu.edu.vn TÓM TẮT: Trong những năm gần đây tỉ lệ người mắc bệnh ung thư ngày càng tăng, đặc biệt là ung thư gan. Vì vậy, việc dò tìm và phân loại các tổn thương thường gặp ở gan là rất cần thiết. Trên thực tế, các bác sĩ chẩn đoán hình ảnh CT chủ yếu dựa vào chỉ số Hounsfield để xác định vùng tổn thương trên gan, tuy nhiên các nghiên cứu trước đây thường không quan tâm đến chỉ số này. Trong bài báo này, chúng tôi đề xuất một tiếp cận mới sử dụng chỉ số Hounsfield để xác định chính xác các vùng tổn thương gan kết hợp với các mạng học sâu Faster R-CNN, R-FCN để phân loại một số tổn thương thường gặp trên gan. Phương pháp chúng tôi đề xuất dựa vào sự biến thiên đậm độ của chỉ số Hounsfield trên ảnh CT ở các thì chụp trước và sau khi tiêm chất cản quang, xác định vùng tổn thương trên gan một cách chính xác hỗ trợ cho việc gán nhãn dữ liệu. Các kỹ thuật học sâu như Faster R-CNN và R-FCN được sử dụng để phát hiện và phân loại tự động các vùng tổn thương trên gan. Kết quả thực nghiệm cho thấy phương pháp đề xuất với mô hình mạng Faster R-CNN đạt độ chính xác cao hơn mô hình mạng R-FCN với mAP đo được là 96%. Phương pháp này hỗ trợ hiệu quả cho các bác sĩ xác định được chính xác vị trí và phân loại tổn thương để có hướng điều trị kịp thời cho bệnh nhân. Từ khóa: Tổn thương gan, Faster R-CNN, R-FCN, Hounsfields. I. GIỚI THIỆU A. Giới thiệu bài toán Môi trường sống ô nhiễm, thức ăn với lượng tồn dư chất hóa học vượt quá mức quy định, các thói quen sinh hoạt không tốt làm cho tỉ lệ người mắc bệnh ung thư ngày càng tăng cao. Theo GLOBOCAN một dự án của Cơ quan nghiên cứu ung thư quốc tế đã ghi nhận vào năm 2020 [3] ung thư gan là căn bệnh ung thư đứng thứ 7 trên thế giới với khoảng 905.677 ca mắc mới và 830.180 người tử vong. Vào năm 2020, ở Việt Nam [4] ghi nhận số ca mắc mới ung thư gan là 26.418 ca, ung thư gan đứng đầu trong các loại ung thư phổ biến nhất ở nam giới và thứ 5 ở nữ giới. Các số liệu trên cho thấy tình trạng viêm gan đang ở mức đáng báo động, do đó việc phát hiện và phân loại sớm tổn thương ở gan để có những giải pháp điều trị đúng đắn là vô cùng cần thiết. B. Những nghiên cứu liên quan Trong những năm gần đây, các mô hình dò tìm và phát hiện các tổn thương trên gan dựa trên mạng CNN đang được phát triển. Có thể kể tên một vài nghiên cứu như Chris và cộng sự [5] xây dựng mô hình phân đoạn gan và xác định vị trí tổn thương bằng cách sử dụng FCN và các trường ngẫu nhiên có điều kiện (CRF), họ đạt được tỉ lệ độ chính xác cho việc phân vùng gan là 94%. Li và cộng sự [6] cũng thực hiện phân đoạn khối u gan nhưng so sánh kết quả với mô hình ML truyền thống và kết quả đạt được độ chính xác là 84,34%. Ngoài ra Rusko và cộng sự [7] thực hiện mô hình phát hiện tổn thương gan bằng cách sử dụng thuật toán phát hiện các tính năng hình học cơ bản (chẳng hạn như đo lường đồng dạng, độ nén và khối lượng) thay vì học sâu và có thể đạt được tỉ lệ phát hiện là 92%. Bên cạnh đó, các mô hình phân vùng dựa trên mạng CNN đang được phát triển. Có thể kể tên một vài nghiên cứu như Kaluva và các cộng sự [8] đã kết hợp môđun dense vào FCN và đạt tỉ lệ cho phân vùng gan và tổn thương tương ứng là 92,3% và 62,5%, Liu và các cộng sự [9] đề xuất áp dụng mạng GIU-Net, đạt được tỉ lệ cho phân vùng gan là 95,05%. Nhìn chung các nghiên cứu trên đa phần tập trung vào việc phân vùng và phát hiện các tổn thương ở gan mà chưa tập trung vào việc phân loại các loại tổn thương. Bên cạnh đó, chỉ số HU là một thông số quan trọng, có ý nghĩa trên ảnh y khoa mà các nghiên cứu trước đây chưa chú trọng đến. Xuất phát từ thực tiễn trên, bài báo đã đề xuất mô hình “Phân loại các tổn thương thường gặp ở gan dựa vào chỉ số Hounsfield và kỹ thuật mạng học sâu” nhằm hỗ trợ cho các bác sĩ phát hiện sớm tổn thương ở gan. II. CÁC CÔNG VIỆC LIÊN QUAN A. Các tổn thương thường gặp trên gan Có rất nhiều loại tổn thương gan tuy nhiên bài báo chỉ tập trung vào nghiên cứu các loại tổn thương thường gặp [10] như nang gan, u mạch máu và u nguyên phát HCC.
18 PHÂN LOẠI CÁC TỔN THƯƠNG THƯỜNG GẶP Ở GAN DỰA VÀO CHỈ SỐ HOUNSFIELD VÀ KỸ THUẬT MẠNG HỌC SÂU Hình 1. Hình minh họa cho các tổn thương thường gặp trên gan 1. Nang gan Nang gan [11]: Nang gan là hiện tượng hình thành ổ trống chứa dịch trong gan, nó được xem như một khối u lành tính. Gan có thể có một nang hoặc nhiều nang, một số loại nang gan có thể ác tính hóa thành ung thư nhưng hiếm gặp. Trên Hình 1 (a) vùng được khoanh đỏ chính là vùng gan bị nang, đây là ảnh cắt ngang từ ảnh chụp CT bụng, qua ảnh ta có thể dễ dàng nhìn thấy khối nang gan có kích thước khá lớn. 2. U mạch máu (Hemangioma) U mạch máu trong gan (HEM) [12]: U mạch máu là từ phổ thông quen dùng, tuy nhiên tên gọi chính xác hơn phải là dị hình mạch máu tăng sinh trong gan. U mạch máu thường xuất hiện ở phụ nữ hơn và là khối u gan lành tính phổ biến nhất. Nguy cơ tiến hóa ác tính từ khối u này là không có. Hình 1 (b) là ảnh CT trong giai đoạn tĩnh mạch cửa, ảnh chụp CT giai đoạn này cho thấy rõ hơn khối u máu trên gan. 3. U nguyên phát HCC (Hepatocellular Carcinoma) U nguyên phát (HCC) [13]: Bệnh ung thư này bắt nguồn từ trong gan (ung thư gan nguyên phát), khác với ung thư lây lan từ các cơ quan khác đến gan (ung thư gan thứ phát), là loại ung thư gan ác tính phổ biến nhất và thường gặp nhất trong các loại ung thư gan, chiếm 85-90% trong tổng số các trường hợp ung thư gan. Hình 1 (c) là khối u HCC, khối u này khó nhận thấy trên ảnh CT thông thường vì độ đậm HU gần như tương đồng với gan, phải dựa trên các ảnh CT chụp trước và sau khi tiêm chất cản quang ở các thì chụp khác nhau để phát hiện. B. Chỉ số Hounsfield (HU) Chỉ số Hounsfield được đặt là để vinh danh ngài Godfrey Hounsfield (1919-2004) một trong những người tiên phong của kỹ thuật chụp cắt lớp vi tính (CT). Chỉ số HU là một cách để mô tả sự suy giảm bức xạ trong các mô khác nhau và do đó giúp dễ dàng xác định những gì bác sĩ cần chú ý. 1. Xác định chỉ số Hounsfields Để xác định được vùng gan bị tổn thương chúng tôi cần dựa vào thông tin hữu ích trên ảnh CT là giá trị HU. Để tính HU, chúng tôi áp dụng một phép biến đổi tuyến tính với công thức như sau: HU = pixel_value ∗ RescaleSlope + RescaleIntercept (1) Trong đó, pixel_value là giá trị từng điểm ảnh, các giá trị RescaleSlope và RescaleIntercept là các giá trị lưu trữ trong ảnh CT/MRI chuẩn Dicom. HU được tính theo từng điểm ảnh với mỗi ảnh chụp sẽ có một ảnh HU. Dựa vào giá trị HU này, bác sĩ sẽ giới hạn được các vùng cần quan tâm, giúp việc xác định vị trí tổn thương được chính xác hơn. 2. Phân loại tổn thương thường gặp ở gan bằng sự biến thiên đậm độ Đầu vào của bài toán là các ảnh CT vùng bụng, do đó ngoài gan còn có nhiều nội tạng khác. Bác sĩ thường sẽ dựa vào chỉ số HU để xác định được vùng gan, được biết vùng gan là vùng có chỉ số HU từ 45HU đến 65HU [14], dựa vào sự chênh lệch đậm độ HU của vùng tổn thương so với mô gan để phân loại. Tuy nhiên, trong một số trường hợp đặc biệt khi các tổn thương có đậm độ tương đồng hoặc chênh lệch ít với mô gan, việc phát hiện và phân loại tổn thương là rất khó. Trên thực tế để chẩn đoán, Bác sĩ cần chụp ảnh CT vùng bụng trước và sau khi tiêm chất cản quang ở các thì chụp cụ thể là: Chụp thì động mạch (Arterial) sau tiêm thuốc cản quang 28 đến 33 giây. Chụp thì tĩnh mạch (Venous) sau tiêm thuốc cản quang 60 đến 80 giây. Chụp thì muộn (Delay) sau tiêm thuốc cản quang 180 đến 300 giây. Khi đó tại mỗi thời điểm cũng tạo ra mỗi ảnh, bác sĩ sẽ dựa vào sự biến thiên đậm độ để phân loại tổn thương như bảng 1: Bảng 1. Phân loại tổn thương gan dựa vào biến thiên đậm độ sau tiêm thuốc cản quang [15][16][17][18][19]. Thì động mạch (Arterial) Thì tĩnh mạch (Venous) Thì muộn (Delay) Phân loại Không tăng quang Không tăng quang Không tăng quang Nang gan U mạch máu Tăng quang dạng nốt ở thành Tăng quang đồng nhất Tăng quang đồng nhất (lành) Tăng quang nhẹ do thải Đậm độ thấp hơn mô gan do tổn U nguyên phát Tăng quang rất mạnh thuốc thương thải thuốc hoàn toàn HCC (ác tính) Dựa vào bảng 1, bác sĩ có thể nhận ra sự biến thiên đậm độ của các tổn thương và phân loại chúng và đây cũng là một cơ sở quan trọng được sử dụng để hỗ trợ việc xác định nhãn của tổn thương.
Phan Anh Cang, Lê Thị Ngưu Huỳnh, Phan Thượng Cang 19 C. Các mạng nơron trích xuất đặc trưng Để giải quyết bài toán “Phân loại các tổn thương thường gặp ở gan dựa vào chỉ số Hounsfield và kỹ thuật mạng học sâu” chúng tôi đã sử dụng các mạng rút trích đặc trưng ResNet và Inception ResNet. 1. ResNet (Residual Neural Network) Bằng chiến thắng trong cuộc thi ImageNet Large Scale Visual Recognition Competition (ILSVRC) năm 2015, ResNet [20] trở thành kiến trúc được sử dụng phổ biến nhất ở thời điểm hiện tại, với ít tham số nhưng hiệu quả bằng cách sử dụng kết nối tắt. Các kết nối tắt (skip connection) giúp giữ thông tin không bị mất bằng cách kết nối từ layer sớm trước đó tới layer phía sau và bỏ qua một vài layers trung gian. ResNet bao gồm nhiều kiến trúc khác nhau. Trong đó, ResNet-101 đạt được hiệu suất khá tốt [20], vì thế chúng tôi đã lựa chọn ResNet-101 vào mô hình thực nghiệm của mình. 2. Inception ResNet Inception ResNet [21] là mô hình được xây dựng dựa trên những ưu điểm của Inception và Residual block. Với sự kết hợp này Inception ResNet đạt được độ chính xác rất đáng kinh ngạc. Mạng Inception hoàn chỉnh bao gồm nhiều module Inception nhỏ ghép lại với nhau. Ý tưởng của Inception module rất đơn giản, thay vì sử dụng 1 Conv layer với tham số kernel_size cố định, Inception sử dụng cùng lúc nhiều Conv layer với các tham số kernel_size khác nhau (1, 3, 5, 7…) và sau đó nối các output lại với nhau. Trong bài báo [21] cũng đã so sánh ResNet-151, Inception-v3, Inception- ResNet-v1, Inception-v4, Inception-ResNet-v2 thì trong đó Inception-ResNet-v2 được đánh giá tốt hơn cả, cũng chính vì thế Inception-ResNet-v2 cũng là một lựa chọn cho mô hình thực nghiệm của chúng tôi. D. Các mạng CNNs dùng trong huấn luyện Bên cạnh các mạng rút trích đặc trưng được sử dụng, hai mạng học sâu Faster R-CNN và R-FCN cũng được chúng tôi sử dụng trong huấn luyện và phân loại tự động các tổn thương thường gặp trên gan. 1. Mạng Nơron Faster R-CNN Trong nhiều phương pháp phát hiện đối tượng, Faster R-CNN [1] là một trong những phương pháp hiện đại và hiệu quả cho tới ngày nay. Faster R-CNN đã trải qua nhiều phiên bản như R-CNN [22] và Fast R-CNN. Faster R-CNN được đưa ra để giải quyết khuyết điểm về thời gian thực thi của hai giải thuật R-CNN và Fast R-CNN, bằng cách huấn luyện một mô hình hiệu quả hơn và thay thế vai trò của các thuật toán như Selective Search vốn rất chậm chạp. Faster R-CNN được đánh giá nhanh hơn hẳn các dòng R-CNN trước đó [23]. Ngoài ra, mạng này còn được sử dụng phổ biến cho việc phát hiện và phân loại. Chính vì vậy, để tận dụng ưu điểm của phương pháp này, chúng tôi đề xuất áp dụng mạng Faster R-CNN cho mô hình phát hiện và phân loại tổn thương thường gặp trên gan. 2. Mạng Nơron R-FCN Faster R-CNN đã được cải tiến, tuy nhiên trên thực tế RPN phải được áp dụng vài trăm lần cho mỗi hình ảnh, nên thời gian xử lý của Faster R-CNN cũng còn khá chậm. Chính vì thế, J. Dai và các cộng sự đã đề xuất R-FCN [2]. Từ quan điểm cấu trúc, cơ bản R-FCN giống với Faster R-CNN. Trong R-FCN, vẫn có RPN để nhận các đề xuất khu vực, nhưng không giống như Faster R-CNN ở chỗ nó thay thế ROI Pooling bằng FCN để tạo Score MAPs, tạo ra xác suất mỗi pixel tương ứng với một phần nhất định của đối tượng do đó làm tăng tốc độ tính toán. Và phương pháp này cũng là một lựa chọn của chúng tôi trong mô hình thực nghiệm. E. Các độ đo dùng để đánh giá mô hình 1. Độ đo Loss Hàm tính toán độ đo Loss (L) được xác định bởi công thức (2), (3). 1 1 𝐿𝑜𝑠𝑠({𝑝𝑖 }, {𝑡𝑖 }) = ∑𝑖 𝐿𝑐𝑙𝑠 (𝑝𝑖 , 𝑝𝑖∗ ) + λ ∑𝑖 𝑝𝑖∗ 𝐿𝑟𝑒𝑔 (𝑡𝑖 , 𝑡𝑖∗ ) (2) 𝑁𝑐𝑙𝑠 𝑁𝑟𝑒𝑔 0.5(𝑥𝑖 − 𝑦𝑖 )2 𝑛ế𝑢 |𝑥𝑖 − 𝑦𝑖 | < 1 𝑆𝑚𝑜𝑜𝑡ℎ𝐿1𝐿𝑜𝑠𝑠(𝑥, 𝑦) = � (3) |𝑥𝑖 − 𝑦𝑖 | − 0.5 𝑛𝑔ượ𝑐 𝑙ạ𝑖 Với i là index của anchor trong mini-batch, 𝑝𝑖 là xác suất dự đoán của anchor i là một đối tượng. Giá trị nhãn ground-truth 𝑝𝑖∗ là 1 nếu anchor là positive và là 0 khi anchor là negative, 𝑡𝑖 là một vector 4 chiều biểu diễn giá trị tọa độ của bounding box đã được dự đoán, 𝑡𝑖∗ là vector 4 chiều biểu diễn giá trị tọa độ của ground-truth box tương ứng với positive anchor, 𝐿𝑐𝑙𝑠 là log loss của 2 lớp (object và non-object) và 𝐿𝑟𝑒𝑔 được tính bằng SmoothL1Loss. 2. Độ đo AP và mAP Mô hình mạng được đánh giá độ chính xác qua độ đo AP (Average Precision) và mAP (mean Average Precision), để tính được trước tiên chúng ta phải tính giá trị dự đoán chính xác (Precison) và loại trừ chính xác (Recall) TP TP Precision∗Recall Precision = (4) Recall = (5) F1 = 2 (6) TP+FP TP+FN Precision+Recall
20 PHÂN LOẠI CÁC TỔN THƯƠNG THƯỜNG GẶP Ở GAN DỰA VÀO CHỈ SỐ HOUNSFIELD VÀ KỸ THUẬT MẠNG HỌC SÂU Theo công thức số (4) và số (5), Precison được tính bằng tổng số dự đoán chính xác chia cho tổng số lần dự đoán. Recall được tính trên tổng số dự đoán chính xác chia cho tổng số trường hợp đúng. Precision cao thì độ chính xác của các trường hợp dự đoán được là cao. Recall cao tức là tỉ lệ bỏ sót các điểm thực sự positive là thấp. Trong bài toán phân lớp, độ đo AP [25] là giá trị đo lường độ chính xác trên tất cả các lớp. Độ đo AP được tính theo công thức số (7). Với 𝜌𝑖𝑛𝑡𝑒𝑟𝑝(𝑟) được tính theo công thức (8), thực hiện phép nội suy 11 điểm để tóm tắt hình dạng của đường cong Precision x Recall bằng cách lấy trung bình độ chính xác tại một tập hợp gồm 11 điểm cách đều nhau [0, 0,1, 0,2…, 1]. Trong đó, 𝜌 (𝑟̃ ) là độ chính xác đo được trên 𝑟̃ . 1 max 𝜌 (𝑟̃ ) 1 𝐴𝑃 = ∑𝑟 ∈{0,0.1,…,1} 𝜌𝑖𝑛𝑡𝑒𝑟𝑝(𝑟) (7) 𝜌𝑖𝑛𝑡𝑒𝑟𝑝(𝑟) = (8) mAP = ∑N i=1 APi (9) 11 𝑟: � 𝑟̃ ≥ 𝑟 N Để đánh giá được độ chính xác trung bình trên tất cả các lớp, chúng tôi sử dụng độ đo mAP [25]. Độ đo mAP được tính bằng công thức số (9) sau khi có được độ đo AP. III. PHƯƠNG PHÁP ĐỀ XUẤT Để giải quyết bài toán, chúng tôi đề xuất sử dụng mô hình tổng quát như hình 2. Mô hình tổng quát gồm có hai pha: Pha huấn luyện và pha kiểm thử được mô tả cụ thể như hình sau: Hình 2. Mô hình đề xuất tổng quát phân loại các tổn thương gan. A. Pha huấn luyện 1. Tiền xử lý Giai đoạn này được thực hiện bằng cách chuyển đổi ảnh CT theo định dạng DICOM về các ảnh jpg, chuẩn hóa ảnh với kích thước 512×512 tương ứng với từng lát cắt và chỉ quan tâm đến các lát cắt có chứa tổn thương. Để gán nhãn cho mỗi ảnh chúng tôi dựa vào chỉ số Hounsfield hiển thị trên ảnh chụp CT, sự biến thiên đậm độ của tổn thương qua các thì chụp ảnh CT như bảng 1, tiến hành gán nhãn dữ liệu với sự hỗ trợ từ các bác sĩ chuyên khoa và tool là labelmg (hình 3 (a)). Các vùng tổn thương được gán nhãn thành một trong ba lớp: Nang gan (ký hiệu nhãn là NAN), u mạch máu Hemangioma (ký hiệu nhãn là HEM), u nguyên phát HCC (ký hiệu nhãn là HCC). Hình 3. Ví dụ minh hoạ gán nhãn vùng tổn thương gan trên ảnh CT/MRI dựa vào HU
Phan Anh Cang, Lê Thị Ngưu Huỳnh, Phan Thượng Cang 21 LabelImg sẽ tự động tạo một file .xml (hình 3 (b)) mô tả vị trí đối tượng trong ảnh. Trong các trường trên file .xml, ta quan tâm đến các trường size (gồm trường width, height và depth) và object (gồm bndbox với các trường xmin, ymin, xmax, ymax bên trong), lần lượt là kích thước của bức ảnh đang xét và tọa độ, vị trí từng vật thể trong ảnh đó. 2. Rút trích đặc trưng Sau khi tiến hành tiền xử lý dữ liệu chúng tôi sẽ tiến hành rút trích đặc trưng. Khi đưa ảnh Train vào để huấn luyện, từng ảnh sẽ được qua các mạng rút trích đặc trưng để rút trích ra các đặc trưng tương ứng. Chúng tôi đề xuất phương pháp rút trích đặc trưng với hai mô hình mạng là Inception-ResNet-V2 và ResNet-101 như đã trình bày ở Mục 1 và Mục 2 phần C của II trong bài báo này. 3. Huấn luyện Ở giai đoạn này, tập dữ liệu sau khi rút trích đặc trưng sẽ được huấn luyện trên hai mô hình mạng Faster R- CNN và R-FCN. Do hạn chế về tập dữ liệu thực nghiệm, chúng tôi sử dụng lại mô hình Faster R-CNN và R-FCN để có thể sử dụng được transfer learning từ bộ trọng số (weights) được trích xuất sẵn của mô hình. Điều này giúp cho việc học các đặc trưng mới nhanh hơn, rút ngắn được thời gian huấn luyện và không cần đòi hỏi tập dữ liệu lớn. Mỗi mô hình mạng như vậy sẽ tiến hành huấn luyện trên cả bốn tập Plain, Arterial, Venous và Delay, trên cùng một môi trường giống nhau, trong quá trình huấn luyện khi chỉ số Loss không được cải thiện (không giảm) chúng tôi sẽ đưa ra quyết định dừng huấn luyện và chuyển sang giai đoạn kiểm thử để so sánh, đánh giá mô hình. B. Pha kiểm thử Ở giai đoạn tiền xử lý chúng tôi cũng dựa vào sự biến thiên đậm độ HU để xác định được vùng gan tổn thương, sử dụng các kỹ thuật xử lý ảnh để làm rõ các tổn thương hơn. Giai đoạn rút trích đặc trưng thực hiện tương tự như trong pha huấn luyện. Ảnh sau khi đã rút trích đặc trưng sẽ được đưa qua mô hình đã được huấn luyện trước đó để cho ra kết quả dò tìm tự động các tổn thương gồm bounding box chứa tổn thương và nhãn của tổn thương. Một điểm mới của bài báo chúng tôi là áp dụng thêm một bước phân loại cụ thể như sau: khi đưa ảnh test (bất kì ở thì chụp nào) vào để phân loại, ảnh sẽ được đưa lần lượt qua cả bốn mô hình đã huấn luyện (Plain, Arterial, Venous, Delay), mô hình phân loại có nhiệm vụ chọn ra kết quả có độ chính xác cao nhất để làm kết quả phân loại sau cùng, điều này giúp kết quả phân loại đạt được độ chính xác cao hơn. IV. KẾT QUẢ THỰC NGHIỆM A. Các kịch bản áp dụng Để tiến hành thực nghiệm cho mô hình đề xuất, chúng tôi thực hiện hai kịch bản với các tham số huấn luyện như sau: Bảng 2. Các kịch bản được đề xuất và các tham số huấn luyện Kịch Mạng rút trích đặc Mạng huấn Learning Num num_steps mAP@IoU bản trưng luyện rate classes 1 Inception-ResNet-V2 Faster R-CNN 0.0003 100.000 0.5 3 2 ResNet-101 R-FCN 0.0003 200.000 0.5 3 Kịch bản 1, chúng tôi sử dụng mạng Faster R-CNN với mạng rút trích đặc trưng Inception-ResNet-V2. Còn ở kịch bản 2, chúng tôi sử dụng mạng R-FCN với mạng rút trích đặc trưng ResNet-101. Sau khi tiến hành thử nghiệm với nhiều bộ tham số, cả hai kịch bản chúng tôi đều chọn các tham số huấn luyện như tốc độ học (Learning rate) là 0.0003, tham số mAP@IoU=0.5, số lượng phân lớp (Num classes) là 3 tương ứng với ba loại tổn thương đó là nang gan (ký hiệu nhãn là NAN), u mạch máu (ký hiệu nhãn là HEM) và u nguyên phát HCC (ký hiệu nhãn là HCC). Riêng đối với kịch bản 1 số lần huấn luyện (num_step) là 100.000 lần, kịch bản 2 là 200.000 lần do giá trị Loss không giảm ở các bước học tương ứng trong từng kịch bản. B. Môi trường cài đặt và tập dữ liệu thực nghiệm 1. Môi trường cài đặt Hệ thống được cài đặt bằng ngôn ngữ Python và chạy trên cùng một môi trường Google Colab Pro, cấu hình RAM 25.4GB và dùng GPU Nvidia Tesla P100. Thư viện hỗ trợ huấn luyện mô hình mạng sử dụng là Tensorflow v1.5. 2. Tập dữ liệu thực nghiệm Nghiên cứu này tiến hành thực nghiệm trên tập dữ liệu gồm 2.000 ảnh ở cả 4 thì chụp trước và sau khi tiêm chất cản quang của các bệnh nhân. Tập dữ liệu này được chia làm 4 tập con (Plain, Arterial, Venous, Delay) tương ứng với các thì chụp ảnh CT. Mỗi tập con bao gồm 500 ảnh, trong đó 400 ảnh được dùng làm tập Train và 100 ảnh cho tập Test, tương ứng với tỉ lệ là 80:20. Tập dữ liệu này, khi phân theo loại tổn thương sẽ bao gồm: Tập huấn luyện: Nang gan (NAN) 256 tổn thương, u mạch máu (HEM) 396 tổn thương, u nguyên phát (HCC) 948 tổn thương. Tập kiểm thử: Nang gan (NAN) 60 tổn thương, u mạch máu (HEM) 108 tổn thương, u nguyên phát (HCC) 232 tổn thương.
22 PHÂN LOẠI CÁC TỔN THƯƠNG THƯỜNG GẶP Ở GAN DỰA VÀO CHỈ SỐ HOUNSFIELD VÀ KỸ THUẬT MẠNG HỌC SÂU C. Kết quả huấn luyện 1. Đánh giá mô hình Để đánh giá mô hình chúng tôi dựa vào các độ đo Loss_value, thời gian huấn luyện, AP và mAP của mô hình. Với hai kịch bản huấn luyện như đã trình bày thu được kết quả đánh giá như sau: a) Độ do Loss Ở kịch bản 1, sự thay đổi của các độ đo Loss với giá trị TotalLoss trên bốn tập ảnh được biểu diễn như sau: Faster R-CNN Inception-ResNet-V2 Faster R-CNN Inception-ResNet-V2 Faster R-CNN Inception-ResNet-V2 Faster R-CNN Inception-ResNet-V2 TotalLoss TotalLoss TotalLoss TotalLoss Plain Arterial Venous Delay (a) (b) (c) (d) Hình 4. Biểu đồ về độ đo Loss trên bốn tập ảnh khi huấn luyện đối với kịch bản 1 Có thể thấy, đối với mô hình kịch bản 1, ở giai đoạn đầu của quá trình huấn luyện, tại các bước học ở mức dưới 50.000 giá trị Loss có xu hướng giảm nhưng không nhiều và không đều. Số Loss giảm nhiều và khá đều ở các bước học trên 50.000, cho thấy sau thời gian dài huấn luyện đã trích xuất và học được các đặc trưng hiệu quả hơn, điều này thể hiện rõ ở các biểu đồ Hình 4. Khi giá trị Loss không còn giảm ở bước học thứ 100.000 chúng tôi quyết định dừng huấn luyện, khi đó giá trị Loss trung bình của bốn tập ảnh đo được là 0.2486. Ở kịch bản 2, sự thay đổi của giá trị mất mát TotalLoss trên bốn tập ảnh được biểu diễn như sau: RFCN ResNet-101 RFCN ResNet-101 RFCN ResNet-101 RFCN ResNet-101 TotalLoss TotalLoss TotalLoss TotalLoss Plain Arterial Venous Delay (a) (b) (c) (d) Hình 5. Biểu đồ về độ đo Loss trên bốn tập ảnh khi huấn luyện đối với kịch bản 2 Qua hình 5 có thể thấy, đối với mô hình kịch bản 2, giá trị Loss giảm nhiều và ổn định từ bước học thứ 80.000. Điều này cho thấy đối với bộ dữ liệu hình ảnh y khoa thực nghiệm, mô hình R-FCN cho kết quả rút trích đặc trưng cũng khá tốt nhưng với số lần học nhiều hơn. Kết thúc 200.000 bước học, giá trị Loss trung bình của bốn tập ảnh đo được là 0.2611. Qua các biểu đồ Loss, ta có thể nhận thấy cả hai mô hình đề xuất đều khá tốt với độ Loss thấp, tuy nhiên mô hình Faster R-CNN trong kịch bản 1 có giá trị Loss trung bình thấp hơn, nên có thể đánh giá tốt hơn. b) Thời gian huấn luyện Như đã được giới thiệu ở Mục 2 phần D của II trong bài báo này, với sự cải tiến để làm tăng tốc độ tính toán của R-FCN, thời gian huấn luyện cho mỗi step của R-FCN có phần nhanh hơn, cụ thể là khoảng 0.3 sec/step trong khi Faster-R-CNN thì có thời gian huấn luyện khoảng 0.6 sec/step. Tuy nhiên, khi áp dụng Faster-R-CNN như đề xuất trong kịch bản 1 chỉ cần huấn luyện 100.000 step, trong khi R-FCN áp đụng như kịch bản 2 cần phải huấn luyện đến 200.000 step mới đủ để giảm Loss đến tối thiểu. Tổng thời gian huấn luyện của cả hai kịch bản được biểu diễn như biểu đồ sau: Hình 6. Biểu đồ so sánh thời gian huấn luyện của hai kịch bản đề xuất Hình 6 là biểu đồ minh họa cho tổng thời gian huấn luyện của cả bốn tập ảnh, khi sử dụng mô hình kịch bản 1 tổng thời gian huấn luyện là 4.326 phút (72 giờ 6 phút), mô hình kịch bản 2 là 4.267 phút (71 giờ 7 phút) ít hơn kịch bản 1 khoảng 1 giờ, điều này cho thấy sự chênh lệch thời gian huấn luyện của cả hai là không nhiều, nên khi đánh giá hai mô hình ta có thể bỏ qua đánh giá về thời gian huấn luyện.
Phan Anh Cang, Lê Thị Ngưu Huỳnh, Phan Thượng Cang 23 c) Độ đo AP và mAP Kết quả phát hiện và phân loại tự động tổn thương với mô hình Faster R-CNN trong kịch bản 1 và R-FCN trong kịch bản 2 như đề xuất, cho kết quả với thang đo AP và mAP trên bốn tập ảnh được mô tả ở biểu đồ như hình bên dưới: Hình 7. Biểu đồ so sánh độ đo AP và mAP qua hai kịch bản đề xuất Có thể thấy qua hình 7 (a), đối với cả hai kịch bản đề xuất thì tổn thương u nguyên phát (HCC) và u mạch máu (HEM) cho tỉ lệ dự đoán chính xác rất cao và tương đồng nhau. Trong đó, lớp HCC có trung bình AP là 99 % cho cả hai kịch bản, còn lớp HEM có trung bình AP là 98 % cho mô hình kịch bản 1 và 97 % cho mô hình kịch bản 2. Tuy nhiên, với phân lớp tổn thương là nang gan (NAN), hai kịch bản đều cho tỉ lệ nhận dạng chính xác thấp hơn, với trung bình AP là 92% cho kịch bản 1 và 86% cho kịch bản 2. Hình 7 (b) biểu diễn cho độ đo mAP, kịch bản 1 cho tỉ lệ chính xác với trung bình mAP cho cả bốn tập ảnh đạt 96%, cao hơn so với kịch bản 2 với 94%. Qua biểu đồ trên ta thấy cả hai kịch bản đều đạt độ chính xác khá cao tuy nhiên mô hình kịch bản 1 nhìn chung độ chính xác có phần tốt hơn kịch bản 2. 2. Kết quả dò tìm và phân loại tổn thương Một số hình ảnh thực nghiệm khi dò tìm và phân loại tự động tổn thương trên gan của hai kịch bản đề xuất được trình bày trong bảng sau: Bảng 3. Bảng minh họa kết quả thực nghiệm trên hai kịch bản đề xuất Nhãn NAN HEM HCC Mô hình Kịch bản 1 Kịch bản 2 Bảng 3 là một số hình ảnh minh họa thực nghiệm cho hai kịch bản mà chúng tôi đề xuất. Đối với các tổn thương lớn, dễ dàng nhận thấy, khi đưa ảnh này vào mô hình, ta thấy kết quả dò tìm và phân loại gần như chính xác. Tuy nhiên đối với một vài tổn thương không rõ và đậm độ tương đồng với mô gan thì kết quả vẫn còn chưa chính xác. 3. So sánh đánh giá hai mô hình đề xuất Qua quá trình huấn luyện và kiểm thử hai mô hình đề xuất các tiêu chí so sánh được tổng kết như bảng 4. Giá trị Loss của mô hình kịch bản 1 là 0.2486, thấp hơn mô hình kịch bản 2 với giá trị Loss là 0.2611. Độ chính xác mAP trung bình của kịch bản 1 là 96% cao hơn 2% so với kịch bản 2 là 94%. Bảng 4. Bảng tổng hợp kết quả so sánh đánh giá hai mô hình qua tập dữ liệu thực nghiệm Thời gian huấn luyện AP Trung bình mAP Độ đo Loss trung Mô hình Trung bình Tổng thời U mạch Nang Trung bình HCC (giây/step) gian (giờ) máu gan bình Kịch bản 1 0.2486 0.6 72 99% 98% 92% 96% Kịch bản 2 0.2611 0.3 71 99% 97% 86% 94%
24 PHÂN LOẠI CÁC TỔN THƯƠNG THƯỜNG GẶP Ở GAN DỰA VÀO CHỈ SỐ HOUNSFIELD VÀ KỸ THUẬT MẠNG HỌC SÂU Kịch bản 1 cần tổng thời gian huấn luyện cho cả bốn tập ảnh lâu hơn không đáng kể (khoảng 1 giờ) so với kịch bản 2. Từ kết quả trên với bộ dữ liệu thực nghiệm đã thu thập, có thể thấy mô hình kịch bản 1 sử dụng mạng Faster R- CNN Inception-ResNet-V2 cho khả năng rút trích đặc trưng hiệu quả hơn, từ đó độ chính xác cũng cao hơn. V. KẾT LUẬN Trong nghiên cứu này, chúng tôi đề xuất một hướng tiếp cận mới là dựa trên chỉ số HU một chỉ số có giá trị quan trọng trên ảnh CT, để xác định vùng tổn thương hỗ trợ gán nhãn chính xác cho tập dữ liệu thực nghiệm, áp dụng các kỹ thuật mạng học sâu Faster R-CNN và R-FCN để dò tìm và phân loại các tổn thương thường gặp trên gan. Kết quả thực nghiệm cho thấy, độ chính xác của mô hình dò tìm và phân loại tổn thương bằng mạng Faster R-CNN với mạng rút trích đặc trưng Inception-ResNet-V2 có trung bình mAP đo được là 96% và mạng R-FCN với mạng rút trích đặc trưng ResNet-101 trung bình mAP là 94%. Tuy nhiên, nghiên cứu này còn hạn chế về thời gian huấn luyện mô hình. Chúng tôi sẽ tiếp tục nghiên cứu các phương pháp cải tiến thời gian huấn luyện cho mô hình bằng phương pháp xử lí song song. VI. TÀI LIỆU THAM KHẢO [1] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137-1149, Jun. 2017. [2] J. Dai, Y. Li, K. He, and J. Sun, “R-FCN: Object Detection via Region-based Fully Convolutional Networks”, May 2016. [3] H. Sung et al., “Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries”, CA. Cancer J. Clin., vol. 71, no. 3, pp. 209-249, May 2021. [4] N. Tran Le and H. Viet Dao, “Colorectal Cancer in Vietnam,” in Colorectal Cancer [Working Title], vol. 418, IntechOpen, 2020, pp. 2020-2021. [5] P. F. Christ et al., “Automatic Liver and Lesion Segmentation in CT Using Cascaded Fully Convolutional Neural Networks and 3D Conditional Random Fields”, Oct. 2016. [6] W. Li, F. Jia, and Q. Hu, “Automatic Segmentation of Liver Tumor in CT Images with Deep Convolutional Neural Networks”, J. Comput. Commun., vol. 03, no. 11, pp. 146-151, Nov. 2015. [7] L. Ruskó and Á. Perényi, “Automated liver lesion detection in CT images based on multi-level geometric features”, Int. J. Comput. Assist. Radiol. Surg., vol. 9, no. 4, pp. 577-593, Jul. 2014. [8] K. C. Kaluva, M. Khened, A. Kori, and G. Krishnamurthi, “2D-Densely Connected Convolution Neural Networks for automatic Liver and Tumor Segmentation”, Jan. 2018. [9] Z. Liu et al., “Liver CT sequence segmentation based with improved U-Net and graph cut”, Expert Syst. Appl., vol. 126, pp. 54-63, Jul. 2019. [10] H. M. Taylor and P. R. Ros, “Hepatic imaging”, Radiol. Clin. North Am., vol. 36, no. 2, pp. 237-245, Mar. 1998. [11] G. J. Webb, T. P. Chapman, P. J. Cadman, and D. A. Gorard, “Pyogenic liver abscess”, Frontline Gastroenterol., vol. 5, no. 1, pp. 60-67, Jan. 2014. [12] K. W. Kim et al., “Hepatic Hemangiomas: Spectrum of US Appearances on Gray-scale, Power Doppler, and Contrast- Enhanced US”, Korean J. Radiol., vol. 1, no. 4, p. 191, 2000. [13] J. C. Delmoral, “Deep learning methods for multimodal hepatic lesion segmentation: Fusing functional and structural medical images”, 2017. [14] A. J. Prokop, Mathias, And Galanski, Michael, And Van Der Molen, Spiral and Multislice Computed Tomography of the Body. 2001. [15] W. Dähnert, Radiologi Review Manual, 7th ed. Lippincott Williams & Wilkins, 2011. [16] A. Adam and A. K. Dixon, Grainger & Allison’s Diagnostic Radiology, 6th ed. Churchill Livingstone, 2014. [17] M. P. Federle and Siva P. Raman, Diagnostic Imaging: Gastrointestinal, 3rd ed. Elsevier, 2015. [18] W. E. Bran, Fundamentals of Diagnostic Radiology, 4th ed. Lippincott Williams & Wilkin, 2012. [19] M. P. Federle, M. L. Rosado-de-Christenson, P. J. Woodward, G. F. Abbott, and A. M. Shaaban, Diagnostic and Surgical Imaging Anatomy: Chest, Abdomen, Pelvis: Published by Amirsys, 1st ed. Lippincott Williams & Wilkins, 2006. [20] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition”, in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2016, vol. 19, no. 2, pp. 770-778. [21] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning”, Feb. 2016. [22] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation”, in 2014 IEEE Conference on Computer Vision and Pattern Recognition, Jun. 2014, pp. 580-587. [23] R. Gandhi, “R-CNN, Fast R-CNN, Faster R-CNN, YOLO - Object Detection Algorithms”, 2018. [24] D. Zhou et al., “IoU Loss for 2D/3D Object Detection”, in 2019 International Conference on 3D Vision (3DV), Sep. 2019, pp. 85-94. [25] S. k and J. V, “Review on Performance Evaluation Techniques for Information Retrieval System”, Int. J. Eng. Trends Technol., vol. 27, no. 5, pp. 238-244, Sep. 2015.
Phan Anh Cang, Lê Thị Ngưu Huỳnh, Phan Thượng Cang 25 CLASSIFICATION OF THE LIVER LESIONS BY HOUNSFIELD VALUES AND DEEP LEARNING TECHNIQUES Phan Anh Cang, Le Thi Nguu Huynh, Phan Thuong Cang ABSTRACT: In recent years, the rate of people suffering from cancer is increasing, especially liver cancer. Therefore, the detection and classification of common liver lesions is essential for treating doctors. In fact, CT radiologists mainly rely on the Hounsfield Unit to determine the area of lesions on the liver, but previous studies have hardly paid much attention to this issue. In this paper, we propose a new approach that uses the Hounsfield Unit to accurately identify the lesion areas combined with the Faster R-CNN, R-FCN deep learning networks to detect and classify the lesions on the liver. The proposed method is based on the density variation of Hounsfield Unit on CT images in the periods taken before and after contrast agent injection to identify the lesion areas on the liver accurately to support the data labeling. Deep learning network techniques such as Faster R-CNN and R- FCN are used for automatic detection and classification of these liver lesions. Experimental results show that the proposed method with Faster R-CNN network model has higher accuracy than R-FCN network model with measured mAP of 96%. Our method effectively supports doctors to locate and classify lesions to have timely treatment for patients.