Cải tiến tra cứu ảnh thông qua kết hợp các bộ phân lớp không gian con ngẫu nhiên

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

21
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả gọi là RFRS (Image retrieval using relevance feedback with random subspace), cho phép nâng cao hiệu năng của hệ thống tra cứu ảnh thông qua việc giải quyết vấn đề quá khớp.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Cải tiến tra cứu ảnh thông qua kết hợp các bộ phân lớp không gian con ngẫu nhiên

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00010 CẢI TIẾN TRA CỨU ẢNH THÔNG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, An Hồng Sơn2, Đào Thị Thúy Quỳnh3 1 Khoa Công nghệ thông tin, Trường Đại học Điện lực, 2 Trường Đại học Công nghiệp Việt Hung, 3 Khoa Công nghệ thông tin, Trường Bưu chính Viễn thông dungcv@epu.edu.vn, nhquynh@epu.edu.vn, sonanhongvh@gmail.com, thuyquynhtn90@gmail.com TÓM TẮT: Đã có nhiều phương pháp tra cứu ảnh phản hồi liên quan dựa vào phân lớp sử dụng máy véc tơ hỗ trợ (SVM). Tuy nhiên, các phương pháp này chưa đề cập tới vấn đề quá khớp với mẫu phản hồi dẫn đến độ chính xác thấp. Trong bài báo này, chúng tôi đề xuất một phương pháp tra cứu ảnh phản hồi liên quan hiệu quả gọi là RFRS(Image retrieval using relevance feedback with random subspace), cho phép nâng cao hiệu năng của hệ thống tra cứu ảnh thông qua việc giải quyết vấn đề quá khớp. Phương pháp của chúng tôi xây dựng nhiều bộ phân lớp máy véc tơ hỗ trợ dùng không gian con ngẫu nhiên thay vì một bộ và tổ hợp chúng thành một luật quyết định mạnh. Chúng tôi cũng cung cấp các kết quả thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra độ chính xác của phương pháp Từ khóa: Tra cứu ảnh dựa vào nội dung, không gian con, máy véc tơ hỗ trợ, phản hồi liên quan, quá khớp. I. GIỚI THIỆU Trong những thập kỷ vừa qua, tra cứu ảnh dựa vào nội dung (CBIR) đã thu hút nhiều sự quan tâm của nhiều nhà nghiên cứu [1, 2, 6, 7]. Các hệ thống CBIR truyền thống thường đo độ tương tự giữa ảnh truy vấn và các ảnh trong cơ sở dữ liệu bằng cách đo độ đo khoảng cách trong một không gian nhiều chiều [1, 2, 6, 7]. Tuy nhiên, bằng cách đo độ đo khoảng cách này trong không gian nhiều chiều thường không hiệu quả do khoảng trống giữa các đặc trưng mức thấp và các khái niệm ngữ nghĩa mức cao. Để thu hẹp khoảng trống ngữ nghĩa, các máy tính phải có khả năng học các đặc trưng mà mô tả tốt nhất các bức ảnh trong suy nghĩ của người dùng trực tuyến; và kỹ thuật phản hồi liên quan được giới thiệu như một công cụ mạnh để tăng cường hiệu năng của CBIR [10, 13]. Huang và cộng sự đã giới thiệu cả hai kỹ thuật đánh lại trọng số và dịch chuyển điểm truy vấn [8, 12]. Một ánh xạ tự tổ chức được sử dụng để xây dựng các thuật toán RF [4]. Trong [11], máy véc tơ hỗ trợ (SVM) một lớp đánh giá mật độ của các mẫu phản hồi tích cực. Tuy nhiên, tất cả các phương pháp này có một số giới hạn. Chẳng hạn, phương pháp trong [8] và [12] được dựa vào kinh nghiệm, phương pháp ước lượng mật độ trong [11] bỏ qua mọi thông tin chứa trong các mẫu phản hồi tiêu cực. Tuy nhiên, RF rất khác so với bài toán phân lớp truyền thống bởi vì các phản hồi được cung cấp bởi người dùng thường bị giới hạn trong các hệ thống tra cứu ảnh thực. Do đó, các phương pháp học mẫu nhỏ là hứa hẹn cho RF. Khi dữ liệu có chiều cao và cỡ của mẫu huấn luyện là nhỏ so với chiều của dữ liệu, nó khó có thể xây dựng một bộ phân lớp tốt. Thông thường, một bộ phân lớp được xây dựng trên các tập dữ liệu huấn luyện nhỏ sẽ bị lệch và có có sai số lớn do các tham số phân lớp bị ước lượng nghèo nàn. Do đó, một bộ phân lớp như thế có thể là yếu, có một hiệu năng nghèo [9]. Hơn nữa, thường nó sẽ không ổn định: các thay đổi nhỏ trong tập huấn luyện gây ra các thay đổi lớn trong bộ phân lớp. Nói chung, hiệu năng thấp của một bộ phân lớp có thể do các nhân tố khác nhau: các giả thiết về mô hình không chính xác khi xây dựng bộ phân lớp; các thiết lập cho các tham số phân lớp không chính xác; không ổn định của bộ phân lớp; các bộ phân lớp phụ thuộc vào các mô hình được giả thiết nào đó không luôn đúng. Tuy nhiên, trong tất cả các trường hợp khi có ý định cải tiến một “bộ phân lớp yếu”, người ta thường cải tiến hiệu năng của nó. Do đó, mô tả một “bộ phân lớp yếu” như một bộ phân lớp mà có một hiệu năng nghèo nàn dường như là một định nghĩa chung nhất. Để cải tiến một bộ phân lớp yếu (một bộ phân lớp mà có hiệu năng nghèo), người ta có thể sử dụng các cách tiếp cận khác nhau. Một cách là ổn định sự quyết định của một bộ phân lớp yếu (do bộ phân lớp yếu thường không ổn định) theo quy tắc (regularisation) [5] hoặc tiêm nhiều (noise injection) [3]. Cách tiếp cận khác là xây dựng nhiều bộ phân lớp yếu thay vì một bộ và tổ hợp chúng thành một luật quyết định mạnh. Chúng tôi sẽ trình bày phương pháp tra cứu ảnh mà kết hợp không gian con ngẫu nhiên và máy véc tơ hỗ trợ tạo ra nhiều bộ phân lớp yếu cùng một luật quyết định mạnh cho phép nâng cao độ chính xác hệ thống tra cứu ảnh. Phần còn lại bài báo này được tổ chức như sau: Trong phần II, chúng tôi trình bày phương pháp tra cứu ảnh đề xuất. Phần III mô tả các thực nghiệm độ chính xác của chúng tôi và thảo luận các kết quả. Cuối cùng, chúng tôi đưa ra kết luận trong phần IV.
Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh 73 II. PHƢƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT Trong phần này, đầu tiên chúng tôi trình bày cách đo độ khác nhau giữa một mẫu được cho và ảnh truy vấn trong phản hồi liên quan dựa vào máy véc tơ hỗ trợ truyền thống. Sau đó, trình bày chi tiết phương pháp đề xuất kết hợp các bộ phân lớp với không gian con ngẫu nhiên cùng sơ đồ của phương pháp. 1. Máy véc tơ hỗ trợ Đối với tập dữ liệu huấn luyện D ={ }, là véc tơ đặc trưng trong không gian , m là số chiều của không gian, cùng các nhãn tương ứng của chúng , . Khoảng cách từ một điểm tới một siêu mặt phẳng. Trong không gian 2 chiều, ta biết rằng khoảng cách từ một điểm có toạ độ tới đường thẳng có phương trình được xác định bởi: Việc này có thể được tổng quát lên không gian nhiều chiều: Khoảng cách từ một điểm (vector) tới siêu mặt phẳng (hyperplane) có phương trình được xác định bởi: SVM (Support Vector Machines) [2, 4] là một thuật toán phân lớp nhị phân rất hiệu quả. Xét bài toán phân lớp nhị phân tách được tuyến tính (như Hình 1): Hình 1. SVM cho bài toán phân lớp nhị phân tách được tuyến tính. và (1) ở đây là một véc tơ n chiều và là nhãn của lớp mà véc tơ thuộc về. SVM tách hai lớp bởi một siêu phẳng, (2) ở đây x là một véc tơ đầu vào, w là một véc tơ trọng số thích nghi, và b là độ lệch. SVM tìm các tham số w và b cho siêu phẳng tối ưu để cực đại lề hình học , thỏa mãn (3) Nghiệm có thể tìm được thông qua bài toán đối ngẫu Lagrangian: (4) S.t , Trong dạng đối ngẫu, các điểm dữ liệu chỉ xuất hiện dưới dạng tích vô hướng. Để nhận được biểu diễn dữ liệu tốt hơn, các điểm dữ liệu được ánh xạ sang một không gian tích vô hướng Hilbert thông qua một phép thế: (5) ở đây K(.) là một hàm nhân. Sau đó chúng ta nhận được phiên bản nhân của bài toán đối ngẫu Wolfe: (6) Do đó, với một hàm nhân được cho, bộ phân lớp SVM được cho bởi
74 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN (7) ở đây là hàm quyết định siêu phẳng đầu ra của SVM. Nhìn chung, khi với một mẫu đã cho là cao, giá trị dự đoán tương ứng sẽ cao. Trong khi, một của một mẫu được cho là thấp có nghĩa rằng mẫu gần với biên quyết định và giá trị dự đoán tương ứng của nó sẽ là thấp. Do đó, đầu ra của SVM, , được sử dụng để đo độ khác nhau [3,5] giữa một mẫu được cho và ảnh truy vấn, trong phản hồi liên quan dựa vào SVM truyền thống. Điều này làm cho SVM có thể giúp sinh ra các trọng số ưa thích tự động cho các ảnh liên quan. Các mẫu tích cực càng xa siêu phẳng tách, càng phân biệt so với các mẫu tiêu cực. Do đó, các ảnh được người dùng ưa thích sẽ được gán các trọng số lớn hơn 2. Thuật toán kết hợp các bộ phân lớp với không gian con ngẫu nhiên. Phương pháp không gian con ngẫu nhiên là kỹ thuật kết hợp được đề xuất bởi Ho [9]. Phương không gian con ngẫu nhiên điều chỉnh dữ liệu huấn luyện trong không gian đặc trưng. Giả sử mỗi ví dụ huấn luyện trong tập ví dụ huấn luyện là một véc tơ gồm p chiều, tức là . Phương pháp lựa chọn ngẫu nhiên r đặc trưng (r
Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh 75 D ← RetrievalTop (Q, NTopL , DB); do { D+ ← MarkRelevance(D); ← SetLabel(D+, 1); D ← MarkIrrelevance(D); - ← SetLabel (D-, -1); X←D + D ; - Xlabel ← ; for i 1 to DB.Count do label, weight> ← ClassificationUseRandomSubspace (X, X label, , r, K); D ← Ranking(DB , DBweight, NTopL); label } while (thỏa mãn nhu cầu người dùng); Hình 3. Thuật toán tra cứu ảnh RFRS Thuật toán RFRS trên Hình 3 đƣợc thực hiện nhƣ sau: Đầu tiên, khi người dùng gửi vào một truy vấn trên giao diện truy vấn bởi mẫu, thuật toán sẽ lấy được tập ảnh D gồm NTopL ảnh đầu tiên được phân hạng đầu tiên trong toàn bộ cơ sở dữ liệu DB thông qua hàm RetrievalTop(). Bước tiếp được lặp lại cho đến khi người dùng thu được tập D thỏa mãn nhu cầu. Nếu chưa thỏa mãn, các ảnh trong tập D sẽ được người dùng gán nhãn lựa chọn ảnh nào liên quan mang nhãn +1, không liên quan mang nhãn -1 thông qua các hàm MarkRelevance, MarkIrrelevance và SetLabel. Thuật toán sẽ gộp cả hai tập liên quan và không liên quan này thu được tập huấn luyện X cùng nhãn tương ứng Xlabel. Đến lúc này thuật toán sẽ kết hợp nhiều bộ phân lớp sử dụng K không gian con ngẫu nhiên với r chiều của tập mẫu huấn luyện X để dự đoán nhãn và tính toán trọng số của từng ảnh trong cơ sở dữ liệu DB. Các ảnh trong cơ sở dữ liệu sau đó được phân hạng dựa vào nhãn cùng trọng số đã được tính toán trước đó thông qua hàm ClassificationUseRandomSubspace để lấy ra NTopL ảnh đầu tiên sau khi phân hạng. Quá trình tra cứu ảnh đề xuất được mô hình hóa như sơ đồ Hình 4 Tra cứu khởi tạo Tập kết quả tra cứu khởi tạo Tập phản hồi Tập huấn luyện phản hồi Không gian con ngẫu Không gian con ngẫu Không gian con ngẫu nhiên 1 nhiên 2 nhiên K Bộ phân lớp SVM 1 Bộ phân lớp SVM 2 Bộ phân lớp SVM K Tổ hợp các bộ phân lớp thành luật quyết định Tra cứu ảnh theo luật quyết định mạnh Tập kết quả Tập kết quả cuối cùng Hình 4. Sơ đồ của phương pháp tra cứu ảnh kết hợp không gian con ngẫu nhiên với SVM Sơ đồ trên Hình 4 hoạt động như sau: Đầu tiên người dùng đưa vào một ảnh truy vấn, hệ thống sẽ so sánh đặc trưng của ảnh truy vấn với đặc trưng tương ứng của mỗi ảnh trong cơ sở dữ liệu để trả lại một tập các ảnh kết quả (gọi
76 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN là tập kết quả tra cứu khởi tạo). Trên tập kết quả khởi tạo, người dùng sẽ gán nhãn các ảnh là tích cực hay tiêu cực. Sau khi phản hồi của người dùng, chúng ta sẽ có một tập các ví dụ huấn luyện. Để khắc phục sự quá khớp, chúng ta dùng K không gian con ngẫu nhiên. Với mỗi không gian trong K không gian con ngẫu nhiên, chúng ta xây dựng một bộ phân lớp. Tiếp theo, dựa trên các bộ phân lớp đã có, chúng ta có tổ hợp các bộ phân lớp. Sau đó, chúng ta thực hiện tra cứu ảnh với tổ hợp các bộ phân lớp theo nguyên tắc bầu cử để được tập các kết quả. Quá trình này được lặp lại cho đến khi người dùng dừng phản hồi. Chúng ta có một tập ảnh kết quả cuối cùng. III. ĐÁNH GIÁ THỰC NGHIỆM A. Môi trường thực nghiệm 1. Cơ sở dữ liệu ảnh: Trong thực nghiệm, chúng tôi sử dụng tập dữ liệu ảnh màu là tập con của tập Corel gồm 10800 ảnh để đánh giá độ chính xác của phương pháp đề xuất. Các ảnh này được chia làm 80 chủ đề khác nhau như ngựa, hoa, hoàng hôn, tàu hỏa, xe hơi, xe buýt. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng tiền cảnh nổi bật. Đa số mỗi nhóm đều gồm 100 ảnh, có một vài nhóm có hơn 100 hình ảnh. Cỡ của các ảnh có max (chiều rộng, chiều cao)=120 và min (chiều rộng, chiều cao)=80 2. Véc tơ đặc trưng: Đặc trưng chúng tôi sử dụng gồm hai loại đặc trưng: đặc trưng màu và kết cấu (xem chi tiết Bảng 1). Bảng 1. Các loại đặc trưng Các loại đặc trƣng Tên đặc trƣng Độ dài Lược đồ màu hsvHistogram 32 Loại đặc trưng Tương quan màu color auto correlogram 64 màu Mô men màu colorMoments 6 Loại đặc trưng kết Biến đổi wavelet waveletTransform 40 cấu gabor Wavelet gaborWavelet 48 Đối với đặc trưng màu chúng tôi trích rút 03 loại đặc trưng màu: đặc trưng màu đầu tiên là đặc trưng lược đồ màu HSV được tính, trong đó kênh hue được lượng hóa thành 8 bin, cả hai kênh S và V đều được lượng hóa thành 2 bin do đó đặc trưng này có độ dài 32 chiều (8x2x2). Đặc trưng tiếp theo được chúng tôi trích rút là đặc trưng tương quan màu có độ dài 64 chiều (4x4x4) trong không gian RGB. Đặc trưng cuối cùng là đặc trưng mô men màu trong không gian RGB, trong đó gồm 2 mô men: trung bình màu, độ lệch chuẩn trên mỗi kênh màu, do đó có độ dài 6 chiều (2x3). Đặc trưng kết cấu chúng tôi trích rút hai loại đặc trưng gồm: đặc trưng Gabor và đặc trưng biến đổi wavelet. Đầu tiên, đặc trưng biến đổi wavelet có độ dài 40 chiều (2x20) gồm hai gắn kết trung bình, độ lệch chuẩn.. Cuối cùng, đặc trưng kết cấu Gabor với độ dài 48 chiều (2x4x6) được trích rút gồm 4 tỷ lệ, 6 hướng với Mean-squared energy và meanAmplitude sau khi chuyển ảnh thành ảnh đa cấp xám. Kết hợp các loại đặc trưng trên thành một véc tơ đặc trưng có độ dài 190 chiều (tức là 32+64+6+48+40 = 190). 3. Biểu diễn ảnh: Mỗi ảnh được sử dụng biểu diễn bởi năm đặc trưng trực quan gồm ba đặc trưng màu và hai đặc trưng kết cấu. Các véc tơ đặc trưng tương ứng với mỗi kênh là một bảng hai chiều gồm 10800 dòng (mỗi dòng chứa một véc tơ đặc trưng của ảnh) và 190 cột (độ dài tổng của một véc tơ đặc trưng). 4. Tập tin cậy nền (ground truth): Tập tin cậy nền Corel được sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 3 cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1981320 dòng. B. Chiến lược mô phỏng phản hồi liên quan Để bắt chước hành vi của con người, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm. Đầu tiên, một truy vấn khởi tạo sẽ được thực hiện để tạo ra kết quả truy vấn khởi tạo đồng thời tính toán độ chính xác thu được với phương thức tra cứu ảnh truyền thống Basic IR. Tiếp theo chúng tôi mô phỏng tương tác người dùng bằng việc chọn 100 ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào tập tin cậy nền. Lúc này chúng tôi chọn các ảnh liên quan trong 100 ảnh đó cũng dựa vào tập tin cậy nền nghĩa là chúng có cùng khái niệm ngữ nghĩa với ảnh truy vấn hay không? Sau đó hai tập ảnh liên quan và không liên quan được tạo ra: các ảnh được chọn mang nhãn +1 còn những ảnh còn lại sẽ được gán nhãn -1. Hai tập ảnh này được chúng tôi sử dụng làm tập huấn luyện. Số không gian con ngẫu nhiên được sử dụng đối với tập mẫu huấn luyện trong thực nghiệm là 15 (K = 15) với 143 chiều (r = 143).
Cù Việt Dũng, Nguyễn Hữu Quỳnh, An Hồng Sơn, Đào Thị Thúy Quỳnh 77 Tập ảnh kết quả thu được sau khi lấy 100 ảnh được phân hạng đầu tiên theo nhãn và trọng số của mỗi ảnh trong cơ sở dữ liệu được tính toán thông quan kết hợp 15 bộ phân lớp sử dụng không gian con ngẫu nhiên với 143 chiều theo luật quyết định mạnh. Chúng tôi tính toán kết quả độ chính xác tra cứu ảnh với phương pháp đề xuất RFRS, đồng thời độ chính xác phương pháp RFSVM cũng được tính toán khi thực hiện huấn luyện tập mẫu huấn luyện ban đầu thông qua bộ phân lớp SVM hai lớp và phân hạng các ảnh trong cơ sở dữ liệu theo biên quyết định thi được sau khi huấn luyện. Tất cả 10800 ảnh trong tập ảnh được dùng làm các truy vấn. Độ chính xác trung bình ở mức 100 ảnh trả về được sử dụng để đánh giá. Ba phương pháp khác nhau được sử dụng để so sánh bao gồm Basic IR (hệ thống CBIR truyền thống), RFSVM, với hệ thống RFRS mà chúng tôi đề xuất Có nhiều chỉ số đánh giá khác nhau được đề xuất để đánh giá hiệu quả của các hệ thống CBIR, chúng tôi sử dụng độ đo cơ bản là độ chính xác (thực nghiệm là 100 ảnh trả về). Các kết quả, độ chính xác trung bình của 10800 truy vấn, được thể hiện bằng số liệu trong Bảng 2 và bằng đồ thị trong Hình 5 ở dưới. Do giới hạn về không gian bài báo, chúng tôi chỉ trình bày trong bài báo này độ chính xác trung bình của từng phương pháp còn chi tiết về độ chính xác trung bình của từng 80 loại truy vấn xem tại địa chỉ http://117.6.134.238:368/results/RFRS.html Bảng 2. Bảng kết quả của 3 phương pháp Phƣơng pháp Basic IR RFSVM RFRS Precision (%) 18.87 32.59 32.97 Hình 5. So sánh độ chính xác Nhìn vào kết quả thực nghiệm trên Hình 5 chúng tôi có thể đưa ra các kết luận: Độ chính xác của phương pháp đề xuất tăng thêm 14.1% so với phương pháp tra cứu truyền thống. Độ chính xác phương pháp chúng tôi cũng tăng đáng kể 0.38% so với độ chính xác khi chỉ phân lớp trên kết quả của tra cứu truyền thống. IV. KẾT LUẬN Chúng tôi đã đề xuất phương pháp tra cứu ảnh dựa vào nội dung cho cải tiến độ chính xác tra cứu của các hệ thống tra cứu phản hồi liên quan sử dụng SVM truyền thống. Phương pháp của chúng tôi quan tâm đến việc quá khớp trong quá trình huấn luyện làm cho hiệu quả của hệ thống thấp. Để giải quyết vấn đề này, chúng tôi tạo ra nhiều bộ phân lớp sử dụng các không gian con ngẫu nhiên khác nhau để huấn luyện với tập mẫu thu được từ thông tin phản hồi của người dùng tại mỗi lần lặp. Trên cơ sở giải quyết vấn đề quá khớp, phương pháp của chúng tôi tổ hợp kết quả của các bộ phân lớp yếu thành một luật quyết định mạnh thu được tập ảnh kết quả có liên quan ngữ nghĩa với ảnh truy vấn. Kết quả thực nghiệm của chúng tôi trên cơ sở dữ liệu đặc trưng gồm 10800 ảnh đã chỉ ra rằng phương pháp được đề xuất RFRS cung cấp một độ chính xác cao hơn hẳn so với các phương pháp Basic IR (hệ thống CBIR truyền thống), RFSVM V. TÀI LIỆU THAM KHẢO [1] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain, “Content-based image retrieval at the end of the early years,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pp. 1349 -1380, Dec. 2000.
78 CẢI TIẾN TRA CỨU ẢNH THONG QUA KẾT HỢP CÁC BỘ PHÂN LỚP KHÔNG GIAN CON NGẪU NHIÊN [2] D. Tao, X. Tang, X. Li, and Y. Rui, “Direct kernel biased discriminant analysis: a new content-based image retrieval relevance feedback algorithm,” IEEE Transactions on Multimedia, vol. 8, no. 4, pp. 716 -727, 2006. [3] G. An, “The effects of adding noise during backpropagation training on a generalization performance”, Neural Computation 1996; 8: 643-674. [4] J. Laaksonen, M. Koskela, and E. Oja, “PicSOM: Self-organizing maps for content-based image retrieval”, inProc. IJCNN, Washington, DC, 1999, pp. 2470-2473. [5] JH. Friedman, “Regularized discriminant analysis”. J Am Statistical Assoc 1989; 84: 165-175. [6] L. Shao, F. Zhu, and X. Li, “Transfer learning for visual categorization: A survey,” IEEE Transactions on Neural Networks and Learning Systems, vol. 26, no. 5, pp. 1019-1034, May 2015. [7] R. Datta, D. Joshi, J. Li, and J. Z. Wang, “Image retrieval: ideas, influences, and trends of the new age,” ACM Computing Surveys, vol. 40, no. 2, pp. 1-60, May 2008. [8] T. S. Huang and X. S. Zhou, “Image retrieval by relevance feedback: From heuristic weight adjustment to optimal learning methods,” in Proc. IEEE ICIP, Thessaloniki, Greece, Oct. 2001, pp. 2-5. [9] T. K. Ho, “The Random subspace method for constructing decision forests”, IEEE Trans Pattern Analysis and Machine Intelligence 1998; 20(8): 832-844. [10] X. Zhou and T. Huang, “Relevance feedback for image retrieval: A comprehensive review,”Multimedia Syst., vol. 8, no. 6, pp. 536-544, Apr. 2003. [11] Y. Chen, X.-S. Zhou, and T.-S. Huang, “One-class SVM for learning in image retrieval,” inProc. IEEE ICIP, 2001, pp. 815-818. [12] Y. Rui, T. S. Huang, and S. Mehrotra, “Content-based image retrieval with relevance feedback in MARS”, inProc. IEEE Int. Conf. Image Process, 1997, vol. 2, pp. 815-818. [13] Y. Rui, T.S. Huang, Ortega M and Mehrotra S. "Relevance feedback: A power tool in interactive contentbased image retrieval". IEEE Tran. Circuits and Systems for Video Tech. 8(5): 644-655, Sep. 1998. IMPROVED IMAGE RETRIEVAL THROUGH A COMBINATION OF RANDOM SUBSPACE CLASSIFIERS Cu Viet Dung, Nguyen Huu Quynh, An Hong Son, Dao Thi Thuy Quynh ABSTRACT: There have been many methods image retrieval with relevance feedback using Support Vector Machines SVM. However, these methods have not interested to overfitting with feedback examples so low accuracy. In this paper, we propose an effective image retrieval with relevance feedback method, called RFRS(Image retrieval using relevance feedback with random subspace), which improves the accuracy of image retrieval systems through solving the problem overfitting. Our method is to build multiple SVM classifiers use of random space instead of one, and combine them into a strong decision rule. We also provided empirical results on a database of 10,800 images to show the accuracy of the method Keywords: Content based image retrieval, subspace, Support Vector Machines, relevance feedback, overfitting.