Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:7

Thêm vào BST

Báo xấu

46
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này giới thiệu tổng quan các giải thuật phát hiện chữ viết trong ảnh của các ngôn ngữ có dấu trên thế giới để cung cấp các hướng nghiên cứu đối với bài toán phát hiện chữ viết tiếng Việt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu

Thông tin khoa học công nghệ CÁC GIẢI THUẬT PHÁT HIỆN CHỮ VIẾT ĐỐI VỚI CÁC NGÔN NGỮ CÓ DẤU Lê Ngọc Thúy* Tóm tắt: Có rất nhiều nghiên cứu trong thời gian gần đây về vấn đề phát hiện và nhận dạng chữ viết trong ảnh và video. Tuy nhiên, hầu hết các nghiên cứu này tập trung vào giải quyết bài toán đối với chữ viết tiếng Anh mà có rất ít nghiên cứu dành cho chữ viết của các ngôn ngữ khác. Trong khi đó, chữ viết có dấu là một vấn đề phức tạp để có thể định vị và nhận dạng chính xác do phần dấu thường nằm tách biệt so với phần chính của ký tự. Bài báo này giới thiệu tổng quan các giải thuật phát hiện chữ viết trong ảnh của các ngôn ngữ có dấu trên thế giới để cung cấp các hướng nghiên cứu đối với bài toán phát hiện chữ viết tiếng Việt. Từ khóa: OCR, Phát hiện chữ viết trong ảnh chụp, Nhận dạng chữ viết trong ảnh chụp. 1. GIỚI THIỆU Bài toán nhận dạng văn bản trong ảnh quét (Optical Character Recognition – OCR) là vấn đề đã được giải quyết tốt với nhiều sản phẩm thương mại trên thị trường. Tuy nhiên, phát hiện và nhận dạng chữ viết trong ảnh chụp là một vấn đề còn có nhiều thách thức và đang rất được các nhà khoa học quan tâm trong thời gian gần đây. Vấn đề này có những nét tương đồng nhưng gặp nhiều thách thức hơn so với bài toán OCR do các nguyên nhân sau: (i) Sự phức tạp của khung cảnh trong ảnh: có rất nhiều vật thể, biểu tượng, tranh ảnh,... xen lẫn vào trong khung cảnh của ảnh chụp tự nhiên với những họa tiết, cấu trúc và đặc trưng tương tự như chữ viết; (ii) Ảnh bị mờ, kém chất lượng do camera focus không đúng; (iii) Độ sáng trong ảnh không đồng đều; (iv) Chữ viết bị biến dạng do trục quang học của camera không vuông góc với mặt phẳng chữ viết. Bài toán nhận dạng chữ viết trong ảnh chỉ mới nhận được nhiều sự quan tâm của các học giả gần đây nhờ vào sự phát triển của các thiết bị di động về cả khả năng thu nhận hình ảnh và khả năng xử lý, tính toán. Kết quả của cuộc thi đọc máy ICDAR 2015 cho thấy: kết quả phát hiện và nhận dạng chữ viết còn thấp với trường hợp ảnh chụp ở góc độ bất kỳ. Khả năng nhận dạng chữ viết tốt nhất trong cuộc thi với ngữ cảnh tổng quát là 12,37% (các nghiên cứu khác cung cấp kết quả cao hơn sau cuộc thi đạt khả năng nhận dạng dưới 50%). Có nhiều bài báo tổng quan về các nghiên cứu trong lĩnh vực này trong thời gian gần đây. Nổi bật nhất là bài giới thiệu tổng quan gần đây của Q. Ye và D. Doermann [1] với hơn 200 bài báo tham khảo được phân loại một cách tổng quát thành hai nhóm. Nhóm thứ nhất bao gồm các giải thuật thực hiện các giai đoạn xác định vị trí có chữ viết trong ảnh, phân đoạn ký tự và nhận dạng ký tự một cách riêng rẽ dựa vào các mô-đun độc lập. Nhóm thứ hai bao gồm các giải thuật tiến hành các nhiệm vụ kể trên theo phương pháp tổng thể, thống nhất. Đối với mỗi nhóm, các phương pháp lại được phân chia theo các hướng tiếp cận khác nhau. Y. Zhu và các tác giả đưa ra bức tranh tổng quan khác về vấn đề phát hiện và nhận dạng chữ viết trong thời gian gần đây [2]. Bài báo tập trung vào giới thiệu các Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 163 Kỹ thuật điều khiển & Điện tử giải thuật phát hiện và nhận dạng chữ viết đối với ảnh tĩnh. Ưu điểm của bài báo là đã nêu ra được các điểm mạnh và điểm yếu đối với một số các giải thuật tiêu biểu cho mỗi dạng bài toán. Đối với việc phát hiện chữ viết, các giải thuật có thể phân chia thành các hướng nghiên cứu chính như sau: - Hướng nghiên cứu dựa trên dạng hoa văn: các giải thuật phát triển theo hướng nghiên cứu này xem chữ viết là một dạng hoa văn đặc biệt và sử dụng các tính chất của hoa văn này để phân biệt giữa vùng có chữ viết và vùng không có chữ viết. Phương pháp này thường sử dụng cửa sổ quét dọc theo ảnh để rút trích ra các tính chất hoa văn trong toàn bộ ảnh. Nhược điểm của hướng tiếp cận dựa trên hoa văn là yêu cầu về khả năng tính toán lớn, dễ bị ảnh hưởng với hướng và kích cỡ của chữ viết. - Hướng nghiên cứu dựa trên các thành phần liên kết: hướng nghiên cứu này phân tích ảnh thành các thành phần liên kết với nhau, với mỗi nhóm liên kết được gán chung một nhãn duy nhất dựa vào sự tương tự về màu sắc hay khoảng cách trong không gian của các điểm ảnh. Sau đó, các giải thuật đề xuất các quy luật hoặc sử dụng bộ phân loại để phân biệt các vùng chứa chữ viết so với các vùng không chứa chữ viết. Hướng nghiên cứu này đang được quan tâm trong thời gian gần đây do yêu cầu tính toán ít hơn và thường ít bị ảnh hưởng bởi hướng và kích cỡ của chữ viết trong ảnh. - Bên cạnh đó, một số giải thuật tiếp cận bài toán theo hướng tích hợp, sử dụng nhiều dạng đặc trưng khác nhau để xác định vùng có chữ viết ở trong ảnh. Mặc dù vấn đề nhận dạng chữ viết trong ảnh/video đã nhận được rất nhiều sự quan tâm của các nhà nghiên cứu trong thời gian qua nhưng hầu hết các kết quả nghiên cứu đều tập trung vào việc phát hiện và nhận dạng chữ viết đối với tiếng Anh. Kết quả của cuộc thi nhận dạng chữ viết ICDAR 2013 nhấn mạnh rằng phần lớn các dấu chấm trong hai chữ cái “i” và “j” khi viết ở dạng chữ thường bị mất đi trong quá trình nhận dạng của các giải thuật. Do đó, nếu sử dụng trực tiếp các giải thuật này vào việc phát hiện và nhận dạng chữ viết tiếng Việt nói riêng, hay các ngôn ngữ có dấu nói chung, sẽ gặp khó khăn trong việc tách biệt và nhận dạng đúng các ký tự, chữ có dấu của các ngôn ngữ đó. Các bài phân tích tổng quan các giải thuật nhận dạng chữ viết trong ảnh trước đây chưa đề cập đến những vấn đề chi tiết trong phát hiện và nhận dạng của các ngôn ngữ khác. Bài báo này sẽ tập trung vào giới thiệu các giải thuật nhận dạng chữ viết trong ảnh và video của các ngôn ngữ có dấu trên thế giới để cung cấp thêm các cơ sở khoa học, hỗ trợ trong định hướng phát triển các giải thuật phát hiện, tách biệt chữ viết tiếng Việt trong ảnh và video. Phần 2 của bài báo sẽ giới thiệu một số công trình nghiên cứu phát hiện và nhận dạng chữ viết trong ảnh đối với một số ngôn ngữ có dấu trên thế giới như tiếng Ả-rập, tiếng Thái, tiếng Urdu. Phần 3 sẽ trình bày một số giải thuật xử lý đa ngôn ngữ. Cuối cùng, bài báo đưa ra một số kết luận và đề xuất cho việc nghiên cứu phát hiện và nhận dạng chữ viết tiếng Việt trong ảnh. 2. CÁC GIẢI THUẬT XỬ LÝ CHỮ VIẾT CÓ DẤU 2.1. Chữ viết Ả-rập 164 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” Thông tin khoa học công nghệ Phần này giới thiệu một số nghiên cứu trong lĩnh vực định vị và nhận dạng chữ viết Ả-rập trong hình ảnh và video [3, 4, 5, 7, 8, 9]. Fathalla, R. và các tác giả [3] đề xuất giải thuật để tách biệt phần chữ viết Ả- rập ra khỏi phần nền phức hợp phía sau từ một ảnh màu. Giải thuật sử dụng phương pháp các thành phần liên kết (Connected Components) sử dụng biến đổi Watershed từ ảnh màu RGB. Các vùng ảnh phân chia dựa trên biến đổi Watershed sẽ được nối lại với nhau dựa trên tính đồng nhất của vùng ảnh đấy. Sau đó, các vùng ảnh này được phân loại thành vùng chứa chữ viết Ả-rập hay không sử dụng phương pháp SVM (Support Vector Machine). Giải thuật M1 [4] là một trong các nghiên cứu gần đây định vị chữ viết Ả-rập trong video sử dụng phương pháp học máy. Nghiên cứu đã đề xuất hai giải thuật khác nhau sử dụng đặc trưng Haar-like và đặc trưng họa tiết các khối nhị phân (Multi-Block Local Binary Patterns - MBLBP) làm đầu vào của mạng nơ-ron để xây dựng các bộ phân loại vùng có chữ viết và vùng không có chữ viết. Giải thuật sử dụng các cửa sổ trượt với các kích thước khác nhau quét dọc theo khung hình để nhận biết mỗi vùng ảnh có chữ viết hay không. Kết quả thử nghiệm đối với các video lấy từ các kênh tin tức tiếng Ả-rập cho thấy giải thuật sử dụng đặc trưng họa tiết các khối nhị phân có kết quả định vị vùng có chữ viết Ả-rập tốt hơn giải thuật sử dụng đặc trưng Haar-like. Tuy nhiên, độ định vị chính xác cũng không vượt quá bảy mươi hai phần trăm. Đối với bài toán định vị và nhận dạng chữ viết Ả-rập trong video có thể kể đến các nghiên cứu của Halima và các tác giả [6]. Nghiên cứu này có ưu điểm là giải thuật xử lý phân đoạn video trước khi định vị chữ viết trong khung hình. Để phân đoạn video, các khung hình sẽ được nhóm lại thành các nhóm chính dựa trên kỹ thuật nhận dạng khuôn mặt. Giải thuật cũng sử dụng phương pháp tích hợp nhiều khung hình (Multiple Frames Integration - MFI) để tối thiểu sự thay đổi của cảnh nền. Nghiên cứu sử dụng các trích chọn đặc trưng được xây dựng dựa trên cường độ sáng của ảnh màu (trong không gian HSV) và dựa trên các đường biến (xác định bằng toán tử Sobel) để làm đầu vào cho mạng nơ-ron phân loại vùng có chữ viết và vùng không có chữ viết. Kết quả định vị chữ viết Ả-rập của phương pháp này tương đối khả quan với độ chính xác định vị đạt xấp xỉ chín mươi phần trăm. 2.2. Chữ viết Thái Lan Việc phát hiện và nhận dạng chữ viết Thái trong ảnh có nhiều điểm khác biệt so với phát hiện và nhận dạng chữ viết tiếng Anh. Tuy nhiên, hiện vẫn còn rất ít nghiên cứu đóng góp cho vấn đề này [10, 11, 13, 15, 16, 17]. Wittaya và các tác giả đề xuất giải thuật phát hiện và tách biệt chữ viết Thái tự động dựa vào các thành phần liên kết xây dựng dựa trên các đường biên (xác định bằng phương pháp Laplacian of Gaussian) [14]. Các thành phần liên kết được xem là có khả năng là ký tự (dựa vào tỷ số giữa chiều rộng và chiều cao) sẽ được phân lớp để tìm ra các nguyên âm và dấu nằm ở trên và dưới thành phần chính của dòng chữ. Các chữ viết sau đó được tách ra khỏi ảnh nền dựa vào mô hình Gaussian hỗn hợp trên các lớp màu khác nhau. Tuy nhiên, phương pháp này chỉ mới thử nghiệm trên các ảnh bảng chỉ dẫn đơn giản có độ phân giải thấp. Trong khi đó, một giải thuật được đề xuất trong thời gian gần đây có khả năng phát hiện và nhận dạng chữ viết Thái với độ chính xác lên đến 80% [10]. Giải thuật Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 165 Kỹ thuật điều khiển & Điện tử sử dụng trích chọn đặc trưng SIFT (Scale Invariant Feature Transform) để xây dựng một bảng cơ sở dữ liệu các đặc trưng của mỗi ký tự. Mỗi ký tự sẽ được mô hình hóa dựa trên các dữ liệu đặc trưng trong cơ sở dữ liệu sử dụng thuật toán K- means Clustering (kỹ thuật phổ biến để chia một nhóm các đối tượng với số lượng lớn thành k nhóm với đặc tính riêng cho mỗi nhóm). Mô hình các ký tự này sẽ được so sánh với vùng ảnh quan tâm để nhận dạng ký tự. Trong khi các nghiên cứu kể trên áp dụng các quy luật toán học để phát hiện chữ viết Thái, Thananop và các tác giả sử dụng mạng nơ-ron để định vị chữ viết Thái trong ảnh [12]. Một cửa sổ trượt dùng để quét vùng hình ảnh và đưa vào mạng nơ-ron phát hiện chữ viết (dùng phương pháp Convolutional Neural Network). Sau đó, giải thuật xác định các đường cơ sở của các vùng chữ viết, loại bỏ các đường cắt vô nghĩa giữa các đường cơ sở. Do đặc trưng của chữ viết Thái có nhiều lớp nên giải thuật bổ sung thêm bước hậu xử lý để mở rộng các đường bao của mỗi ký tự chính về phía trên và phía dưới, và gán các dấu vào các chữ dựa trên góc mở 45 độ về mỗi bên ở phía trên phần chữ viết chính. Kết quả thử nghiệm cho thấy giải thuật có khả năng phát hiện các chữ viết Thái theo các hướng khác nhau. 2.3. Các chữ viết có dấu khác Ngoài ra, còn có một số ngôn ngữ khác có chữ viết với phần dấu và các phần phụ tách rời khỏi phần chính của chữ viết tương tự như chữ viết tiếng Việt. Số lượng các nghiên cứu về vấn đề phát hiện và nhận dạng chữ viết của các ngôn ngữ này còn rất hạn chế, chẳng hạn như chữ viết Urdu của Pakistan [18, 19, 20], chữ viết Bangla của Ấn Độ [21]. Việc phát triển các giải thuật phát hiện và nhận dạng chữ viết trong ảnh đối với các ngôn ngữ này còn gặp nhiều khó khăn do các nguyên nhân sau: (i) Cấu tạo chữ viết phức tạp với nhiều thành phần nằm tách rời phần chính của chữ viết; (ii) Chưa thu hút được nhiều nhà nghiên cứu như đối với chữ viết tiếng Anh vì đây không phải là ngôn ngữ quốc tế; (iii) Cơ sở dữ liệu hình ảnh chữ viết phong phú và được phân loại đối với các ngôn ngữ này còn thiếu. 3. CÁC GIẢI THUẬT XỬ LÝ ĐA NGÔN NGỮ Có một số nghiên cứu giải quyết bài toán định vị chữ viết trong ảnh trên phương diện rộng hơn: phát hiện chữ viết của nhiều ngôn ngữ khác nhau chứ không tập trung vào nghiên cứu cho một loại ngôn ngữ cụ thể nào. Các giải thuật được thử nghiệm để phát hiện đồng thời rất nhiều loại chữ viết khác nhau như: Anh, Ả-rập, Trung Quốc, Nhật, Hàn Quốc, chữ Urdu, Thái Lan, chữ Kannada/ Bengali/ Tamil/ Hindi của Ấn Độ,… [22, 23, 24, 25, 26]. Việc xử lý đa ngôn ngữ thường đòi hỏi phải sử dụng nhiều trích chọn đặc trưng đa dạng để đảm bảo rút trích được các đặc tính của nhiều ngôn ngữ khác nhau. Quá trình phân loại có thể tiến hành theo hai hướng: sử dụng mạng nơ-ron nhân tạo hoặc sử dụng các mô hình xác suất toán học. 4. KẾT LUẬN VÀ ĐỀ XUẤT Nhu cầu nhận dạng chữ viết trong ảnh là rất lớn, hiện các nghiên cứu vẫn chưa 166 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” Thông tin khoa học công nghệ đạt được đến mức độ thỏa mãn cho các ứng dụng thực tiễn. Cần có nhiều nỗ lực đóng góp cho nghiên cứu trong lĩnh vực này. Đặc biệt, cần có sự quan tâm hơn nữa đối với việc nhận dạng các chữ viết không phải là tiếng Anh, các chữ viết sử dụng các ký tự khác bộ chữ cái La-tinh. Khi nghiên cứu nhận dạng chữ viết tiếng Việt cần lưu ý đến vấn đề nhận dạng dấu. Việc nhận dạng dấu có ý nghĩa quan trọng vì đa số các từ trong tiếng Việt đều có dấu. Trong quá trình nhận dạng các ký tự tiếng Việt có thể vận dụng các giải thuật nhận dạng ký tự mang lại hiệu quả cao đối với bộ chữ cái La-tinh, nhưng cần lưu ý cải tiến giải thuật để phù hợp với tiếng Việt có dấu. Trong quá trình nhận dạng từ, cần lưu ý rằng tiếng Việt khác các ngôn ngữ tiêu biểu của La-tinh (Tiếng Anh, tiếng Pháp,…) ở chỗ tiếng Việt có cả từ đơn và từ ghép nên khi nhận dạng từ có thể không chỉ dựa trên từng tiếng đơn lẻ mà phải phối hợp với quá trình nhận dạng của hai, ba tiếng liên tiếp. Khi phát triển các giải thuật phân tách chữ viết tiếng Việt theo hướng các thành phần liên kết thì cần lưu ý xử lý các dấu rời so với thành phần chính của từ vì các thành phần rời này có thể dễ dàng bị xem là nhiễu và bỏ qua. Rất nhiều nghiên cứu hiện nay còn bị giới hạn khả năng do chỉ phân loại được các chữ viết theo phương nằm ngang. Các giải thuật này có thể cải tiến bằng cách sử dụng thêm các cửa sổ trượt theo những hướng khác nhau để phát hiện các chữ viết bố trí theo các phương khác phương ngang. Việc nhận dạng chữ viết tiếng Việt trong ảnh cũng có thể sử dụng các kết quả tiên tiến đã được công bố/ thương mại hóa trong lĩnh vực nhận dạng văn bản quét (OCR). Để sử dụng kết quả của các giải thuật OCR trước đây đối với tiếng Việt, cần xác định vị trí có chữ viết và chuẩn hóa vùng có chữ viết trong ảnh (lọc bỏ hình nền, chỉnh lại góc nghiêng của chữ, chuẩn hóa về độ sáng hoặc nhị phân hóa vùng có chữ viết). TÀI LIỆU THAM KHẢO [1]. Q. Ye and D. Doermann, "Text detection and recognition in imagery: A survey", IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 7 (2014), pp. 1480-1500. [2]. Y. Zhu, C. Yao and X. Bai, "Scene text detection and recognition: Recent advances and future trends", Frontiers of Computer Science, Vol. 10, Issue 1 (2015), pp 19-36. [3]. Fathalla, Radwa, Yasser El Sonbaty, and Mohamed A. Ismail. "Extraction of Arabic Words form Complex Color Images." 9th IEEE International Conference on Document Analysis and Recognition (ICDAR 2007), Brazil. [4]. Yousfi, Sonia, Sid-Ahmed Berrani, and Christophe Garcia. "Arabic text detection in videos using neural and boosting-based approaches: Application to video indexing." 2014 IEEE International Conference on Image Processing (ICIP). IEEE, (2014). [5]. Saudagar, Abdul Khader Jilani, et al. "Efficient Arabic text extraction and recognition using thinning and dataset comparison technique." Communication, Information & Computing Technology (ICCICT), 2015 International Conference on. IEEE, (2015). Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 167 Kỹ thuật điều khiển & Điện tử [6]. Halima, M. Ben, Hichem Karray, and Adel M. Alimi. "Arabic text recognition in video sequences." arXiv preprint arXiv:1308.3243 (2013). [7]. Asma Andleeb and Mehreen Sirshar, “Extraction of Arabic Text Regions From Images”, International Journal of Computer and Communication System Engineering (IJCCSE), Vol. 2 (1), 2015, pp 8-10. [8]. Moalla, Ikram, et al. "Extraction of Arabic text from multilingual documents." Systems, Man and Cybernetics, 2002 IEEE International Conference on. Vol. 4. IEEE, (2002). [9]. Kadhim Mahdi Al-Musawi, Noor Ali Al_helaly, “Arabic Text Extraction from Video Film”, International Journal of Computer Science and Mobile Computing, Vol. 4, Issue. 5, May 2015, pp.1117 – 1123. [10]. Sriman B., Schomaker L., “Object Attention Patches for Text Detection and Recognition in Scene Images using SIFT”, ICPRAM 2015, Lisbon, Portugal, Vol. 1, p. 304-311. [11]. Kuntpong Woraratpanya, Pimlak Boonchukusol, Yoshimitsu Kuroki, and Yasushi Kato “Improved Thai Text Detection from Natural Scenes”, pp. 137- 142, Yokjakata, Indonesia, 7-8 Oct. 2013. [12]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “A Method for Multi- Oriented Thai Text Localization in Natural Scene Images using Convolutional Neural Network”, 2015 IEEE International Conference on Signal and Image Processing Applications (ICSIPA). [13]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “Thai Text Localization in Natural Scene Images using Convolutional Neural Network”, APSIPA 2014. [14]. Wittaya Jirattitichareon, Thanarat H. Chalidabhongse, “Automatic Detection and Segmentation of Text in Low Quality Thai Sign Images”. [15]. Rapeeporn Chamchong, Chun Che Fung, “Segmentation of Thai Handwritten Text for Automatic Document Retrieval”. [16]. Ungsumalee Suttapakti, Kuntpong Woraratpanya, Kitsuchart Pasupa, Pimlak Boonchukusol, Taravichet Titijaroonroj, Rattaphon Hokking, Yoshimitsu Kuroki, Yasushi Kato, “Text-Background Decomposition for Thai Text Localization and Recognition in Natural Scenes”, In Proceeding of the 6th International Conference on Information Technology and Electrical Engineering (ICITEE 2014), 7-8 Oct 2014, Yogyakarta, Indonesia, 2014. [17]. Tomas Tinoco De Rubira, “Mobile Sign Translator for the Thai Language”. [18]. A Jamil, A Abidi, I Siddiqi, F Arif, "A Hybrid Approach for Artificial Urdu Text Detection in Video Images", 21st International Conference on Pattern Recognition (ICPR 2012) November 11-15, 2012. Tsukuba, Japan. [19]. I. S. Akhtar Jamil, FahimArif and AhsenRaza, "Edge-based Features for Localization of Artificial Urdu Text in Video Images" presented at the International Conference on Document Analysis and Recognition, Beijing, China, (2011). [20]. Samabia Tehsin, Sumaira Kausar, “Urdu Text Extraction Method from Images”, World Academy of Science, Engineering and Technology 168 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.” Thông tin khoa học công nghệ International Journal of Computer and Information Engineering Vol:1, No:10, (2014). [21]. U. Bhattacharya, S. K. Parui and S. Mondal, "Devanagari and Bangla Text Extraction from Natural Scene Images" 2009 10th International Conference on Document Analysis and Recognition, Barcelona, (2009), pp. 171-175. [22]. Zhou, Gang, et al. "Detecting multilingual text in natural scene." Access Spaces (ISAS), 2011 1st International Symposium on. IEEE, (2011). [23]. Buta, Michal. "FASText: Efficient unconstrained scene text detector." 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, (2015). [24]. Liu, Xiabi, Hui Fu, and Yunde Jia. "Gaussian mixture modeling and learning of neighboring characters for multilingual text extraction in images." Pattern Recognition 41.2 (2008), pp: 484-493. [25]. Yoichiro, B. A. B. A., and Akira Hirose. "Spectral fluctuation method: a texture-based method to extract text regions in general scene images." IEICE transactions on information and systems 92.9 (2009), pp: 1702-1715. [26]. J Akhtar, B Azra, M Zumra, IS Ali, Mirza, “Multilingual Artificial Text Extraction and Script Identification from Video Images”, International Journal of Advanced Computer Science and Applications, Vol. 7(4), (2016), pp: 529–539. ABSTRACT TEXT DETECTION FOR LANGUAGES WITH ACCENT MARKS: A SURVEY There have been numerous studies investigating the text localization and recognition in images and videos recently. However, most of studies try to solve the problem for text in English while very few studies address the issue with other languages. In fact, it is a big challenge for researchers in accurately localizing and recognizing text with accent marks in images because accent marks are often separate from the main part of characters. The paper summarizes the algorithms in text detection for languages with accent marks and suggests the approaches for Vietnamese text detection. Keywords: OCR, Scene text detection, Scene text recognition. Nhận bài ngày 01 tháng 09 năm 2016 Hoàn thiện ngày 26 tháng 09 năm 2016 Chấp nhận đăng ngày 14 tháng 12 năm 2016 Địa chỉ: Khoa Kỹ thuật Điện tử, Học viện Công nghệ Bưu chính Viễn thông. *Email: thuyln@ptit.edu.vn Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 169