Thông tin khoa học công nghệ<br />
<br />
CÁC GIẢI THUẬT PHÁT HIỆN CHỮ VIẾT<br />
ĐỐI VỚI CÁC NGÔN NGỮ CÓ DẤU<br />
Lê Ngọc Thúy*<br />
Tóm tắt: Có rất nhiều nghiên cứu trong thời gian gần đây về vấn đề phát hiện và<br />
nhận dạng chữ viết trong ảnh và video. Tuy nhiên, hầu hết các nghiên cứu này tập<br />
trung vào giải quyết bài toán đối với chữ viết tiếng Anh mà có rất ít nghiên cứu<br />
dành cho chữ viết của các ngôn ngữ khác. Trong khi đó, chữ viết có dấu là một vấn<br />
đề phức tạp để có thể định vị và nhận dạng chính xác do phần dấu thường nằm tách<br />
biệt so với phần chính của ký tự. Bài báo này giới thiệu tổng quan các giải thuật<br />
phát hiện chữ viết trong ảnh của các ngôn ngữ có dấu trên thế giới để cung cấp các<br />
hướng nghiên cứu đối với bài toán phát hiện chữ viết tiếng Việt.<br />
Từ khóa: OCR, Phát hiện chữ viết trong ảnh chụp, Nhận dạng chữ viết trong ảnh chụp.<br />
<br />
1. GIỚI THIỆU<br />
Bài toán nhận dạng văn bản trong ảnh quét (Optical Character Recognition –<br />
OCR) là vấn đề đã được giải quyết tốt với nhiều sản phẩm thương mại trên thị<br />
trường. Tuy nhiên, phát hiện và nhận dạng chữ viết trong ảnh chụp là một vấn đề<br />
còn có nhiều thách thức và đang rất được các nhà khoa học quan tâm trong thời<br />
gian gần đây. Vấn đề này có những nét tương đồng nhưng gặp nhiều thách thức<br />
hơn so với bài toán OCR do các nguyên nhân sau:<br />
(i) Sự phức tạp của khung cảnh trong ảnh: có rất nhiều vật thể, biểu tượng,<br />
tranh ảnh,... xen lẫn vào trong khung cảnh của ảnh chụp tự nhiên với những<br />
họa tiết, cấu trúc và đặc trưng tương tự như chữ viết;<br />
(ii) Ảnh bị mờ, kém chất lượng do camera focus không đúng;<br />
(iii) Độ sáng trong ảnh không đồng đều;<br />
(iv) Chữ viết bị biến dạng do trục quang học của camera không vuông góc với<br />
mặt phẳng chữ viết.<br />
Bài toán nhận dạng chữ viết trong ảnh chỉ mới nhận được nhiều sự quan tâm<br />
của các học giả gần đây nhờ vào sự phát triển của các thiết bị di động về cả khả<br />
năng thu nhận hình ảnh và khả năng xử lý, tính toán. Kết quả của cuộc thi đọc máy<br />
ICDAR 2015 cho thấy: kết quả phát hiện và nhận dạng chữ viết còn thấp với<br />
trường hợp ảnh chụp ở góc độ bất kỳ. Khả năng nhận dạng chữ viết tốt nhất trong<br />
cuộc thi với ngữ cảnh tổng quát là 12,37% (các nghiên cứu khác cung cấp kết quả<br />
cao hơn sau cuộc thi đạt khả năng nhận dạng dưới 50%).<br />
Có nhiều bài báo tổng quan về các nghiên cứu trong lĩnh vực này trong thời<br />
gian gần đây. Nổi bật nhất là bài giới thiệu tổng quan gần đây của Q. Ye và D.<br />
Doermann [1] với hơn 200 bài báo tham khảo được phân loại một cách tổng quát<br />
thành hai nhóm. Nhóm thứ nhất bao gồm các giải thuật thực hiện các giai đoạn xác<br />
định vị trí có chữ viết trong ảnh, phân đoạn ký tự và nhận dạng ký tự một cách<br />
riêng rẽ dựa vào các mô-đun độc lập. Nhóm thứ hai bao gồm các giải thuật tiến<br />
hành các nhiệm vụ kể trên theo phương pháp tổng thể, thống nhất. Đối với mỗi<br />
nhóm, các phương pháp lại được phân chia theo các hướng tiếp cận khác nhau.<br />
Y. Zhu và các tác giả đưa ra bức tranh tổng quan khác về vấn đề phát hiện và<br />
nhận dạng chữ viết trong thời gian gần đây [2]. Bài báo tập trung vào giới thiệu các<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 163<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
giải thuật phát hiện và nhận dạng chữ viết đối với ảnh tĩnh. Ưu điểm của bài báo là<br />
đã nêu ra được các điểm mạnh và điểm yếu đối với một số các giải thuật tiêu biểu<br />
cho mỗi dạng bài toán. Đối với việc phát hiện chữ viết, các giải thuật có thể phân<br />
chia thành các hướng nghiên cứu chính như sau:<br />
- Hướng nghiên cứu dựa trên dạng hoa văn: các giải thuật phát triển theo hướng<br />
nghiên cứu này xem chữ viết là một dạng hoa văn đặc biệt và sử dụng các tính chất<br />
của hoa văn này để phân biệt giữa vùng có chữ viết và vùng không có chữ viết.<br />
Phương pháp này thường sử dụng cửa sổ quét dọc theo ảnh để rút trích ra các tính<br />
chất hoa văn trong toàn bộ ảnh. Nhược điểm của hướng tiếp cận dựa trên hoa văn<br />
là yêu cầu về khả năng tính toán lớn, dễ bị ảnh hưởng với hướng và kích cỡ của<br />
chữ viết.<br />
- Hướng nghiên cứu dựa trên các thành phần liên kết: hướng nghiên cứu này<br />
phân tích ảnh thành các thành phần liên kết với nhau, với mỗi nhóm liên kết được<br />
gán chung một nhãn duy nhất dựa vào sự tương tự về màu sắc hay khoảng cách<br />
trong không gian của các điểm ảnh. Sau đó, các giải thuật đề xuất các quy luật<br />
hoặc sử dụng bộ phân loại để phân biệt các vùng chứa chữ viết so với các vùng<br />
không chứa chữ viết. Hướng nghiên cứu này đang được quan tâm trong thời gian<br />
gần đây do yêu cầu tính toán ít hơn và thường ít bị ảnh hưởng bởi hướng và kích<br />
cỡ của chữ viết trong ảnh.<br />
- Bên cạnh đó, một số giải thuật tiếp cận bài toán theo hướng tích hợp, sử dụng<br />
nhiều dạng đặc trưng khác nhau để xác định vùng có chữ viết ở trong ảnh.<br />
Mặc dù vấn đề nhận dạng chữ viết trong ảnh/video đã nhận được rất nhiều sự<br />
quan tâm của các nhà nghiên cứu trong thời gian qua nhưng hầu hết các kết quả<br />
nghiên cứu đều tập trung vào việc phát hiện và nhận dạng chữ viết đối với tiếng<br />
Anh. Kết quả của cuộc thi nhận dạng chữ viết ICDAR 2013 nhấn mạnh rằng phần<br />
lớn các dấu chấm trong hai chữ cái “i” và “j” khi viết ở dạng chữ thường bị mất đi<br />
trong quá trình nhận dạng của các giải thuật. Do đó, nếu sử dụng trực tiếp các giải<br />
thuật này vào việc phát hiện và nhận dạng chữ viết tiếng Việt nói riêng, hay các<br />
ngôn ngữ có dấu nói chung, sẽ gặp khó khăn trong việc tách biệt và nhận dạng<br />
đúng các ký tự, chữ có dấu của các ngôn ngữ đó.<br />
Các bài phân tích tổng quan các giải thuật nhận dạng chữ viết trong ảnh trước<br />
đây chưa đề cập đến những vấn đề chi tiết trong phát hiện và nhận dạng của các<br />
ngôn ngữ khác. Bài báo này sẽ tập trung vào giới thiệu các giải thuật nhận dạng<br />
chữ viết trong ảnh và video của các ngôn ngữ có dấu trên thế giới để cung cấp<br />
thêm các cơ sở khoa học, hỗ trợ trong định hướng phát triển các giải thuật phát<br />
hiện, tách biệt chữ viết tiếng Việt trong ảnh và video. Phần 2 của bài báo sẽ giới<br />
thiệu một số công trình nghiên cứu phát hiện và nhận dạng chữ viết trong ảnh đối<br />
với một số ngôn ngữ có dấu trên thế giới như tiếng Ả-rập, tiếng Thái, tiếng Urdu.<br />
Phần 3 sẽ trình bày một số giải thuật xử lý đa ngôn ngữ. Cuối cùng, bài báo đưa ra<br />
một số kết luận và đề xuất cho việc nghiên cứu phát hiện và nhận dạng chữ viết<br />
tiếng Việt trong ảnh.<br />
2. CÁC GIẢI THUẬT XỬ LÝ CHỮ VIẾT CÓ DẤU<br />
2.1. Chữ viết Ả-rập<br />
<br />
<br />
164 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.”<br />
Thông tin khoa học công nghệ<br />
<br />
Phần này giới thiệu một số nghiên cứu trong lĩnh vực định vị và nhận dạng chữ<br />
viết Ả-rập trong hình ảnh và video [3, 4, 5, 7, 8, 9].<br />
Fathalla, R. và các tác giả [3] đề xuất giải thuật để tách biệt phần chữ viết Ả-<br />
rập ra khỏi phần nền phức hợp phía sau từ một ảnh màu. Giải thuật sử dụng<br />
phương pháp các thành phần liên kết (Connected Components) sử dụng biến đổi<br />
Watershed từ ảnh màu RGB. Các vùng ảnh phân chia dựa trên biến đổi Watershed<br />
sẽ được nối lại với nhau dựa trên tính đồng nhất của vùng ảnh đấy. Sau đó, các<br />
vùng ảnh này được phân loại thành vùng chứa chữ viết Ả-rập hay không sử dụng<br />
phương pháp SVM (Support Vector Machine).<br />
Giải thuật M1 [4] là một trong các nghiên cứu gần đây định vị chữ viết Ả-rập<br />
trong video sử dụng phương pháp học máy. Nghiên cứu đã đề xuất hai giải thuật<br />
khác nhau sử dụng đặc trưng Haar-like và đặc trưng họa tiết các khối nhị phân<br />
(Multi-Block Local Binary Patterns - MBLBP) làm đầu vào của mạng nơ-ron để<br />
xây dựng các bộ phân loại vùng có chữ viết và vùng không có chữ viết. Giải thuật<br />
sử dụng các cửa sổ trượt với các kích thước khác nhau quét dọc theo khung hình để<br />
nhận biết mỗi vùng ảnh có chữ viết hay không. Kết quả thử nghiệm đối với các<br />
video lấy từ các kênh tin tức tiếng Ả-rập cho thấy giải thuật sử dụng đặc trưng họa<br />
tiết các khối nhị phân có kết quả định vị vùng có chữ viết Ả-rập tốt hơn giải thuật<br />
sử dụng đặc trưng Haar-like. Tuy nhiên, độ định vị chính xác cũng không vượt quá<br />
bảy mươi hai phần trăm.<br />
Đối với bài toán định vị và nhận dạng chữ viết Ả-rập trong video có thể kể đến<br />
các nghiên cứu của Halima và các tác giả [6]. Nghiên cứu này có ưu điểm là giải<br />
thuật xử lý phân đoạn video trước khi định vị chữ viết trong khung hình. Để phân<br />
đoạn video, các khung hình sẽ được nhóm lại thành các nhóm chính dựa trên kỹ<br />
thuật nhận dạng khuôn mặt. Giải thuật cũng sử dụng phương pháp tích hợp nhiều<br />
khung hình (Multiple Frames Integration - MFI) để tối thiểu sự thay đổi của cảnh<br />
nền. Nghiên cứu sử dụng các trích chọn đặc trưng được xây dựng dựa trên cường<br />
độ sáng của ảnh màu (trong không gian HSV) và dựa trên các đường biến (xác<br />
định bằng toán tử Sobel) để làm đầu vào cho mạng nơ-ron phân loại vùng có chữ<br />
viết và vùng không có chữ viết. Kết quả định vị chữ viết Ả-rập của phương pháp<br />
này tương đối khả quan với độ chính xác định vị đạt xấp xỉ chín mươi phần trăm.<br />
2.2. Chữ viết Thái Lan<br />
Việc phát hiện và nhận dạng chữ viết Thái trong ảnh có nhiều điểm khác biệt so<br />
với phát hiện và nhận dạng chữ viết tiếng Anh. Tuy nhiên, hiện vẫn còn rất ít<br />
nghiên cứu đóng góp cho vấn đề này [10, 11, 13, 15, 16, 17].<br />
Wittaya và các tác giả đề xuất giải thuật phát hiện và tách biệt chữ viết Thái tự<br />
động dựa vào các thành phần liên kết xây dựng dựa trên các đường biên (xác định<br />
bằng phương pháp Laplacian of Gaussian) [14]. Các thành phần liên kết được xem<br />
là có khả năng là ký tự (dựa vào tỷ số giữa chiều rộng và chiều cao) sẽ được phân<br />
lớp để tìm ra các nguyên âm và dấu nằm ở trên và dưới thành phần chính của dòng<br />
chữ. Các chữ viết sau đó được tách ra khỏi ảnh nền dựa vào mô hình Gaussian hỗn<br />
hợp trên các lớp màu khác nhau. Tuy nhiên, phương pháp này chỉ mới thử nghiệm<br />
trên các ảnh bảng chỉ dẫn đơn giản có độ phân giải thấp.<br />
Trong khi đó, một giải thuật được đề xuất trong thời gian gần đây có khả năng<br />
phát hiện và nhận dạng chữ viết Thái với độ chính xác lên đến 80% [10]. Giải thuật<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 165<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
sử dụng trích chọn đặc trưng SIFT (Scale Invariant Feature Transform) để xây<br />
dựng một bảng cơ sở dữ liệu các đặc trưng của mỗi ký tự. Mỗi ký tự sẽ được mô<br />
hình hóa dựa trên các dữ liệu đặc trưng trong cơ sở dữ liệu sử dụng thuật toán K-<br />
means Clustering (kỹ thuật phổ biến để chia một nhóm các đối tượng với số lượng<br />
lớn thành k nhóm với đặc tính riêng cho mỗi nhóm). Mô hình các ký tự này sẽ<br />
được so sánh với vùng ảnh quan tâm để nhận dạng ký tự.<br />
Trong khi các nghiên cứu kể trên áp dụng các quy luật toán học để phát hiện<br />
chữ viết Thái, Thananop và các tác giả sử dụng mạng nơ-ron để định vị chữ viết<br />
Thái trong ảnh [12]. Một cửa sổ trượt dùng để quét vùng hình ảnh và đưa vào<br />
mạng nơ-ron phát hiện chữ viết (dùng phương pháp Convolutional Neural<br />
Network). Sau đó, giải thuật xác định các đường cơ sở của các vùng chữ viết, loại<br />
bỏ các đường cắt vô nghĩa giữa các đường cơ sở. Do đặc trưng của chữ viết Thái<br />
có nhiều lớp nên giải thuật bổ sung thêm bước hậu xử lý để mở rộng các đường<br />
bao của mỗi ký tự chính về phía trên và phía dưới, và gán các dấu vào các chữ<br />
dựa trên góc mở 45 độ về mỗi bên ở phía trên phần chữ viết chính. Kết quả thử<br />
nghiệm cho thấy giải thuật có khả năng phát hiện các chữ viết Thái theo các<br />
hướng khác nhau.<br />
2.3. Các chữ viết có dấu khác<br />
Ngoài ra, còn có một số ngôn ngữ khác có chữ viết với phần dấu và các phần<br />
phụ tách rời khỏi phần chính của chữ viết tương tự như chữ viết tiếng Việt. Số<br />
lượng các nghiên cứu về vấn đề phát hiện và nhận dạng chữ viết của các ngôn ngữ<br />
này còn rất hạn chế, chẳng hạn như chữ viết Urdu của Pakistan [18, 19, 20], chữ<br />
viết Bangla của Ấn Độ [21]. Việc phát triển các giải thuật phát hiện và nhận dạng<br />
chữ viết trong ảnh đối với các ngôn ngữ này còn gặp nhiều khó khăn do các<br />
nguyên nhân sau:<br />
(i) Cấu tạo chữ viết phức tạp với nhiều thành phần nằm tách rời phần chính của<br />
chữ viết;<br />
(ii) Chưa thu hút được nhiều nhà nghiên cứu như đối với chữ viết tiếng Anh vì<br />
đây không phải là ngôn ngữ quốc tế;<br />
(iii) Cơ sở dữ liệu hình ảnh chữ viết phong phú và được phân loại đối với các<br />
ngôn ngữ này còn thiếu.<br />
3. CÁC GIẢI THUẬT XỬ LÝ ĐA NGÔN NGỮ<br />
Có một số nghiên cứu giải quyết bài toán định vị chữ viết trong ảnh trên phương<br />
diện rộng hơn: phát hiện chữ viết của nhiều ngôn ngữ khác nhau chứ không tập trung<br />
vào nghiên cứu cho một loại ngôn ngữ cụ thể nào. Các giải thuật được thử nghiệm<br />
để phát hiện đồng thời rất nhiều loại chữ viết khác nhau như: Anh, Ả-rập, Trung<br />
Quốc, Nhật, Hàn Quốc, chữ Urdu, Thái Lan, chữ Kannada/ Bengali/ Tamil/ Hindi<br />
của Ấn Độ,… [22, 23, 24, 25, 26]. Việc xử lý đa ngôn ngữ thường đòi hỏi phải sử<br />
dụng nhiều trích chọn đặc trưng đa dạng để đảm bảo rút trích được các đặc tính của<br />
nhiều ngôn ngữ khác nhau. Quá trình phân loại có thể tiến hành theo hai hướng: sử<br />
dụng mạng nơ-ron nhân tạo hoặc sử dụng các mô hình xác suất toán học.<br />
4. KẾT LUẬN VÀ ĐỀ XUẤT<br />
Nhu cầu nhận dạng chữ viết trong ảnh là rất lớn, hiện các nghiên cứu vẫn chưa<br />
<br />
<br />
166 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.”<br />
Thông tin khoa học công nghệ<br />
<br />
đạt được đến mức độ thỏa mãn cho các ứng dụng thực tiễn. Cần có nhiều nỗ lực<br />
đóng góp cho nghiên cứu trong lĩnh vực này. Đặc biệt, cần có sự quan tâm hơn nữa<br />
đối với việc nhận dạng các chữ viết không phải là tiếng Anh, các chữ viết sử dụng<br />
các ký tự khác bộ chữ cái La-tinh.<br />
Khi nghiên cứu nhận dạng chữ viết tiếng Việt cần lưu ý đến vấn đề nhận dạng<br />
dấu. Việc nhận dạng dấu có ý nghĩa quan trọng vì đa số các từ trong tiếng Việt đều<br />
có dấu. Trong quá trình nhận dạng các ký tự tiếng Việt có thể vận dụng các giải<br />
thuật nhận dạng ký tự mang lại hiệu quả cao đối với bộ chữ cái La-tinh, nhưng cần<br />
lưu ý cải tiến giải thuật để phù hợp với tiếng Việt có dấu. Trong quá trình nhận<br />
dạng từ, cần lưu ý rằng tiếng Việt khác các ngôn ngữ tiêu biểu của La-tinh (Tiếng<br />
Anh, tiếng Pháp,…) ở chỗ tiếng Việt có cả từ đơn và từ ghép nên khi nhận dạng từ<br />
có thể không chỉ dựa trên từng tiếng đơn lẻ mà phải phối hợp với quá trình nhận<br />
dạng của hai, ba tiếng liên tiếp.<br />
Khi phát triển các giải thuật phân tách chữ viết tiếng Việt theo hướng các thành<br />
phần liên kết thì cần lưu ý xử lý các dấu rời so với thành phần chính của từ vì các<br />
thành phần rời này có thể dễ dàng bị xem là nhiễu và bỏ qua.<br />
Rất nhiều nghiên cứu hiện nay còn bị giới hạn khả năng do chỉ phân loại được<br />
các chữ viết theo phương nằm ngang. Các giải thuật này có thể cải tiến bằng cách<br />
sử dụng thêm các cửa sổ trượt theo những hướng khác nhau để phát hiện các chữ<br />
viết bố trí theo các phương khác phương ngang.<br />
Việc nhận dạng chữ viết tiếng Việt trong ảnh cũng có thể sử dụng các kết quả<br />
tiên tiến đã được công bố/ thương mại hóa trong lĩnh vực nhận dạng văn bản quét<br />
(OCR). Để sử dụng kết quả của các giải thuật OCR trước đây đối với tiếng Việt,<br />
cần xác định vị trí có chữ viết và chuẩn hóa vùng có chữ viết trong ảnh (lọc bỏ<br />
hình nền, chỉnh lại góc nghiêng của chữ, chuẩn hóa về độ sáng hoặc nhị phân hóa<br />
vùng có chữ viết).<br />
<br />
TÀI LIỆU THAM KHẢO<br />
[1]. Q. Ye and D. Doermann, "Text detection and recognition in imagery: A<br />
survey", IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 7 (2014), pp.<br />
1480-1500.<br />
[2]. Y. Zhu, C. Yao and X. Bai, "Scene text detection and recognition: Recent<br />
advances and future trends", Frontiers of Computer Science, Vol. 10, Issue 1<br />
(2015), pp 19-36.<br />
[3]. Fathalla, Radwa, Yasser El Sonbaty, and Mohamed A. Ismail. "Extraction of<br />
Arabic Words form Complex Color Images." 9th IEEE International<br />
Conference on Document Analysis and Recognition (ICDAR 2007), Brazil.<br />
[4]. Yousfi, Sonia, Sid-Ahmed Berrani, and Christophe Garcia. "Arabic text<br />
detection in videos using neural and boosting-based approaches: Application<br />
to video indexing." 2014 IEEE International Conference on Image Processing<br />
(ICIP). IEEE, (2014).<br />
[5]. Saudagar, Abdul Khader Jilani, et al. "Efficient Arabic text extraction and<br />
recognition using thinning and dataset comparison technique."<br />
Communication, Information & Computing Technology (ICCICT), 2015<br />
International Conference on. IEEE, (2015).<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 167<br />
Kỹ thuật điều khiển & Điện tử<br />
<br />
[6]. Halima, M. Ben, Hichem Karray, and Adel M. Alimi. "Arabic text<br />
recognition in video sequences." arXiv preprint arXiv:1308.3243 (2013).<br />
[7]. Asma Andleeb and Mehreen Sirshar, “Extraction of Arabic Text Regions<br />
From Images”, International Journal of Computer and Communication<br />
System Engineering (IJCCSE), Vol. 2 (1), 2015, pp 8-10.<br />
[8]. Moalla, Ikram, et al. "Extraction of Arabic text from multilingual<br />
documents." Systems, Man and Cybernetics, 2002 IEEE International<br />
Conference on. Vol. 4. IEEE, (2002).<br />
[9]. Kadhim Mahdi Al-Musawi, Noor Ali Al_helaly, “Arabic Text Extraction<br />
from Video Film”, International Journal of Computer Science and Mobile<br />
Computing, Vol. 4, Issue. 5, May 2015, pp.1117 – 1123.<br />
[10]. Sriman B., Schomaker L., “Object Attention Patches for Text Detection and<br />
Recognition in Scene Images using SIFT”, ICPRAM 2015, Lisbon, Portugal,<br />
Vol. 1, p. 304-311.<br />
[11]. Kuntpong Woraratpanya, Pimlak Boonchukusol, Yoshimitsu Kuroki, and<br />
Yasushi Kato “Improved Thai Text Detection from Natural Scenes”, pp. 137-<br />
142, Yokjakata, Indonesia, 7-8 Oct. 2013.<br />
[12]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “A Method for Multi-<br />
Oriented Thai Text Localization in Natural Scene Images using<br />
Convolutional Neural Network”, 2015 IEEE International Conference on<br />
Signal and Image Processing Applications (ICSIPA).<br />
[13]. Thananop Kobchaisawat, Thanarat H. Chalidabhongse, “Thai Text<br />
Localization in Natural Scene Images using Convolutional Neural Network”,<br />
APSIPA 2014.<br />
[14]. Wittaya Jirattitichareon, Thanarat H. Chalidabhongse, “Automatic Detection<br />
and Segmentation of Text in Low Quality Thai Sign Images”.<br />
[15]. Rapeeporn Chamchong, Chun Che Fung, “Segmentation of Thai Handwritten<br />
Text for Automatic Document Retrieval”.<br />
[16]. Ungsumalee Suttapakti, Kuntpong Woraratpanya, Kitsuchart Pasupa, Pimlak<br />
Boonchukusol, Taravichet Titijaroonroj, Rattaphon Hokking, Yoshimitsu<br />
Kuroki, Yasushi Kato, “Text-Background Decomposition for Thai Text<br />
Localization and Recognition in Natural Scenes”, In Proceeding of the 6th<br />
International Conference on Information Technology and Electrical<br />
Engineering (ICITEE 2014), 7-8 Oct 2014, Yogyakarta, Indonesia, 2014.<br />
[17]. Tomas Tinoco De Rubira, “Mobile Sign Translator for the Thai Language”.<br />
[18]. A Jamil, A Abidi, I Siddiqi, F Arif, "A Hybrid Approach for Artificial Urdu<br />
Text Detection in Video Images", 21st International Conference on Pattern<br />
Recognition (ICPR 2012) November 11-15, 2012. Tsukuba, Japan.<br />
[19]. I. S. Akhtar Jamil, FahimArif and AhsenRaza, "Edge-based Features for<br />
Localization of Artificial Urdu Text in Video Images" presented at the<br />
International Conference on Document Analysis and Recognition, Beijing,<br />
China, (2011).<br />
[20]. Samabia Tehsin, Sumaira Kausar, “Urdu Text Extraction Method from<br />
Images”, World Academy of Science, Engineering and Technology<br />
<br />
<br />
168 Lê Ngọc Thúy, “Các giải thuật phát hiện chữ viết đối với các ngôn ngữ có dấu.”<br />
Thông tin khoa học công nghệ<br />
<br />
International Journal of Computer and Information Engineering Vol:1,<br />
No:10, (2014).<br />
[21]. U. Bhattacharya, S. K. Parui and S. Mondal, "Devanagari and Bangla Text<br />
Extraction from Natural Scene Images" 2009 10th International Conference<br />
on Document Analysis and Recognition, Barcelona, (2009), pp. 171-175.<br />
[22]. Zhou, Gang, et al. "Detecting multilingual text in natural scene." Access<br />
Spaces (ISAS), 2011 1st International Symposium on. IEEE, (2011).<br />
[23]. Buta, Michal. "FASText: Efficient unconstrained scene text detector." 2015<br />
IEEE International Conference on Computer Vision (ICCV). IEEE, (2015).<br />
[24]. Liu, Xiabi, Hui Fu, and Yunde Jia. "Gaussian mixture modeling and learning<br />
of neighboring characters for multilingual text extraction in images." Pattern<br />
Recognition 41.2 (2008), pp: 484-493.<br />
[25]. Yoichiro, B. A. B. A., and Akira Hirose. "Spectral fluctuation method: a<br />
texture-based method to extract text regions in general scene images." IEICE<br />
transactions on information and systems 92.9 (2009), pp: 1702-1715.<br />
[26]. J Akhtar, B Azra, M Zumra, IS Ali, Mirza, “Multilingual Artificial Text<br />
Extraction and Script Identification from Video Images”, International<br />
Journal of Advanced Computer Science and Applications, Vol. 7(4), (2016),<br />
pp: 529–539.<br />
<br />
ABSTRACT<br />
<br />
TEXT DETECTION FOR LANGUAGES WITH ACCENT MARKS: A SURVEY<br />
<br />
There have been numerous studies investigating the text localization and<br />
recognition in images and videos recently. However, most of studies try to<br />
solve the problem for text in English while very few studies address the issue<br />
with other languages. In fact, it is a big challenge for researchers in<br />
accurately localizing and recognizing text with accent marks in images<br />
because accent marks are often separate from the main part of characters.<br />
The paper summarizes the algorithms in text detection for languages with<br />
accent marks and suggests the approaches for Vietnamese text detection.<br />
Keywords: OCR, Scene text detection, Scene text recognition.<br />
<br />
Nhận bài ngày 01 tháng 09 năm 2016<br />
Hoàn thiện ngày 26 tháng 09 năm 2016<br />
Chấp nhận đăng ngày 14 tháng 12 năm 2016<br />
<br />
<br />
Địa chỉ: Khoa Kỹ thuật Điện tử, Học viện Công nghệ Bưu chính Viễn thông.<br />
*Email: thuyln@ptit.edu.vn<br />
<br />
<br />
<br />
<br />
Tạp chí Nghiên cứu KH&CN quân sự, Số 46, 12 - 2016 169<br />