intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng thuật toán PCA trong nhận dạng ngôn ngữ cử chỉ tiếng việt tĩnh

Chia sẻ: Thi Thi | Ngày: | Loại File: PDF | Số trang:7

67
lượt xem
4
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài báo này đề xuất phương pháp xử lý hình ảnh sau khi thu nhận và áp dụng kỹ thuật phân tích thành phần chính PCA (Principle Component Analysis) để nhận dạng cử chỉ dựa trên các hình ảnh sau khi xử lý đó. Các kết quả thực nghiệm cho thấy hệ thống đề xuất đã đạt được tỉ lệ nhận dạng cao.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng thuật toán PCA trong nhận dạng ngôn ngữ cử chỉ tiếng việt tĩnh

Công nghệ thông tin & Cơ sở toán học cho tin học<br /> <br /> ỨNG DỤNG THUẬT TOÁN PCA TRONG NHẬN DẠNG<br /> NGÔN NGỮ CỬ CHỈ TIẾNG VIỆT TĨNH<br /> Nguyễn Thị Hương Thảo, Lê Xuân Thành*, Vũ Hữu Tiến<br /> Tóm tắt: Hiện nay, cử chỉ tay là một trong các mối quan tâm chính đối với người<br /> khiếm thính vì họ sử dụng ngôn ngữ cử chỉ để giao tiếp với nhau và giao tiếp với<br /> người bình thường. Đối với người bình thường nếu không biết hoặc gặp khó khăn<br /> với ngôn ngữ cử chỉ của người khiếm thính thì cần phải có thông dịch viên hỗ trợ<br /> quá trình giao tiếp. Do đó, một hệ thống nhận dạng ngôn ngữ cử chỉ bàn tay tự<br /> động là rất cần thiết để giúp đỡ những người khiếm thính hòa nhập vào cuộc sống<br /> bình thường. Về mặt kỹ thuật, nhận dạng ngôn ngữ cử chỉ là một bài toán toàn diện<br /> vì phải có sự kết hợp của các giai đoạn thu nhận ảnh, xử lý ảnh, phân tích và nhận<br /> dạng ảnh. Bài báo này đề xuất phương pháp xử lý hình ảnh sau khi thu nhận và áp<br /> dụng kỹ thuật phân tích thành phần chính PCA (Principle Component Analysis) để<br /> nhận dạng cử chỉ dựa trên các hình ảnh sau khi xử lý đó. Các kết quả thực nghiệm<br /> cho thấy hệ thống đề xuất đã đạt được tỉ lệ nhận dạng cao.<br /> Từ khóa: PCA, Nhận dạng cử chỉ, Ngôn ngữ cử chỉ tiếng Việt.<br /> <br /> 1. GIỚI THIỆU<br /> Ngôn ngữ cử chỉ là loại ngôn ngữ sử dụng cử chỉ bàn tay, biểu cảm của khuôn<br /> mặt và chuyển động của cơ thể để truyền đạt ý nghĩa giữa những người khiếm<br /> thính với nhau và với người bình thường. Ngôn ngữ cử chỉ tay cũng được sử<br /> dụng trong nhiều các ứng dụng khác như tương tác người – máy, hiện thực ảo, trò<br /> chơi tương tác. Vì vậy hiện nay nhận dạng ngôn ngữ cử chỉ là một lĩnh vực thu<br /> hút nhiều các nhà nghiên cứu tập trung tìm hiểu. Điều này giúp cho những người<br /> khiếm thính có cơ hội giao tiếp với người bình thường một cách dễ dàng hơn.<br /> Nhiều nghiên cứu trước đây đã thực hiện với các ngôn ngữ khác nhau như ngôn<br /> ngữ cử chỉ Mỹ Latin, ngôn ngữ cử chỉ Ấn Độ, ngôn ngữ cử chỉ Anh. Tuy nhiên<br /> chưa có nhiều bài báo đề cập đến ngôn ngữ cử chỉ Tiếng Việt VSL (Vietnamese<br /> Sign Language). Bài báo này đề xuất một hệ thống nhận dạng cử chỉ tay mà<br /> người sử dụng không cần phải sử dụng thiết bị chuyên dụng nào như găng tay mà<br /> chỉ thực hiện cử chỉ bằng tay trần trước camera cố định sẵn. Hệ thống thực hiện<br /> nhận dạng các chữ cái Tiếng Việt qua cử chỉ bàn tay tĩnh bằng cách sử dụng kỹ<br /> thuật PCA.<br /> Hệ thống nhận dạng cử chỉ tay có bốn giai đoạn: thu nhận dữ liệu, mô hình hóa<br /> cử chỉ, trích chọn đặc trưng và nhận dạng. Thu nhận dữ liệu có thể thực hiện bằng<br /> cách sử dụng găng tay. Găng tay dữ liệu sử dụng cảm biến (cơ hoặc quang) được<br /> gắn vào găng tay để chuyển đổi cử chỉ ngón tay thành tín hiệu điện. Từ đó có thể<br /> xác định được vị trí tương ứng của các ngón tay. Cử chỉ tay cũng có thể được thu<br /> nhận bằng camera/webcam/Kinect 3D. Cách này có giá thành thấp và người sử<br /> dụng có thể tạo ra các cử chỉ một cách dễ dàng. Trong một số các công trình<br /> nghiên cứu trước đây sử dụng ảnh tĩnh để phân tích và nhận dạng, họ thường sử<br /> dụng camera để bắt giữ hình ảnh. Tuy nhiên, phương pháp này không thích hợp<br /> trong thực tế. Đối với các ứng dụng thời gian thực thường sử dụng webcam để bắt<br /> giữ một chuỗi video cử động của bàn tay. Trong phương pháp này, các khung hình<br /> <br /> <br /> 118 N.T.H. Thảo, L.X. Thành, V. H. Tiến, “Ứng dụng thuật toán PCA… cử chỉ tiếng Việt tĩnh.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> được phân tích để tách ra ảnh cử chỉ bàn tay. Vấn đề chính trong phương pháp này<br /> là tìm ra khung hình nào chứa cử chỉ cuối cùng.<br /> Sau giai đoạn thu nhận dữ liệu là mô hình hóa cử chỉ. Bàn tay cần được mô hình<br /> hoá để xử lý một cách chính xác. Các mô hình khác nhau được lựa chọn tùy theo<br /> từng ứng dụng cụ thể. Giai đoạn này thực hiện phân vùng bàn tay và tiền xử lý.<br /> Phân vùng bàn tay thực hiện tách bàn tay khỏi bức ảnh và tiền xử lý là quá trình<br /> cải thiện chất lượng bức ảnh và cắt ra đúng vùng liên quan để xử lý tiếp theo. Quá<br /> trình phân vùng chính xác sẽ giúp trích chọn đặc trưng hoàn hảo. Phương pháp<br /> trích chọn đặc trưng được xem xét kỹ lưỡng tùy vào các ứng dụng khác nhau.<br /> Giai đoạn cuối cùng của hệ thống nhận dạng cử chỉ tay là phân loại cử chỉ. Có<br /> rất nhiều phương pháp phân loại như Mô hình Markov ẩn HMM, phân tích thành<br /> phần chính PCA, phân loại theo khoảng cách, mạng neural.<br /> Nhận dạng cử chỉ tay gồm nhiều kỹ thuật khác nhau [1]. Các nhà nghiên cứu sử<br /> dụng các kỹ thuật khác nhau và đạt được độ chính xác khá cao. Phương pháp trong<br /> tài liệu [2] đề xuất hệ thống nhận dạng ngôn ngữ cử chỉ Ấn Độ trong video trực tiếp<br /> sử dụng trị riêng và vector riêng để trích chọn đặc trưng. Jayashree R.Pansare và<br /> đồng nghiệp [3] đề xuất hệ thống nhận dạng cử chỉ tay tĩnh thời gian thực đối với<br /> ngôn ngữ cử chỉ Mỹ Latinh trên nền phức tạp. Hệ thống thực hiện tiền xử lý ảnh với<br /> bộ lọc trung vị và các toán tử hình thái, trích chọn đặc trưng sử dụng centroid và<br /> phân loại sử dụng khoảng cách Euclidean. S.Nagarajan và T.S.Subashini [4] giới<br /> thiệu hệ thống nhận dạng cử chỉ bàn tay tĩnh mô tả các chữ cái ngôn ngữ ký hiệu<br /> Mỹ. Đóng góp chính của bài báo là sử dụng lược đồ xám hướng biên để trích chọn<br /> đặc trưng và nhận dạng bằng SVM nhiều lớp tuy nhiên hệ thống chỉ thực hiện với<br /> nền đồng nhất. [5] đề xuất hệ thống nhận dạng ngôn ngữ Đài Loan với cả hai loại cử<br /> chỉ tay tĩnh và động sử dụng SVM và HMM, tuy nhiên hệ thống yêu cầu người sử<br /> dụng phải đeo găng tay màu trong quá trình thu nhận ảnh.<br /> Bài báo này đề xuất hệ thống nhận dạng cử chỉ bàn tay dựa trên kỹ thuật PCA<br /> [6-7] đối với ngôn ngữ tiếng Việt và đánh giá tính hiệu quả của các phương pháp<br /> khi sử dụng khoảng cách Euclidean để phân loại. Trong quá trình mô hình hóa cử<br /> chỉ, bài báo đề xuất phương pháp tách bàn tay khỏi nền, giúp cho quá trình nhận<br /> dạng được chính xác hơn.<br /> Bài báo được cấu trúc như sau. Phần II đề xuất hệ thống nhận dạng cử chỉ tay.<br /> Các kết quả thực nghiệm được mô tả và phân tích được mô tả phần III. Cuối cùng<br /> là kết luận được đưa ra trong phần IV.<br /> 2. HỆ THỐNG ĐƯỢC ĐỀ XUẤT<br /> Sơ đồ hệ thống đề xuất được mô tả trong hình 1.<br /> 2.1. Thu nhận dữ liệu<br /> Giai đoạn đầu tiên của hệ thống là thu nhận dữ liệu. Ảnh được thu nhận bằng<br /> camera của máy tính với độ phân giải 5 Megapixel. Người sử dụng thực hiện các<br /> cử chỉ bằng tay trần trước camera trong khoảng cách 1m. Để chụp được ảnh tĩnh<br /> của cử chỉ, hệ thống sử dụng giải pháp thông báo để người sử dụng giữ nguyên tư<br /> thế bàn tay trong khoảng 5ms.<br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 45, 10 - 2016 119<br /> Công nghệ thông tin & Cơ sở toán học cho tin học<br /> <br /> Trong thí nghiệm này, hệ thống được thử nghiệm với các ảnh cử chỉ tay mô tả<br /> 25 chữ cái tiếng Việt. Cơ sở dữ liệu gồm 250 ảnh tương ứng với 25 lớp chữ cái.<br /> Mỗi lớp chữ cái gồm 10 ảnh được thực hiện bởi hai người khác nhau trong điều<br /> kiện ánh sáng khác nhau trên nền trắng đơn giản. Tập cơ sở dữ liệu của ngôn ngữ<br /> Tiếng Việt được cho trong hình 2.<br /> <br /> <br /> <br /> <br /> Hình 1. Sơ đồ hệ thống nhận dạng. Hình 2. Ký hiệu ngôn ngữ cử chỉ tiếng Việt.<br /> 2.2. Chuẩn hóa dữ liệu<br /> Sơ đồ khối của tầng chuẩn hóa hình ảnh được mô tả trong hình 3. Để có thể<br /> nhận dạng được hình ảnh, trước giai đoạn nhận dạng, các hình ảnh phải được<br /> chuẩn hóa để hệ thống có thể rút ra các đặc trưng của các ảnh. Trong hệ thống<br /> được đề xuất, ảnh chuẩn hóa là các ảnh nhị phân có kích thước 100x100.<br /> Để có thể phân vùng được cử chỉ tay, ảnh RGB đầu vào được chuyển thành ảnh<br /> YCrCb với mục đích sử dụng hai kênh màu Cr và Cb để chọn vùng da bàn tay. Với<br /> việc sử dụng hai kênh màu như vậy, ảnh được xử lý sẽ ít bị tác động với sự thay đổi<br /> của ánh sáng. Trong hệ thống được đề xuất, để chọn vùng da bàn tay, giá trị Cr được<br /> chọn trong khoảng từ 146 đến 165 và Cb được chọn trong khoảng từ 140 đến 195.<br /> Do quá trình tách ảnh bàn tay dựa trên giá trị ngưỡng của Cr và Cb nên một số<br /> vùng trên ảnh bị sai lệch, tạo ra những vùng trống trên ảnh. Do đó ảnh sau khi tách<br /> được xử lý để loại bỏ vùng trống không mong muốn.<br /> Để đơn giản cho việc xử lý nhận dạng, ảnh YCrCb được biến đổi sang ảnh nhị<br /> phân. Quá trình này giúp cho việc xử lý giảm từ 3 ma trận Y, Cr, Cb xuống còn<br /> một ma trận ảnh nhị phân.<br /> Do việc chọn ngưỡng trong quá trình biến đổi nhị phân, ảnh sẽ xuất hiện các<br /> vùng khuyết không mong muốn. Do vậy việc loại bỏ các vùng khuyết được tiến<br /> hành một lần nữa. Tuy nhiên, trong một số ảnh, việc loại bỏ này có thể làm mất nội<br /> dung của ảnh. Vì vậy, thuật toán tìm vùng trống lớn nhất để giữ lại được sử dụng<br /> để không làm thay đổi hình dạng đối tượng trong ảnh.<br /> Cuối cùng, phép xử lý hình thái (phép đóng) được sử dụng để hình ảnh đối<br /> tượng được hoàn chỉnh hơn.<br /> <br /> <br /> 120 N.T.H. Thảo, L.X. Thành, V. H. Tiến, “Ứng dụng thuật toán PCA… cử chỉ tiếng Việt tĩnh.”<br /> Nghiên cứu khoa học công nghệ<br /> <br /> <br /> <br /> <br /> Hình 3. Các bước xử lý trong quá trình mô hình hóa cử chỉ.<br /> 2.3. Trích chọn đặc trưng và phân loại<br /> Trong giai đoạn nhận dạng sử dụng thuật toán PCA để trích chọn đặc trưng của<br /> ảnh và phân loại ảnh đầu vào. Cụ thể là các trị riêng và vector riêng được coi là đặc<br /> trưng của ảnh đầu vào. Đối với giai đoạn phân loại, khoảng cách Euclidean được<br /> sử dụng để so sánh đặc trưng của ảnh đầu vào với đặc trưng của các ảnh được lưu<br /> trữ trong cơ sở dữ liệu. Ảnh nào trong cơ sở dữ liệu có khoảng cách Euclidean<br /> ngắn nhất sẽ được coi là giống với bức ảnh đầu vào nhất. Các bước của giai đoạn<br /> nhận dạng được mô tả như sau:<br /> Bước 1: Tính vector phương sai của dữ liệu<br /> Giả sử rằng có M ảnh trong cơ sở dữ liệu để huận luyện bao gồm I1¸ I2,..., IM.<br /> Kích thước mỗi ảnh là NxN. Để tính trị riêng, mỗi ảnh Ii kích thước NxN được sắp<br /> xếp lại thành vector kích thước 1xN2. Vector trung bình của M ảnh được tính<br /> như sau:<br /> (1)<br /> Vector phương sai của mỗi ảnh được tính như sau:<br /> (2)<br /> Bước 2: Tính ma trận hiệp phương sai<br /> Ma trận hiệp phương sai C của các ảnh trong cơ sở dữ liệu được tính như sau:<br /> (3)<br /> trong đó,<br /> Bước 3: Tính trị riêng và vector riêng<br /> Trong bài báo này, kích thước của ảnh là 100x100 (N=100) và có 250 ảnh trong<br /> cơ sở dữ liệu (M=250). Vì vậy, kích thước của ma trận hiệp phương sai C là 1002 x<br /> 1002. Đây là ma trận có kích thước lớn và vì vậy việc tính vector riêng và trị riêng<br /> rất phức tạp. Để giảm khối lượng tính toán, [8] chứng minh rằng M trị riêng<br /> củaATA tương ứng với M trị riêng lớn nhất của AAT cùng với vector riêng tương<br /> ứng. M trị riêng củaAAT có thể được tính như sau:<br /> (4)<br /> trong đó, là trị riêng của ATA.<br /> <br /> <br /> Tạp chí Nghiên cứu KH&CN quân sự, Số 45, 10 - 2016 121<br /> Công nghệ thông tin & Cơ sở toán học cho tin học<br /> <br /> Để đơn giản trong tính toán, chỉ có K (K
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2