Luận văn Thạc sĩ Kỹ thuật: Theo dõi hành vi của người cao tuổi – Sử dụng camera

Chia sẻ: Sơ Dương | Ngày: | Loại File: PDF | Số trang:87

Thêm vào BST

Báo xấu

28
lượt xem 7
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của đề tài "Theo dõi hành vi của người cao tuổi – Sử dụng camera" là đề xuất một bộ khung nhận dạng hành động mới, có thể học rất nhiều hoạt động khác nhau của con người và nhận dạng chúng một cách hiệu. Mời các bạn cùng tham khảo nội dung chi tiết.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận văn Thạc sĩ Kỹ thuật: Theo dõi hành vi của người cao tuổi – Sử dụng camera

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ---- ĐỖ TRÌNH SA THEO DÕI HÀNH VI CỦA NGƯỜI CAO TUỔI – SỬ DỤNG CAMERA LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT Y SINH HÀ NỘI – 2019
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ---- ĐỖ TRÌNH SA THEO DÕI HÀNH VI CỦA NGƯỜI CAO TUỔI – SỬ DỤNG CAMERA Chuyên ngành: KỸ THUẬT Y SINH LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT Y SINH NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN VIỆT DŨNG HÀ NỘI - 2019
MỤC LỤC MỤC LỤC .................................................................................................................. i DANH MỤC CHỮ VIẾT TẮT .............................................................................. iii DANH MỤC HÌNH ................................................................................................. iv CHƢƠNG 1. TỔNG QUAN VẤN ĐỀ NHẬN DẠNG HÀNH ĐỘNG .................1 1.1. Giới thiệu và thực trạng ....................................................................................1 1.2. Các nghiên cứu liên quan..................................................................................2 1.2.1. Các khảo sát về nhận dạng hành động ....................................................... 3 1.2.2. Cách tiếp cận đa lớp ...................................................................................5 1.2.3. Công cụ đƣợc sử dụng phổ biến .................................................................5 1.2.4. Nhận dạng hành động không bằng theo dõi ...............................................6 1.2.5. Nhận dạng hành động có theo dõi ..............................................................6 CHƢƠNG 2. KỸ THUẬT NHẬN DẠNG HÀNH ĐỘNG DỰA TRÊN PHƢƠNG PHÁP PHÂN TÍCH ĐẶC TRƢNG CHUYỂN ĐỘNG.......................9 2.1. Phƣơng pháp đề xuất ........................................................................................9 2.1.1. Tổng quan ...................................................................................................9 2.1.2. Thu thập dữ liệu (Data Collection) ............................................................9 2.1.2.1. Dữ liệu hình chụp chuyển động ...........................................................9 2.1.2.2. Dữ liệu video (có sẵn) ........................................................................10 2.1.2.3. Tạo dữ liệu chuyển động từ video .....................................................10 2.1.2.3.1. Xóa nền ........................................................................................10 2.1.2.3.2. Gỡ bỏ bóng ..................................................................................11 2.1.2.3.3. Theo dõi chuyển động của chân ..................................................14 2.1.2.3.4. Theo dõi chuyển động của tay .....................................................16 2.1.2.3.5. Phát hiện các chuyển động cong ngƣời .......................................18 2.2. Đƣờng cong phù hợp và sự phân đoạn chuyển động ......................................19 2.2.1. Tạo Vector đặc trƣng................................................................................21 2.3. Huấn luyện và Nhận diện sử dụng PCA .........................................................23 2.3.1. Chuẩn bị Eigenspace (không gian mẫu)...................................................23 2.3.2. Phân loại vector đặc trƣng ........................................................................24 CHƢƠNG 3. KẾT QUẢ MÔ PHỎNG VÀ ĐÁNH GIÁ .....................................26 3.1. Kết quả từ bộ dữ liệu chụp ảnh chuyển động ................................................. 26 3.1.2. Nhận diện hành động sử dụng dữ liệu 3-D ..............................................42 3.1.3. Nhận dạng hành động sử dụng dữ liệu mô phỏng 2-D ............................ 44 3.2. Kết quả từ tập dữ liệu video Weizmann .........................................................46 i
3.2.1. Kết quả theo dõi .......................................................................................47 3.2.2. Phân loại các chuyển động cơ bản và video.............................................65 3.2.3. So sánh với các hƣớng tiếp cận khác .......................................................66 3.2.4. Tốc độ thực thi .........................................................................................67 3.2.5. Nhận xét đóng góp ...................................................................................69 3.2.6. Hƣớng thích ứng với Tập dữ liệu mới......................................................70 KẾT LUẬN ..............................................................................................................72 TÀI LIỆU THAM KHẢO ......................................................................................74 ii
DANH MỤC CHỮ VIẾT TẮT PCA Principal Component Analysis (Phân tích thành phần đặc trƣng) MoG MoG Method (phƣơng pháp phân phối Gauss) Lab Một phƣơng pháp phân tách bóng. Các thành phần màu L (a và b) của một pixel đƣợc vẽ cho mỗi khung mẫu. Pixel này trở thành một phần của bóng từ mẫu 310 đến 350. Lƣu ý rằng giá trị của thành phần L giảm trong bóng tối trong khi các thành phần a và b vẫn ổn định. Điều này làm cho Lab trở thành lựa chọn tốt cho loại bỏ bóng vì bóng đƣợc cô lập trong L. HSL Hue, Saturation, Lightness. Màu sắc, độ bão hòa và độ sáng – thể hiện đặc điểm của một vòng màu. HSV Hue, Saturation, and Value. Tập giá trị này mô tả màu sắc (sắc độ) về độ bóng (độ bão hòa hoặc lƣợng màu xám) và giá trị độ sáng của chúng. RGB Mô hình màu Red, Green và Blue. CMU CMU motion capture data set. iii
DANH MỤC HÌNH Hình 1: Các khảo sát về Nhận dạng Hành động. ........................................................2 Hình 2: Tổng hợp các nghiên cứu về nhận dạng hành động. ......................................3 Hình 3: Tổng quan phƣơng pháp đề xuất ....................................................................9 Hình 4: Ví dụ hình ảnh trên khi lại quỹ đạo chuyển động của một ngƣời đang chạy, 2 vị trí theo dõi là chân trái và tay trái. .....................................................................10 Hình 5: (a) một ngƣời đang đi bộ. (b) pixel trƣớc và bóng, nền trở thành trắng, (c) pixel trƣớc loại bỏ bóng, nền trở thành trắng. ........................................................... 12 Hình 6: Các thành phần màu RGB của một điểm ảnh đƣợc vẽ cho mỗi khung mẫu. ...................................................................................................................................13 Hình 7: Các thành phần màu HSV của một điểm ảnh đƣợc vẽ cho mỗi khung mẫu. ...................................................................................................................................13 Hình 8: Các thành phần màu Lab của một pixel đƣợc vẽ cho mỗi khung mẫu. .......14 Hình 9: theo dõi một vài hành động của chân. (a) đi bộ, (b) nhảy, (c) chạy, (d) chân đặt cạnh nhau .............................................................................................................16 Hình 10: (a), (b) theo dõi tay khi vẫy hai tay, (c) theo dõi tay khi vẫy tay phải, (d) theo dõi chân và tay trong hành động jumping-jack. ................................................ 17 Hình 11: Sử dụng chiều cao hộp để phát hiện hành động uốn cong. ........................18 Hình 12: (a) Hình dung một ngƣời đang chạy. Đƣờng cong thể hiện chuyển động của chân trái. (b) Đƣờng cong phù hợp và phân đoạn của một đƣờng cong chuyển động chân trong khi chạy. (c) Đƣờng cong của đƣờng cong chuyển động. .............20 Hình 13: (a) Vectơ đặc trƣng chứa vị trí y của cả hai chân cho hành động ―chạy‖. Các mẫu 0-99 là các giá trị y cho chân tạo ra chuyển động cơ bản. Mẫu 100-200 giá trị y cho chân còn lại. (b) vectơ đặc trƣng chứa vị trí y của cả hai chân cho hành động ―nhảy về phía trƣớc‖. Các mẫu 0-99 là các giá trị y cho chân tạo ra chuyển động cơ bản. Các mẫu 100-200 là các giá trị y cho chân còn lại. .............................23 Hình 14: Chiếu các vectơ đặc trƣng đang đào tạo lên các không gian vector lần thứ 1 và thứ 2 đƣợc tạo bằng cách sử dụng bộ dữ liệu video Weizmann. ......................25 Hình 15: Chiếu các vectơ đặc trƣng đang đào tạo lên các không gian vector thứ 1 và thứ 3 đƣợc tạo bằng cách sử dụng tập dữ liệu video Weizmann. ............................. 25 Hình 16: Các hành động "Chuyển lên phía trƣớc", "nhảy lên" và "đi bộ lên cầu thang". Các đƣờng cong trong mỗi hành động cho thấy các quỹ đạo của bàn tay phải và chân phải...............................................................................................................26 iv
Hình 17: Hành động ―diễu hành‖. Các đƣờng cong cho thấy các quỹ đạo của bàn tay phải và chân phải .................................................................................................27 Hình 18: Hành động ―đi bộ‖. Các đƣờng cong hiển thị các quỹ đạo của bàn tay phải và chân phải...............................................................................................................27 Hình 19: Hành động ―chạy‖. Đƣờng cong thể hiện quỹ đọa của tay phải và chân phải. ...........................................................................................................................27 Hình 20: Đƣờng cong phù hợp và phân đoạn cho hành động ―đi bộ‖. ..................... 28 Hình 21: Tốc độ và vận tốc của hành động ―đi bộ‖. .................................................29 Hình 22: Dữ liệu vị trí cho chuyển động cơ bản ―đi bộ‖ đầu tiên từ Hình 20. .........30 Hình 23: Dữ liệu vị trí cho chuyển động cơ bản ―đi bộ‖ thứ hai từ Hình 20. ...........30 Hình 24: Đƣờng cong phù hợp và phân đoạn cho hành động "chạy". ......................31 Hình 25: Tốc độ và vận tốc của hành động ―chạy‖. .................................................32 Hình 26: Dữ liệu vị trí cho chuyển động cơ bản ―chạy‖ từ Hình 24. .......................33 Hình 27: Đƣờng cong phù hợp và phân đoạn cho hành động "nhảy". .....................34 Hình 28: Tốc độ và vận tốc của hành động ―nhảy‖. .................................................35 Hình 29: Dữ liệu vị trí cho chuyển động cơ bản ―nhảy‖ lên từ Hình 27. .................36 Hình 30: Dữ liệu vị trí cho chuyển động cơ bản ―nhảy‖ xuống từ Hình 27. ............36 Hình 31: Đƣờng cong phù hợp và phân đoạn cho hành động "nhảy về phía trƣớc". ...................................................................................................................................37 Hình 32: Tốc độ và vận tốc của hành động ―nhảy về phía trƣớc‖. ...........................37 Hình 33: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―nhảy về phía trƣớc‖ từ Hình 31. .....................................................................................................38 Hình 34: Đƣờng cong phù hợp và phân đoạn cho hành động "đi bộ lên cầu thang". ...................................................................................................................................39 Hình 35: Tốc độ và vận tốc của hành động ―đi bộ lên cầu thang‖. ..........................40 Hình 36: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―đi lên cầu thang‖ từ Hình 34..................................................................................................................40 Hình 37: Đƣờng cong phù hợp và phân đoạn cho hành động ―diễu hành‖. .............41 Hình 38: Tốc độ và vận tốc của hành động ―diễu hành‖. .........................................41 Hình 39: Dữ liệu vị trí của một trong các chuyển động cơ bản trong ―diễu hành‖ từ Hình 37. .....................................................................................................................42 Hình 40: Kết quả của mô phỏng máy ảnh trên chuyển động cơ bản ―đi bộ‖ ở hƣớng xem -60, -40, -20, 0, 20, 40 và 60 độ. Mỗi vectơ đặc trƣng là trung tâm trong trục y nhƣ một phần của tập sinh vector. ............................................................................45 Hình 41: Theo dõi hành động ―jack‖: mở rộng hai tay và hai chân. ........................47 Hình 42: Theo dõi hành động ―nhảy‖. ......................................................................48 v
Hình 43: Theo dõi hành động ―skip‖. .......................................................................48 Hình 44: Theo dõi hành động ―chạy‖. ......................................................................49 Hình 45: Theo dõi hành động ―vẫy tay 1‖. ...............................................................49 Hình 46: Theo dõi hành động ―vãy tay 2‖. ...............................................................50 Hình 47: Theo dõi hành động ―gập ngƣời‖. ..............................................................50 Hình 48: Theo dõi hành động ―đi bộ‖. ......................................................................51 Hình 49: Theo dõi hành động ―dang chân 2 bên‖ .....................................................51 Hình 50: Hành động ―nhảy dọc‖ ...............................................................................52 Hình 51: Đƣờng cong phù hợp và phân đoạn cho hành động ―chạy‖ từ video Weizmann tập dữ liệu. ..............................................................................................53 Hình 52: Tốc độ và vận tốc của hành động ―chạy‖ từ tập dữ liệu video Weizmann. ...................................................................................................................................53 Hình 53: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―chạy‖. ..............54 Hình 54: Đƣờng cong phù hợp và phân đoạn cho hành động ―đi bộ‖ từ tập dữ liệu video Weizmann. .......................................................................................................54 Hình 55: Tốc độ và vận tốc của hành động ―đi bộ‖ từ tập dữ liệu video Weizmann. ...................................................................................................................................55 Hình 56: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―đi bộ‖. .............55 Hình 57: Đƣờng cong phù hợp và phân đoạn cho hành động ―side‖ từ video Weizmann tập dữ liệu. ..............................................................................................56 Hình 58: Tốc độ và vận tốc của hành động ―dang chân 2 bên‖ từ tập dữ liệu video Weizmann..................................................................................................................56 Hình 59: Dữ liệu vị trí cho một trong các chuyển động cơ bản ―dang chân 2 bên‖. 57 Hình 60: Đƣờng cong phù hợp và phân đoạn cho hành động ―jack‖ (dang 2 chân và 2 tay) từ video tập dữ liệu Weizmann. ......................................................................58 Hình 61: Tốc độ và vận tốc của hành động ―jack‖ từ tập dữ liệu video Weizmann. 58 Hình 62: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―jack‖. ...............59 Hình 63: Đƣờng cong phù hợp và phân đoạn cho hành động ―nhảy‖ từ tập dữ liệu video Weizmann. Đây là một chuyển động nhảy về phía trƣớc. ..............................59 Hình 64: Tốc độ và vận tốc của hành động ―nhảy‖ từ tập dữ liệu video Weizmann. ...................................................................................................................................60 Hình 65: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―nhảy‖...............60 Hình 66: Đƣờng cong phù hợp và phân đoạn cho hành động ―pjump‖ (nhảy dọc) từ Weizmann tập dữ liệu video. ....................................................................................61 Hình 67: Tốc độ và vận tốc của hành động ―pjump‖ từ tập dữ liệu video Weizmann. ...................................................................................................................................61 vi
Hình 68: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―pjump‖. ...........62 Hình 69: Đƣờng cong phù hợp và phân đoạn cho hành động ―vẫy tay‖ từ tập dữ liệu video Weizmann. .......................................................................................................63 Hình 70: Tốc độ và vận tốc của hành động ―vẫy tay‖ từ tập dữ liệu video Weizmann. ...................................................................................................................................64 Hình 71: Dữ liệu vị trí cho một trong những chuyển động cơ bản ―sóng‖. ..............64 vii
CHƢƠNG 1. TỔNG QUAN VẤN ĐỀ NHẬN DẠNG HÀNH ĐỘNG 1.1. Giới thiệu và thực trạng Đi kèm với sự phát triển không ngừng của đời sống kinh tế xã hội cũng nhƣ công cuộc công nghiệp hóa hiện đại hóa đất nƣớc, tình trạng ngƣời cao tuổi sống neo đơn một mình hoặc không có sự quan tâm chăm sóc thƣờng xuyên của ngƣời thân trong gia đình ngày càng gia tăng đáng kể. Đây là những đối tƣợng rất dễ gặp những rủi ro ảnh hƣởng rất lớn tới sức khỏe, tính mạng trong cuộc sống bởi các nguyên nhân đến từ tuổi tác nhƣ bệnh tật hay sự suy giảm các chức năng của cơ thể; các nguyên nhân đến từ điều kiện sống gây căng thẳng tâm lý, chấn thƣơng về tinh thần. Đối với ngƣời cao tuổi, các yếu tố bất thƣờng chủ yếu xảy ra đối với họ là ngã gây chấn thƣơng mà do cơ thể già yếu không thể tự gƣợng dậy, bị đột quỵ, đau tim, huyết áp cao... Do đó, việc giám sát thƣờng xuyên liên tục nhằm phát hiện những rủi ro bất trắc xảy ra có ý nghĩa vô cùng quan trọng tới việc chăm sóc sức khỏe ngƣời cao tuổi. Với yêu cầu đó, việc giám sát sử dụng Camera đã thể hiện nhiều ƣu điểm vƣợt trội, có thể quan sát liên tục, phát hiện bất thƣờng nhanh và chính xác nhất. Tuy nhiên, với các hệ thống Camera theo dõi bình thƣờng thì cần phải có ngƣời vận hành giám sát liên tục. Điều này là khó có thể thực hiện triển khai đại trà. Để khắc phục, chúng ta cần tạo ra một hệ thống giám sát tự động, liên tục quan sát, phân tích và đƣa ra các cảnh báo sớm nhất về các hành vi của ngƣời đƣợc giám sát mà cụ thể ở đây là ngƣời cao tuổi. Chính vì vậy, luận văn ―Theo dõi hành vi ngƣời cao tuổi – sử dụng Camera‖ sẽ tập trung xây dựng, phát triển thuật toán nhận dạng hành vi của con ngƣời qua các dữ liệu Video thu đƣợc. Ngày nay, dữ liệu video dễ dàng đƣợc tạo ra bởi các thiết bị nhƣ: điện thoại di động, máy tính xách tay, máy ảnh kỹ thuật số, các hệ thống camera quan sát (CCTV)… bên cạnh đó các trang web chia sẻ video cũng không ngừng tăng trƣởng về số lƣợng lẫn chất lƣợng. Bài toán nhận diện hành động của con ngƣời trong video đóng góp một phần tự động hóa khai khác tài nguyên dữ liệu nhiều thông tin này. Các ứng dụng liên quan đến bài toán nhận diện hành động nhƣ: 1
- An ninh và các hệ thống giám sát truyền thống gồm mạng lƣới các camera và đƣợc giám sát bởi con ngƣời. - Tƣơng tác giữa ngƣời và máy vẫn còn nhiều thách thức, những dấu hiệu thị giác là phƣơng thức quan trọng nhất giao tiếp phi ngôn ngữ. Khai thác hiệu quả phƣơng thức giao tiếp này: Thông qua cử chỉ, hành động, hoạt động hứa hẹn tạo ra thế hệ máy tính tƣơng tác chính xác và tự nhiên hơn với con ngƣời. - Bên cạnh đó nhận diện hành động của con ngƣời trong video còn đƣợc ứng dụng trong tóm tắt, truy vấn video, phân tích thể thao. 1.2. Các nghiên cứu liên quan Hình 1: Các khảo sát về Nhận dạng Hành động. 2
Hình 2: Tổng hợp các nghiên cứu về nhận dạng hành động. 1.2.1. Các khảo sát về nhận dạng hành động Một điều thách thức trong công việc nhận dạng là sự khái quái hóa, chúng ta phải xử lý trong các tình huống thay đổi tốc độ và các biến thể của từng hành động riêng biệt. Poppe [38] đã phân loại hình ảnh trích xuất thành hai nhóm: đơn đại diện và đa đại diện. Đa đại diện cung cấp một cách tiếp cận đầu cuối trong trích xuất thông tin từ hình ảnh, thƣờng thông qua phép trừ nền. Đơn đại diện tập trung vào các tính năng cục bộ của một hình ảnh hoặc chuỗi hình ảnh bằng cách trích xuất các điểm đáng chút ý, chẳng hạn nhƣ các góc đối với chuyển động nhanh. Nghiên cứu của chúng tôi hƣớng đến tập dữ liệu đa đại diện và nhận dạng trực tiếp. Hầu hết các kỹ thuật nhận dạng hành động đƣợc sử dụng trong 3 lĩnh vực: giám sát trực quan, ngành công nghiệp giải trí, robot-học và điều khiển. Trong khi 3
các lĩnh vực ứng dụng có liên quan chặt chẽ với nhau, thì các mục tiêu của từng ứng dụng cụ thể và các phƣơng pháp đƣợc sử dụng để đạt đƣợc mục tiêu hoàn toàn có thể khác nhau. Ví dụ, trọng tâm của nhiều ứng dụng giám sát trực quan là để phát hiện các hành động đang đƣợc quan tâm, thậm chí có thể dự đoán ý định của ngƣời thực hiện hành động. Ngƣợc lại, nhiều ứng dụng robot liên quan đến việc dạy robot thực hiện một nhiệm vụ hoặc một loạt các hành động bằng của con ngƣời. Ngành công nghiệp giải trí chủ yếu liên quan đến việc theo dõi chuyển động để ánh xạ chuyển động của diễn viên vào hoạt hình kỹ thuật số, hoặc lập bản đồ một ngƣời chơi đến các sự kiện trong một trò chơi video. Kruger [26] trình bày các phƣơng pháp trong ba lĩnh vực chính tƣơng ứng với từng lĩnh vực ứng dụng khác nhau: giải thích và công nhận hành động, bắt chƣớc hành động, và nhận diên dự đoán hành động tiếp theo. Cách tiếp cận của chúng tôi phù hợp với các nhóm giải thích và nhận diện. Phƣơng pháp nhận dạng đƣợc chia thành các phƣơng pháp không phân biệt giữa các bộ phận cơ thể và các phƣơng pháp dựa trên cơ thể - bộ phận cơ thể. Cách tiếp cận của chúng tôi là cách tiếp cận dựa trên bộ phận cơ thể vì chúng tôi sử dụng quỹ đạo của từng bộ phận cơ thể để nhận diện. Moeslund [31] cung cấp một khảo sát đề cập việc theo dõi dựa trên camera, ghi lại chuyển động và các kỹ thuật nhận dạng và nghiên cứu trong khu vực trong giai đoạn 2000-2006. Các phƣơng pháp đƣợc phân loại thành 4 nhóm chính: khởi tạo, theo dõi, ƣớc tính tƣ thế và nhận diện. Aggarwal và Park [2] khảo sát các chủ đề về mô hình cơ thể ngƣời, mức độ chi tiết cần thiết để nhận ra hành động, cách tiếp cận để nhận biết hành động của con ngƣời và các phƣơng pháp nhận diện cấp cao. Phƣơng pháp mô hình cơ thể ngƣời đƣợc nhóm lại thành mô hình và phƣơng pháp dựa trên ngoại hình. Theo cách tiếp cận dựa trên mô hình, một quy trình phù hợp đƣợc sử dụng để tính toán các tham số của mô hình cơ thể ngƣời để nó phù hợp nhất với dữ liệu hình ảnh. Ngƣợc lại, một cách tiếp cận dựa trên ngoại hình phát hiện các tính năng trong một hình ảnh và không sử dụng mô hình của cơ thể con ngƣời. Mức độ chi tiết cần thiết để thực hiện nhận dạng đƣợc dựa trên ứng dụng và các loại hành động đƣợc công nhận. Aggarwal phân loại các cấp độ chi tiết khác nhau thành ba nhóm: tổng, trung gian và chi tiết. Ở cấp độ tổng, chỉ giới hạn hộp hoặc các ranh giới khác đƣợc sử dụng để nhận diện. Ví dụ, Sato và Aggarwal [42] nhận ra các sự kiện nhƣ mọi ngƣời gặp gỡ, đi bộ với nhau hoặc đi ngang qua ngƣời khác. Một ví dụ khác đƣợc cung cấp bởi Ivanov và Bobick [21] nơi các sự kiện trong một bãi đậu xe đƣợc nhận diện. Ở cấp độ trung gian, các bộ phận của cơ thể 4
nhƣ đầu, thân, cánh tay và chân đƣợc xác định. Mức chi tiết bao gồm các cách tiếp cận trong đó nhận dạng đủ chi tiết để xác định hành động dựa trên chuyển động của một bộ phận cơ thể. Tay nhận dạng cử chỉ là một ví dụ. Buxton [8] đã cung cấp một góc nhìn mới với trọng tâm là trí tuệ nhân tạo kết hợp với quan sát để tạo ra các hệ thống thông minh. Các khảo sát khác hỗ trợ ý tƣởng này xuất hiện trƣớc năm 1999 bao gồm Gavrila [15], Aggarwal và Cai [1], Bobick [6], và Cedras và Shah [10]. 1.2.2. Cách tiếp cận đa lớp Phần lớn các nghiên cứu về nhận dạng hành động tập trung sử dụng một chuỗi hình ảnh 2-D từ một máy ảnh, hoàn toàn tự nhiên khi ta xem xét tới một số lƣợng lớn máy quay video đã đƣợc sử dụng bởi các hệ thống giám sát. Để phát triển các kỹ thuật cấp cao trong đề tài này, các bƣớc xử lý hình ảnh cấp thấp hơn đƣợc sử dụng để trích xuất các thông tin cần thiết từ các chuỗi hình ảnh. Kỹ thuật theo dõi, ƣớc tính và nhận dạng cử chỉ là ví dụ về các kỹ thuật cấp thấp. Nhiều tác giả tiếp cận lĩnh vực bằng cách sử dụng một ví dụ về kỹ thuật xử lý cấp thấp và thêm cấp độ cao các hệ thống có phần độc lập với các quy trình cấp thấp hơn. Hệ thống cấp cao đƣợc sử dụng để phân loại các hành động và hoạt động dựa trên đầu vào từ hệ thống cấp thấp. Một ví dụ về hệ thống cấp cao đƣợc trình bày bởi Ryoo và Aggarwal [40] [41]. Hệ thống của họ sử dụng trích xuất phần cơ thể, ƣớc tính tƣ thế và nhận dạng cử chỉ dƣới dạng một lớp cấp thấp. Các hành động đã đƣợc chia nhỏ và độ phân giải thấp đƣợc công nhận bởi các nhận dạng cử chỉ cấp thấp. Ivanov và Bobick [21] trình bày một hệ thống trong đó lớp nhận dạng cấp cao sử dụng những khung đại diện không ngữ cảnh một cách ngẫu nhiên. Trong quá trình phân tích cú pháp chuỗi, lỗi thay thế và lỗi chèn đƣợc xem xét để xử lý sự không chắc chắn trong chuỗi đầu vào. Để minh họa đô mạnh của lớp cấp cao, họ đã trình bày một số ứng dụng ví dụ. Hệ thống đầu tiên nhận ra các hình dạng đƣợc tạo ra bởi các chuyển động của tay ngƣời. Lớp cao hơn có thể nhận ra bàn tay tạo thành hình vuông. Một ví dụ khác hệ thống nhận ra các chuyển động đƣợc thực hiện bởi một nhạc trƣởng. 1.2.3. Công cụ đƣợc sử dụng phổ biến Có nhiều cách tiếp cận để nhận dạng hành động, một trong những công cụ phổ biến nhất đƣợc sử dụng là mô hình Markov ẩn (the hidden Markov model). Lợi ích chính của các mô hình Markov ẩn là có thể tính xác suất của một chuỗi 5
trong một mô hình nhất định. Công việc dễ dàng khi ta so sánh chuỗi đang quan sát với một chuỗi đã đƣợc biết đến bằng chuỗi Markov. Các công cụ phổ biến khác đƣợc sử dụng trong nhận dạng hành động là ngữ cảnh, vì nhiều hành động có thể đƣợc phân tách thành các hành động phụ, chúng nằm trong một ngữ cảnh - một công cụ mô tả tốt. Joo và Chellappa [23] thể hiện việc sử dụng ngữ cảnh có thuộc tính để nhận ra hành động dựa trên các sự kiện đƣợc tạo ra bởi một hệ thống quan sát. Ví dụ, tác giả trình bày một hệ thống giám sát bãi đậu xe phát hiện khi một ngƣời kiểm tra chiếc xe đang đỗ nhiều lần, chỉ ra rằng họ có thể có ý định không trung thực. 1.2.4. Nhận dạng hành động không bằng theo dõi Bởi vì bộ não con ngƣời là một bộ phân loại hành động phát triển cao, có nghĩa một số nhà nghiên cứu cố gắng bắt chƣớc hành vi của bộ não bằng cách sử dụng các phƣơng pháp dựa trên mạng nơ-ron thần kinh. Escobar [13] đã giới thiệu một hệ thống dựa trên mạng nơ-ron cố gắng mô hình hóa cụ thể các khu vực của não đƣợc dành riêng cho chuyển động. Theo cách tiếp cận của họ, bản đồ chuyển động đƣợc xây dựng bằng cách phân tích việc kích hoạt các tế bào trong mạng. Các bản đồ chuyển động sau đó đƣợc sử dụng cho phân loại bằng cách so sánh chúng với bản đồ chuyển động từ một tập dữ liệu đào tạo. Chaudhry [11] giới thiệu một kỹ thuật sử dụng biểu đồ của dòng quang để phát hiện hành động. Tác giả minh họa rằng một hồ sơ lƣu lƣợng quang đặc trƣng có mặt cho hành động khác nhau. Bởi vì dòng quang phụ thuộc vào hƣớng chuyển động và cách thức thu đối tƣợng vào máy ảnh (thu phóng), biểu đồ đƣợc chuẩn hóa và góc của các vectơ dòng quang so với trục hoành đƣợc sử dụng để tính toán tập vector đƣợc thêm vào trong biểu đồ. Điều này làm cho dòng quang độc lập với hƣớng trái hoặc hƣớng phải. Độ lớn của mỗi vectơ dòng quang xác định mức độ đóng góp của nó vào biểu đồ. Điều này loại bỏ ảnh hƣởng của nhiễu nền. Các lợi thế của phƣơng pháp này là sự đơn giản của nó và chỉ cần xử lý ở mức độ thấp. Ví dụ, trừ nền là không cần thiết. Dữ liệu video đƣợc sử dụng để đánh giá kỹ thuật là các video độ phân giải thấp từ cơ sở dữ liệu Weizmann [53] và bao gồm các hành động chẳng hạn nhƣ đi bộ, chạy, nhảy, uốn cong và vẫy tay. 1.2.5. Nhận dạng hành động có theo dõi Năm 2000, Su [45] cùng công sự đã trình bày một kỹ thuật nhận dang không dựa trên nền tảng tầm nhìn, sử dụng Hệ thống theo dõi siêu âm 3-D, họ nhận ra 10 cử động cánh tay điển hình đƣợc thực hiện khi sử dụng Ngôn ngữ cử chỉ ký hiệu Đài Loan. Vị trí của bàn tay chứa một máy phát siêu âm đƣợc theo dõi dựa trên tín 6
hiệu đầu vào từ ba micro. Tín hiệu này đƣợc lọc và làm mịn ở đầu vào để loại bỏ ảnh hƣởng nhiễu. Một phƣơng pháp đơn giản đƣợc sử dụng để tìm các điểm di chuyển trong chuyển động là dựa trên tốc độ thay đổi hƣớng trong đƣờng cong, điểm bắt đầu và kết thúc của đƣờng cong chỉ đơn giản là điểm đầu tiên và điểm cuối cùng trong một chuỗi hành động. Các đƣờng cong đƣợc dán nhãn dựa trên một trong hai độ thẳng và hƣớng của chúng (ngang, dọc, dƣơng, âm) hoặc, nếu đƣờng cong có đủ lực, một nhãn dựa trên hình dạng cơ bản đƣợc đƣa ra. Năm 2012, Yao [60] cũng kết hợp nhận dạng bằng việc theo dõi một hƣớng tiếp cận đơn lẻ. Các tác giả nhận thấy rằng nhận dạng hành động và ƣớc tính tƣ thế là những nhiệm vụ liên quan chặt chẽ. Họ sử dụng nhận dạng hành động dựa trên cơ thể 2 chiều bằng nhiều máy ảnh chụp liên tiếp để giúp đơn giản hóa tƣ thế 3 chiều và sau đó sử dụng thông tin từ kết quả để phán đoán hành động. Đầu tiên, các đặc trƣng ngoại hình, chẳng hạn nhƣ màu sắc, dòng quang và độ dốc không gian, đƣợc trích xuất từ các khung hình video ở mỗi chế độ xem. Các đặc trƣng của từng tƣ thế đƣợc định nghĩa để thực hiện nhận dạng. Khởi tạo hệ thống nhận dạng hành động dựa trên tƣ thế 2 chiều đƣợc sử dụng để giảm thời gian tính toán cần thiết để ƣớc tính trong tƣ thế 3-D. Kết quả nhận dạng cuối cùng đƣợc cải thiện bằng cách sử dụng các phƣơng pháp dựa trên tƣ thế 3-D so với nhận dạng 2-D ban đầu. Bởi vì quỹ đạo chuyển động chứa thông tin có giá trị lớn để nhận dạng hành động, nên gần đây xu hƣớng nghiêng về sử dụng lý thuyết này nhiều hơn. Tƣơng tự nhƣ vậy, PCA là một công cụ phổ biến đƣợc sử dụng để giảm tính nhiều chiều của dữ liệu. Ở đây chúng tôi trình bày công việc gần đây sử dụng một trong hai, hoặc quỹ đạo chuyển động hoặc PCA, thậm chí cả hai. Năm 2007, Bashir và cộng sự. [5] đã trình bày sự hiển thị những quỹ đạo nhỏ sử dụng các hệ số PCA. Giống nhƣ cách tiếp cận của chúng tôi, quỹ đạo đƣợc phân đoạn tại các điểm có độ cong cao. Sau đó, các quỹ đạo đƣợc thay đổi bởi các hệ số PCA bằng cách đào tạo các mô hình hỗn hợp Gaussian. Cuối cùng, việc phân biệt đƣợc thực hiện bằng các mô hình Markov ẩn. Bashir đã chứng minh cách tiếp cận của mình trên một bộ dữ liệu ngôn ngữ ký hiệu của Mỹ. Cách tiếp cận của chúng tôi khác nhau ở chỗ chúng tôi phân loại các ứng dụng bằng cách sử dụng phân cụm trong không gian mẫu. Chúng tôi có điểm giống là làm mƣợt quỹ đạo để phân đoạn chuyển động, nội suy qua các khoảng trống trong dữ liệu và tạo ra vectơ đặc trƣng. Bashir sử dụng lọc trên dữ liệu quỹ đạo thô để thực hiện lấy mẫu lại. Tƣơng tự nhƣ cách tiếp cận của chúng tôi, Gritai [18] trình bày một hệ thống có quỹ đạo của các mốc xác định khác nhau từ một hệ thống theo dõi. Họ cũng xem 7
xét kích thƣớc cơ thể và tỷ lệ khác biệt giữa các đối tƣợng và áp dụng các biến đổi để xác định rõ sự khác biệt. Wu và Li [59] sử dụng các thuộc tính của dữ liệu quỹ đạo để tạo tín hiệu chuyển động. Wu khám phá việc giảm chiều của chữ ký bằng PCA để tối ƣu hóa. Han và cộng sự. [20] sử dụng mô hình Gaussian để tìm hiểu chuyển động trong một không gian phân cấp đa dạng. Họ sử dụng PCA và kỹ thuật phân cụm k- điểm để chuyển động nhóm trong không gian đa dạng. 8
CHƢƠNG 2. KỸ THUẬT NHẬN DẠNG HÀNH ĐỘNG DỰA TRÊN PHƢƠNG PHÁP PHÂN TÍCH ĐẶC TRƢNG CHUYỂN ĐỘNG 2.1. Phƣơng pháp đề xuất 2.1.1. Tổng quan Hình 3: Tổng quan phương pháp đề xuất Cách tiếp cận bao gồm 4 giai đoạn: thu thập dữ liệu, phân tích chuyển động, đào tạo và nhận dạng. 2.1.2. Thu thập dữ liệu (Data Collection) 2.1.2.1. Dữ liệu hình chụp chuyển động Sử dụng dữ liệu của có sẵn của Robotics Institute, Carnegie Mellon University. Để tạo ra tập dữ liệu, một hệ thống theo dõi nâng cao sử dụng các điểm nhỏ đánh dấu vào vị trí quan sát trên cơ thể. Nhiểu camera làm việc để xác định vị trí 3- D từng điểm trên từng khung hình. 9
Hình 4: Ví dụ hình ảnh trên khi lại quỹ đạo chuyển động của một người đang chạy, 2 vị trí theo dõi là chân trái và tay trái. 2.1.2.2. Dữ liệu video (có sẵn) Để đánh giá hệ thống nhận diện hành động sử dụng video, chúng ta dùng tập dữ liệu Weizmann Human Action. Đây là tập dữ liệu thông thƣờng đƣợc sử dụng để đánh giá hiệu suất các phƣơng thức nhận diện hành động. Những video trong tập là góc nhìn về một ngƣời (toàn cơ thể) bằng một camera tĩnh. Nhƣợc điểm: độ phân giải thấp (180 x 144). 2.1.2.3. Tạo dữ liệu chuyển động từ video 2.1.2.3.1. Xóa nền Mục đích: Trích xuất hình ngƣời tách biệt ra từ video. MoG Method (phƣơng pháp phân phối Gauss) Sử dụng hàm phân phối để mô hình mỗi điểm ảnh. Xác suất quan sát đƣợc một pixel màu X tại thời điểm t là:           (1)  k: số vùng phân bố Gauss trong hỗn hợp. : trọng lƣợng ƣớc tính cho phân bố Gauss thứ i tại thời điểm t.  : giá trị trung bình của phân phối thứ i tại thời điểm t.  : ma trận hiệp phƣơng sai của Gauss thứ i tại thời điểm t.  : hàm mật độ xác suất. 10
(2) Để giảm thời gian tính toán cho mỗi phân phối trong thời gian training, phƣơng pháp MoG tránh tính toán nghịch đảo của ma trận hiệp phƣơng sai, Σ, bằng cách giả định rằng phƣơng sai của mỗi thành phần màu bằng với các thành phần màu khác. Bằng cách đƣa ra giả định này, ma trận hiệp phƣơng sai có thể đƣợc xác định là: (3) trong đó σi là phƣơng sai của màu và I là ma trận nhận dạng. Để phân loại màu pixel là vùng phía trƣớc hoặc nền, màu của pixel đƣợc so sánh với bộ phân phối tƣơng ứng. Pixel Xt màu đƣợc cho là khớp với phân phối i nếu: || Xt −µi ||