Bài giảng Phương pháp phân tích dữ liệu

Chia sẻ: Vdfv Vdfv | Ngày: | Loại File: PDF | Số trang:63

Thêm vào BST

Báo xấu

1.102
lượt xem 151
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phân tích thống kê có thể được hiểu là các phương pháp chắt lọc dữ liệu để rút ra các suy luận logic. Các giai đoạn chủ yếu của phân tích thống kê.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Phương pháp phân tích dữ liệu

PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định các phương pháp phân tích đưa vào ứng dụng cho dữ liệu, chứ không phải từ cách nhìn của một kỹ thuật viên thống kê (có thể thấu hiểu đầy đủ hơn bản chất các phương pháp thống kê),
3.1 Bản chất và chức năng của phân tích thống kê  Phân tích thống kê có thể được hiểu là các phương pháp chắt lọc dữ liệu để rút ra các suy luận logic.  Các giai đoạn chủ yếu của phân tích thống kê gồm có:  Sắp xếp dữ liệu thô vào các thứ bậc đã được đo lường.  Tóm tắt dữ liệu.  Áp dụng các phương pháp phân tích để làm rõ các mối quan hệ tương hỗ và các ý nghĩa định lượng giữa các dữ liệu.
3.2 Quá trình phân tích dữ liệu  Xếp dữ liệu theo thứ tự  (lập dãy, lập bảng, xếp loại, tính %)Tóm tắt dữ liệu thống kêChọn phương pháp phân tích thích hợp (chọn các tiêu chuẩn)Phân tích các sai biệtNghiên cứu các mối liên hệPhân tích dữ liệu thực nghiệm 
a/ Xếp dữ liệu theo thứ tự  Dữ liệu thô được thu thập từ thực địa và mã hóa vẫn chưa đủ điều kiện để cho phép phân tích, diễn giải. Chúng cần được trải qua giai đoạn sắp xếp theo thứ tự và bước thống kê (lập bảng). Phân làm 3 loại như sau:
b/ Lập dãy (array)  Đây là hình thức đơn giản nhất để sắp xếp dữ liệu. Cách này sẽ xếp dữ liệu thành chuỗi số theo hướng tăng dần, hoặc giảm dần. Phương pháp này chỉ thích hợp với những dãy dữ liệu nhỏ, nó cho thấy sự phân bố của dãy số, giá trị max và min của dãy số, sự tập trung của dãy số đó
c/ Lập bảng đơn giản (một chiều hoặc một biến)  Ta đếm tần suất xuất hiện của dữ liệu trong chuỗi dữ liệu và lập thành bảng phân phối tần suất (frequency distribution) như sau
Bảng phân bố tuổi của các thí sinh Tuoåi Taàn soá tuyeät Taàn soá töông ñoái (%) Taàn soá tích luõy (%) ñoái 17 1 .3 6 .3 6 18 3 .8 18 .0 25 19 2 .5 12 .5 37 20 5 .5 31 .8 68 21 2 .5 12 .3 81 2 3 .8 18 .0 10 Toång 16 .0 10 coäng
Dạng bảng này thể hiện khá rõ ràng về phân bố dãy dữ liệu theo các mức dữ liệu khác nhau  Tần số quan sát tuyệt đối ứng với từng mức dữ liệu khác nhau.  Tần số quan sát tương đối tính theo tỷ lệ % của từng mức dữ liệu so với toàn bộ mẫu quan sát.  Tần số tích lũy chỉ rõ tỷ lệ % của tất cả quan sát có giá trị nhỏ hơn hay bằng giá trị mức dữ liệu đang xem xét.  Các giá trị dữ liệu bất thường (quá lớn hay quá nhỏ) để kiểm chứng lại vì những giá trị dữ liệu sau có thể làm lệch kết quả phân tích thống kê, hoặc những giá trị đúng nhưng bất thường đôi khi cần một cách xử lý đặc biệt khác.  Các giá trị mã hóa bất thường sẽ chỉ ra sai sót do việc nhập liệu hay mã hóa.
d/ Lập bảng so sánh toàn diện (Cross-tabulation)  Nhiều vấn đề nghiên cứu có thể được giải quyết bằng việc lập những bảng đơn giản. Tuy nhiên, bảng đơn giản chỉ cho biết sự phân bố của một biến số tại một thời điểm nào đó, và có thể không đem lại đầy đủ thông tin cho dữ liệu. Hầu hết các dữ liệu đều có thể được tổ chức ở hình thức cao hơn để cho ra những thông tin phụ thêm. Bảng so sách toàn diện chính là hình thức mở rộng của bảng một chiều để nhà nghiên cứu có thể nghiên cứu mối liên hệ giữa hai hay nhiều biến bằng cách đồng thời đếm tần số xuất hiện ở từng bảng một chiều.
Ví dụ: Liên hệ giữa mức lợi tức và trình độ giáo dục Giaùo duïc Möùc lôïi töùc (dollar) treân moãi Döôù 50-79 80-9 10 1250 150 20 Treân Toå ñaàu i 50 - - - - 250 ng ngöôøi soá 1249 149 19 249 Giaùo duïc 23 136 61 48 40 46 16 13 592 phoå thoâng trôû xuoáng Coù töø 1-3 145 9 46 80 51 61 26 3 541 naêm trung hoïc Toát 196 217 137 187 217 20 164 139 147 nghieäp trung hoïc
4- Đo lường khuynh hướng hội tụ của dữ liệu  Ba cách đơn giản nhất để đo lường khuynh hướng hội tụ của dãy dữ liệu là tính các giá trị mode, giá trị trung vị (median) và giá trị trung bình (mean).
 Giá trị mode Giá trị mode là giá trị dữ liệu có tần số quan sát lớn nhất, hoặc thuộc lớp có tần suất xuất hiện lớn nhất.  Giá trị trung vị Giá trị trung vị của một dãy phân phối là giá trị mà 50% giá trị quan sát được của dãy nhỏ hơn nó và 50% giá trị còn lại của dãy lớn hơn nó. Trước khi tính giá trị trung vị, ta phải sắp xếp dữ liệu theo thứ tự.  Giá trị trung bình Giá trị trung bình được hiểu là trung bình số học, được tính bằng tổng các giá trị của các quan sát chia cho số lần quan sát.
5- Đo lường độ phân tán của dữ liệu  Hai dãy phân phối có thể có cùng giá trị về đo lường khuynh hướng hội tụ, nhưng rất khác nhau về tính chất phân bố của các quan sát, gọi là độ phân tán của dữ liệu. Các giá trị đo lường độ phân tán này rất cần thiết, chúng bổ sung cho các giá trị đo lường độ hội tụ để làm rõ đặc trưng của dãy dữ liệu đang được nghiên cứu.
 Khoảng biến thiên (range)  Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và nhỏ nhất trong dãy phân phối. Giá trị này chỉ nêu bật các cực trị của dữ liệu mà không so sánh với giá trị trung bình nên có thể làm lệch hình ảnh dãy phân phối.  Hệ số biến thiên (Coefficient of Variation)  Nếu cần so sánh độ phân tán của hai hay nhiều dãy phân phối có giá trị trung bình khác nhau hay có các đơn
6- Lựa chọn phương pháp phân tích dữ liệu thích hợp  Khi cân nhắc lựa chọn phương pháp phân tích dữ liệu thích hợp, chúng ta phải dựa trên những cơ sở sau đây:  6.1 Kỹ thuật phân tích muốn chứng minh điều gì ?  Nhà nghiên cứu thường phải trả lời các câu hỏi: “Những kết quả có ý nghĩa gì về mặt thống kê ?”, hoặc “Liệu các kết quả có xuất hiện một cách ngẫu nhiên do việc chỉ sử dụng một mẫu duy nhất không ?”.
 Dữ liệu tham số và dữ liệu phi tham số  Dữ liệu gọi là thuộc loại tham số (parametric) khi chúng được phân phối xung quanh giá trị trung bình hoặc giá trị trung tâm của chúng một cách đối xứng tương tự đường cong xác suất chuẩn tắc. Khi đó, chúng ta có thể dùng những kiểm định xác suất để xác định ý nghĩa thống kê đối với bất kỳ mẫu nghiên cứu nào lấy ra từ tổng thể.  Dữ liệu phi tham số (non parametric) không được phân phối theo đường cong xác suất chuẩn tắc nên ý nghĩa thống kê học của chúng phải được xem xét bằng những kiểm định khác với loại kiểm định căn cứ trên xác suất.
 Phương pháp đơn biến : chỉ phân tích 1 biến số duy nhất.  Phương pháp hai biến : phân tích sự liên hệ giữa 2 biến số.  Phương pháp đa biến : phân tích sự liên hệ giữa 3 hay nhiều biến số với nhau.
 Tính phụ thuộc và phụ thuộc lẫn nhau  Phương pháp phân tích sự liên hệ giữa các biến số được chia làm 2 nhóm:  Một biến số phụ thuộc được kiểm định về tính phụ thuộc của nó với những biến số độc lập khác.  Tất cả các biến số được nghiên cứu về mối liên hệ lẫn nhau, tính phụ thuộc lẫn nhau giữa chúng.
 Số lượng mẫu nghiên cứu cần đến  Các kiểm định thống kê được dùng tùy theo mục đích:  Kiểm tra những sai biệt đáng kể giữa một mẫu đơn thuần với tổng thể đặc biệt nào đó.  Kiểm tra những sai biệt đáng kể giữa hai mẫu độc lập hay có liên quan với nhau.  Kiểm định ý nghĩa của những sai biệt giữa ba hay nhiều mẫu độc lập hay có liên quan với nhau.  Sự đo lường mối tương quan và những kết quả kiểm định về ý nghĩa của chúng.
7- Kiểm định thống kê để đánh giá các giả thuyết Nguyên tắc kiểm định giả thuyết  Trong mục III, ta đã dùng kết quả của mẫu để ước lượng một số trị số thực còn chưa biết của tổng thể và dựa vào đó làm cơ sở mô tả tổng thể. Ngoài ra, để nhận biết các tham số của thị trường (tổng thể) một cách đầy đủ và chi tiết hơn, ta có thể đưa ra một số giả thuyết về các thông số đó và sử dụng các thông tin thu thập trên mẫu để chứng minh. Công cụ chủ yếu cho quá trình đó là các kiểm định thống kê.