HAI BIẾN NGẪU NHIÊN NGANG NHAU - KHÔNG PHÂN BIỆT BIẾN ĐỘC LẬP

Chia sẻ: Muay Thai | Ngày: | Loại File: PDF | Số trang:11

Thêm vào BST

Báo xấu

125
lượt xem 8
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong chương này, ta sẽ nói đến mối liên hệ giữa hai biến ngẫu nhiên với hai phương pháp: tương quan và hồi quy. 1. TƯƠNG QUAN Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và . Trong phân tích này, và được xem là hai biến ngẫu nhiên “ngang nhau”- không phân biệt biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến giữa và . 1.1.Hệ số tương quan Giả sử và là hai biến ngẫu nhiên, với trung bình và phương sai lần...

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: HAI BIẾN NGẪU NHIÊN NGANG NHAU - KHÔNG PHÂN BIỆT BIẾN ĐỘC LẬP

CHƯƠNG 8. TƯƠNG QUAN VÀ HỒI QUY Trong các chương trước, ta đề cập chủ yếu các phương pháp nghiên cứu một biến đơn lẻ, hoặc các biến ngẫu nhiên độc lập. Trong chương này, ta sẽ nói đến mối liên hệ giữa hai biến ngẫu nhiên với hai phương pháp: tương quan và hồi quy. 1. TƯƠNG QUAN Mục tiêu của phân tích tương quan là đo lường cường độ của mối quan hệ giữa hai biến và . Trong phân tích này, và được xem là hai biến ngẫu nhiên “ngang nhau”- không phân biệt biến độc lập và biến phụ thuộc. Tương quan tuyến tính giữa hai biến và là khái niệm thể hiện mức độ mối liên hệ tuyến tính giữa và . , , , 1.1.Hệ số tương quan Giả sử và là hai biến ngẫu nhiên, với trung bình và phương sai lần lượt là . được gọi là hệ số tương quan của tổng thể. Ta có −1 ≤ ≤ 1. Hệ số tương quan thể hiện cường độ và chiều hướng tuyến tính giữa và ; < 0 thì giữa và có mối liên hệ nghịch, nghĩa là khi một biến giảm đi thì biến kia sẽ > 0 thì giữa và có mối liên hệ thuận, nghĩa là khi biến này tăng thì biến kia cũng tăng tăng lên và ngược lại. = 0 thì giữa và không có mối liên hệ tuyên tính. và ngược lại. Trị tuyệt đối của càng lớn thì mối liên hệ tuyến tính giữa và càng chặt chẽ. Gọ i ( ), ( ), … , ( ) là mẫu gồm n cặp giá trị quan sát thu thập ngẫu nhiên từ , , , Trong thực tế, ta không biết và phải ước lượng nó từ dữ liệu mẫu thu thập được. và . Hệ số tương quan tổng thể được ước lượng từ hệ số tương quan mẫu (còn được gọi là hệ số ∑ ( − )( − ) tương quan Pearson): = ( − 1) Ví dụ: Số lượng về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu thụ ở một công ty sản xuất đồ chơi trẻ em: Thời gian quảng cáo trong tuần 28 37 44 36 47 35 26 29 33 32 31 28 (phút)
Lượng tiêu thụ trong tuần 41 32 49 42 38 33 27 24 35 30 34 25 (1000 sản phẩm) Gọi và lần lượt là thời gian quảng cáo trên truyền hình (phút) và lượng sản phẩm tiêu thụ trong = 0.63882 tuần (1000 sản phẩm). Áp dụng công thức trên ta có 1.2.Kiểm định giả thuyết về mối liên hệ tương quan hay không mối liên hệ tương quan giữa hai biến , , tức là kiểm định giả thuyết Bên cạnh việc thể hiện mức độ chặt chẽ của mối liên hệ, vấn đề chủ yếu là dùng r để xét xem có cho rằng hệ số Giả sử có mẫu n cặp quan sát chọn ngẫu nhiên từ , tương quan của tổng thể bằng không. có phân phối chuẩn. Gọi r là hệ số tương quan mẫu. : =0( ô óê ệ ữ à) Kiểm định giả thuyết tương quan về tổng thể như sau: : ≠0( ó ê ệ ữ à) || Giá trị kiểm định = 1− −2 nếu > ( ), / là tra bảng phân phối Student với bậc tự do ( − 2) với mức ý nghĩa /2. Quy tắc quyết định ở mức ý nghĩa bác bỏ ( ), / Vớ i Kiểm định hai phía trên đây sử dụng khi không biết trước chiều hướng của mối liên hệ. hoặc bên phải: : > 0 hoặc : < 0. Nếu có thể xác định được chiều hướng của mối liên hệ, ta thực hiện kiểm định một phía,bên trái trị ( ), thay vì ( ), / . Ta làm hoàn toàn tương tự như kiểm định hai phía, chỉ lưu ý trong tra bảng phân phối Student giá 2. HỒI QUY ĐƠN GIẢN 2.1. Lý thuyết Keynes về tiêu dùng = ( ). 2.1.1. Lý thuyết của Keynes đã đặt ra mối quan hệ giữa tiêu dùng và thu nhập Ví dụ: Kết quả điều tra về thu nhập (triệu đồng/tháng) và tiêu dùng (triệu đồng/tháng) cho bởi bảng giá trị sau:
5 10 15 = ( ), là mối quan hệ Thu nhập 2.038 4.038 6.038 Tiêu dùng Minh họa các số liệu trên hình vẽ, quan hệ giữa tiêu dùng và thu nhập tuyến tính. Dependent Variable: TIEUDUNG Method: Least Squares Date: 12/11/09 Time: 15:34 Sample: 1 3 Included observations: 3 Variable Coefficient Std. Error t-Statistic Prob. THUNHAP 0.400000 1.60E-16 2.50E+15 0.0000 C 0.038000 1.73E-15 2.20E+13 0.0000 R-squared 1.000000 Mean dependent var 4.038000 Adjusted R-squared 1.000000 S.D. dependent var 2.000000 S.E. of regression 1.13E-15 Sum squared resid 1.28E-30 F-statistic 6.23E+30 Durbin-Watson stat 1.114255 Prob(F-statistic) 0.000000 = 0.038 + 0.4 Khi đó ta có quan hệ ở dạng Nếu = 0 thì = 0.038, điều này có ý nghĩa rằng người không có thu nhập vẫn tiêu dùng Ý nghĩa của phương trình này như sau: ở mức tối thiểu là 0.038 triệu đồng/tháng. Hệ số 0.4 (hay khuynh hướng tiêu dùng theo thu nhập) cho biết, nếu tăng thu nhập lên 1 triệu/tháng thì tiêu dùng tăng lên 0.4 triệu đồng/tháng. Tức là mức tăng tiêu dùng không Về trung bình, khi thu nhập tăng thì tỷ lệ giữa thu nhập và tiêu dùng ( ) ngày càng giảm nhanh bằng mức tăng thu nhập. 2.038 4.038 6.038 > > 5 10 15 Như vậy có một tỷ lệ lớn hơn thu nhập được đưa vào tiết kiệm khi người ta giàu lên. Một cách tổng quát, hàm mô tả tốt nhất khuynh hướng tiêu dùng theo thu nhập của Keynes có dạng = + ( > 0, ∈ (0, 1) tuyến tính Ví dụ: Số liệu về tiêu dùng trung bình và thu nhập khả dụng theo giá cố định của nền kinh tế Mỹ trong 10 năm từ 1970-1979
Đơn vị: tỷ dollars Năm Thu nhập khả dụng Tiêu dùng trung bình 1970 751.6 672.1 1971 779.2 696.8 1972 810.3 737.1 1973 864.7 767.9 1974 857.5 762.8 1975 874.9 779.4 1976 906.8 823.1 1977 942.9 864.3 1978 988.8 903.2 1979 1015.7 927.6 Dependent Variable: TIEUDUNGTRUNGBINH Method: Least Squares Date: 12/11/09 Time: 15:40 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. THUNHAPKHADUNG 0.979267 0.031607 30.98253 0.0000 C -67.58065 27.91071 -2.421316 0.0418 R-squared 0.991735 Mean dependent var 793.4300 Adjusted R-squared 0.990702 S.D. dependent var 84.96543 S.E. of regression 8.193028 Akaike info criterion 7.221301 Sum squared resid 537.0056 Schwarz criterion 7.281818 Log likelihood -34.10650 F-statistic 959.9172 Durbin-Watson stat 1.566424 Prob(F-statistic) 0.000000 Mặc dù dữ liệu xem ra thể hiện khá tốt quy luật tuyến tính. Nhưng rõ ràng mối quan hệ có tính xác định đó là không đủ để mô tả thực tiễn, vì còn rất nhiều yếu tố khác ảnh hưởng đến tiêu dùng (như giới tính, tuổi tác, tâm lý…) Nói chung, chúng ta không có tham vọng đưa hết tất cả mọi yếu tố ảnh hưởng tới tiêu dùng vào mô hình mà chỉ những yếu tố quan trọng, thiết yếu nhất. Vì vậy, để có thể biểu diễn quy luật tiêu dùng trên thế giới thực, ta cần đưa thêm vào mô hình tuyến tính trên một thành phần khác nữa mang tính ngẫu nhiên, thể hiện sự tác động tổng hợp của các nhân tố nhỏ, không ổn định tới tiêu dùng.
Tức là những yếu tố làm cho quan sát thật về tiêu dùng và thu nhập bị lệch khỏi xu thế ổn định, tuyến tính nêu trên. {,} Tức là ta muốn biểu diễn mối quan hệ giữa các cặp dữ liệu quan sát được về thu nhập và tiêu dùng = + + , = 1, 2, … , như sau: Trong đó ( , ) = ( , ) lần lượt là tiêu dùng và thu thập thực tế của mẫu quan sát thứ .Xét vế Thành phần thứ nhất + phải của phương trình này ta có: - là quy luật xác định, mà ta cần ước lượng. - Thành phần thứ hai là nhiễu (tức là bao gồm sự tác động tổng hợp của mọi yếu tố khác của hoàn cảnh, có tính ngẫu nhiên, làm quan sát bị lệch khỏi khuynh hướng hay ổn định). Cả hai phần này, tính xu thế - xác định và yếu tố ngẫu nhiên được gộp lại trong phương trình trên để mô tả lý thuyết tiêu dùng của Keynes. 2.1.2. Ước lượng quy luật tiêu dùng = + Ta muốn ước lượng xu thế tiêu dùng bằng quy luật tuyến tính: là các tham số ước lượng của các tham số tổng thể, chưa biết , . trong đó là ước lượng về tiêu dùng, khi cho trước quan sát thu nhập ; và = − Mức độ tốt của việc ước lượng được đo lường qua số dư Tổng bình phương các sai số, ký hiệu là ESS ( )= = − − − Một cách tổng quát, chúng ta muốn rằng tổng bình phương sai số phần dư là nhỏ nhất theo phương pháp bình phương cực tiểu: , = − − → min( , ) Sử dụng cực trị có điều kiện ta có
, (−1) = 0 2 − − =0 → , (− )=0 2 − − =0 =−̅ ∑ ( − ̅ )( − ) → = = ∑ ( − ̅) Trong đó là Covariance mẫu; ̅ chỉ ra rằng điểm ( , ) nằm trên đường hồi quy = + là phương sai mẫu của . = + . Ý nghĩa của phương trình 2.1.3. Đo lường độ phù hợp của ước lượng Sử dụng các điều kiện tìm cực trị ta có ( −)= ( −)+ Vế trái là tổng bình phương các dao động trong tiêu dùng, ký hiệu là TSS. Vế phải phân ra thành tổng bình phương phần được giải thích bằng mô hình hồi quy RSS; = + → =1− . tổng sai số ước lượng ESS. Hay =1− →0≤ ≤1 Ký hiệu 2.2. Mô hình hồi quy tuyến tính đơn = + + , = 1, 2, … , Công thức tổng quát của mô hình hồi quy tuyến tính đơn là: , , Trong đó là quan sát thứ n của biến độc lập và biến phụ thuộc; là các tham số chưa biết và sẽ được ước lượng; là sai số không quan sát được và được giả thiết là một biến ngẫu nhiên với một số đặc Khi đó , tính sẽ được nghiên cứu kỹ ở phần sau. được gọi là các hệ số hồi quy.
Thuật ngữ đơn trong mô hình hồi quy tuyến tính đơn được sử dụng để chỉ rằng chỉ có duy nhất một biến giải thích được sử dụng trong mô hình. là ước lượng tham số tổng thể , . Mục tiêu đầu tiên là làm sao sử dụng dữ liệu thu thập được để ước lượng hàm hồi quy tổng thể, đó Ký hiệu là ước lượng mẫu của ; = là ước lượng mẫu của . = Khi đó mối quan hệ trung bình ước lượng là + . Đây được gọi là hàm hồi quy mẫu. Ứng với giá trị quan sát cho trước ta sẽ có + , đây là giá trị dự báo của với một giá = − = − − = + + trị cho trước là . = + = Phần dư ước lượng hay phần dư là . Hay . Cần phân biệt giữa hàm hồi quy của tổng thể và hàm hồi quy mẫu + . 2.2.1. Bản chất thống kê của mô hình hồi quy tuyến tính đơn Phương pháp LS (bình phương nhỏ nhất) là xác định đường hồi quy sao cho tổng bình phương phần (Tương tự có thể sự dụng cho ). dư là nhỏ nhất. ∑( ∑( − ̅ )( −) − ̅) Theo phương pháp LS ta có ước lượng của tham số tổng thể = = = Do ∑ ( − ̅ ) = 0. , ta có thể suy ra ∑ = 0, ∑ = = 1. ̅ Đặt chỉ phụ thuộc vào các quan sát { } Ta chứng minh được = + ∑ Khi đó . , suy ra ước lượng bị ảnh hưởng bởi các yếu tố ngẫu nhiên làm giá trị của nó không trùng khít với tổng thể. 2.2.2. Các yếu tố ngẫu nhiên Các đặc trưng thống kê của nhiễu ngẫu nhiên: Các yếu tố ngẫu nhiên là các biến ngẫu ~ (0, )( ) nhiên độc lập, có phân phối chuẩn như nhau + Xu thế tổng thể: là phần xác định của mô hình và là trung bình có điều kiện của (| )= + theo , đó là .
Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể , là tuyến tính (bậc nhất) chứ không phải tuyến tính. và phần xác định + Số hạng (hay còn gọi là số hạng ngẫu nhiên) là thành phần ngẫu nhiên không quan sát được và là sai biệt giữa . 2.2.3. Những đặc trưng thống kê của ước lượng bình phương cực tiểu +∑ = Tính tốt của ước lượng theo các tiêu chuẩn thống kê. Từ phương trình ta có: = + = + ( )= ( )= = − = − = = = . ( Vì ∑ =∑ = = ̅ ). Ý nghĩa của giá trị trong thực tế sẽ nhỏ đi hay hiệu quả ước lượng sẽ tăng lên, nếu độ đa dạng của thông tin quan sát đo bởi tăng lên. 2.2.4. Kiểm định giả thuyết thống kê Ta xét vấn đề kiểm định thông qua ví dụ sau: Một công ty bảo hiểm của Mỹ muốn kinh doanh bảo hiểm nhân thọ. Họ tiến hành nghiên cứu tiềm năng của thị trường sở tại. Lý luận kinh tế chỉ ra rằng: yêu cầu mua bảo hiểm tăng lên cùng với khả năng xảy ra rủi ro, với quy mô về tổn thất tài chính khi xảy ra rủi ro và với tâm lý lo ngại rủi ro cá nhân. Họ nhận định rằng, gia đình càng giàu có về kinh doanh, thì người chủ gia đình càng chịu nhiều Stress. Tức là những người lệ thuộc càng ngại rủi ro gây nên bởi stress cho người chủ gia đình hơn là tại những gia đình thu nhập thấp, ít tham dự vào kinh doanh. = +. Vì vậy ban nghiên cứu thị trường của công ty bảo hiểm này đề xuất mô hình sau Trong đó: là giá trị hợp đồng bảo hiểm, được trả cho bên mua bảo hiểm nếu xảy ra rủi ro; là thu nhập, đơn vị của cả hai là nghìn dollas. Dữ liệu điều tra và kết quả ước lượng được ghi trong các bảng dưới đây: obs INS INC 1 90 25
2 165 40 3 220 60 4 145 30 5 114 29 6 175 41 7 145 37 8 192 46 9 395 105 10 339 81 11 230 57 12 262 72 13 570 140 14 100 23 15 210 55 16 243 58 17 335 87 18 299 72 19 305 80 20 205 48 Dependent Variable: INS Dependent Variable: INS Method: Least Squares Method: Least Squares Date: 12/11/09 Time: 15:44 Date: 12/11/09 Time: 15:44 Sample: 1 20 Sample: 1 20 Included observations: 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. Variable Coefficient Std. Error t-Statistic Prob. INC 3.880186 0.112125 34.60601 0.0000 INC 3.880186 0.112125 34.60601 0.0000 C 6.854991 7.383473 0.928424 0.3655 C 6.854991 7.383473 0.928424 0.3655 R-squared 0.985192 Mean dependent var 236.9500 R-squared 0.985192 Mean dependent var 236.9500 Adjusted R-squared 0.984370 S.D. dependent var 114.8383 Adjusted R-squared 0.984370 S.D. dependent var 114.8383 S.E. of regression 14.35730 Akaike info criterion 8.261033 S.E. of regression 14.35730 Akaike info criterion 8.261033 Sum squared resid 3710.375 Schwarz criterion 8.360606 Sum squared resid 3710.375 Schwarz criterion 8.360606 Log likelihood -80.61033 F-statistic 1197.576 Log likelihood -80.61033 F-statistic 1197.576 Durbin-Watson stat 3.175965 Prob(F-statistic) 0.000000 Durbin-Watson stat 3.175965 Prob(F-statistic) 0.000000 Dependent Variable: INS Method: Least Squares = 6.85 + 3.88 Kết quả ước lượng được tóm tắt lại như sau: Date: 12/11/09 Time: 15:44 Sample: 1 20 Included observations: 20 = 20; = 0.985; = 3710 (7.38) t-Statistic (0.11) Variable Coefficient Std. Error Prob. INC 3.880186 0.112125 34.60601 0.0000 C 6.854991 7.383473 0.928424 0.3655 R-squared 0.985192 Mean dependent var 236.9500 Adjusted R-squared 0.984370 S.D. dependent var 114.8383 S.E. of regression 14.35730 Akaike info criterion 8.261033
Điều đó có nghĩa là nếu thu nhập gia đình tăng thêm 1 nghìn dollars thì chi cho bảo hiểm sẽ tăng lên trong khoảng từ 3 nghìn đến 5 nghìn dollas. Tuy nhiên chúng ta không biết giá trị tăng lên với độ tin cậy là bao nhiêu. Nghĩa là cần xác định khoảng tin cậy tham số của tổng thể. a. Khoảng tin cậy Trước hết ta có ~ ( ; ). Sau khi chuẩn hóa ta có = ~ (0, 1). ∑ = = Để công thức có ý nghĩa ứng dụng, ta thay thế bở i . chuyển thành thống kê = = ~ ( ). () Khi đó thống kê Khoảng tin cậy (1 − )100% của thống kê = () là: − − < < =1− , , − ∗ ≤ ≤ + ∗ , , (1 − ). Hay khoảng ước lượng của là với độ tin cậy = 3.88; = 0.11 và = = 2.101, nên độ tin cậy 95% của ,. , Ví dụ trên ta có 3.88 − 2.011 ∗ 0.11 ≤ ≤ 3.88 + 2.011 ∗ 0.11 tổng thể là b. Kiểm định giả thuyết thống kê := Tiến hành kiểm định giả thuyết sau: :≠ ứý Tính giá trị kiểm định = ( ) ở mức ý nghĩa nếu ≥ , Quy tắc quyết định: Bác bỏ . ( ) ở mức ý nghĩa nếu < , Ngược lại, không có cơ sở bác bỏ . − Chúng ta có thể sử dụng giá trị trong phân bảng kết xuất Eview như sau:
− ={ >} Và như vậy ta có quy tắc quyết định: Bác bỏ ( ) ở mức ý nghĩa nếu ≥ − Không có cơ sở bác bỏ ( ) ở mức ý nghĩa nếu < − . . 2.3.Hệ số xác định và kiểm định F trong phân tích hồi quy đơn = + → =1− . Ký hiệu =1− →0≤ ≤1 a. Hệ số xác định Hay chính là bình phương của hệ số tương quan mẫu r đã nói ở trên, nó thể hiện sự thích hợp của mô hình hồi quy đối với dữ liệu. càng lớn thì mô hình tuyến tính đã xây dựng được xem là càng thích hợp. b. Kiểm định Tương tự trong phân tích phương sai ANOVA Biến thiên Tổng các chênh Bậc tự do Trung bình các Giá trị kiểm định lệch bình phương chênh lệch bình = = phương 1 −2 Hồi quy 1 = −2 −1 Sai số (, , ). Tổng Tra bảng Fisher