Bài giảng Kinh tế lượng: Phần 2 - Cao Tấn Bình

Chia sẻ: Cuchoami2510 | Ngày: | Loại File: PDF | Số trang:60

Thêm vào BST

Báo xấu

48
lượt xem 11
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài giảng Kinh tế lượng: Phần 2 cung cấp cho người học những kiến thức như: Phân tích đặc trưng và lựa chọn mô hình; mô hình vi phạm các giả thiết. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Bài giảng Kinh tế lượng: Phần 2 - Cao Tấn Bình

Chương 6 PHÂN TÍCH ĐẶC TRƯNG VÀ LỰA CHỌN MÔ HÌNH 6.1 Các thuộc tính của mô hình tốt Tính đơn giản (Parsimony): Mô hình càng đơn giản càng tốt nhưng phải chứa các biến chủ yếu liên quan với biến phụ thuộc nhằm giải thích bản chất của vấn đề cần nghiên cứu. Tính phù hợp (Goodness of fit): Hệ số xác định càng cao càng tốt. Tuy nhiên không nên chỉ căn cứ vào hệ số này để kết luận mô hình có phù hợp hay không, bởi vì trong nhiều trường hợp hệ số xác định rất lớn nhưng mô hình không phù hợp do thiếu biến quan trọng hoặc xảy ra các khuyết tật (đa cộng tuyến, tự tương quan,…). Tính nhất quán về mặt lý thuyết (Theoretical consistency): Mô hình phải phù hợp với cơ sở lý thuyết khoa học. Tính đồng nhất (Identifiability): Với một tập dữ liệu cho trước, các tham số ước lượng phải duy nhất. Có khả năng dự báo tốt (Predictive power): Một mô hình được đánh giá là tốt nếu cho kết quả dự báo sát với thực tế. 6.2 Phương pháp chọn lựa mô hình Các bước để chọn lựa được mô hình tốt và phù hợp: Bước 1: Xác định số biến độc lập trong mô hình  Từ đơn giản đến tổng quát: Bổ sung dần dần biến độc lập vào mô hình nhằm tránh việc bỏ sót biến quan trọng (có thể sử dụng kiểm định Wald).  Từ tổng quát đến đơn giản: Thiết lập mô hình hồi quy với các biến độc lập đã được xác định. Tiếp theo tiến hành lọc những biến không quan trọng ra khỏi mô hình (có thể sử dụng kiểm định t hoặc giá trị xác suất p-value). Bước 2: Kiểm tra xem mô hình có khuyết tật hay không (có vi phạm ít nhất các giả thiết đảm bảo thực hiện được phương pháp OLS hay không) và tìm cách khắc phục chúng. Bước 3: Chọn dạng hàm hồi quy (dựa vào cơ sở lý thuyết kinh tế). Bước 4: Các tiêu chuẩn thông dụng để chọn mô hình tốt.  Hệ số xác định R 2 .  Giá trị hàm hợp lý log-likelihood L: 72
n n 1 n L   ln  2  ln(2 )   U i2 2 2 2 i 1 L càng lớn mô hình càng phù hợp.  Tiêu chuẩn AIC (Akaike info criterion): RSS 2 k / n AIC  .e n Giá trị AIC càng bé mô hình càng phù hợp.  Tiêu chuẩn SIC (Schwarz Information Criterion): RSS k / n SIC  .n n Giá trị SIC càng bé mô hình càng phù hợp. Ngoài việc căn cứ vào các tiêu chuẩn để xem xét việc chọn lựa một mô hình tốt, tính chất tốt của một mô hình đôi khi phụ thuộc nhiều vào quan điểm của nhà kinh tế lượng. 6.3 Hậu quả khi chọn mô hình không phù hợp  Ước lượng chệch các hệ số hồi quy, sai dấu các hệ số hồi quy.  Có rất ít hệ số hồi quy có ý nghĩa thống kê.  R 2 thấp.  Phần dư của các quan sát có giá trị tuyệt đối lớn.  Các ước lượng bị chệch, phương sai của các ước lượng không phải là tốt nhất.  Phương pháp kiểm định thông thường không còn hiệu lực. 6.4 Cách phát hiện các sai số đặc trưng của mô hình Kiểm định biến bị bỏ sót: Giả sử cần thực hiện mô hình hồi quy tuyến tính dạng Y  1   2 X 2  U (6.4.1) Một câu hỏi tự nhiên được đặt ra là: Ngoài biến độc lập X, còn có biến nào khác cũng giải thích cho Y. Khi đó ta nghĩ đến việc kiểm tra xem liệu biến X 3 nào đó bị bỏ sót trong mô hình sau đây hay không: Y  1   2 X 2   3 X 3  V (6.4.2) Trường hợp 1: Có số liệu về biến X 3  Cách 1: Hồi quy mô hình (6.4.2), kiểm định cặp giả thuyết H 0 :  3  0 , H1 :  3  0 , 2 và so sánh giá trị R của hai mô hình. 73
 Cách 2: Sử dụng kiểm định Wald để đưa dần dần các biến độc lập vào mô hình. Trường hợp 2: Không có số liệu về biến X 3  Sử dụng kiểm định RESET (Regression Specification Error Test) của RAMSEY: Bước 1: Hồi quy mô hình (6.4.1) (old), được Y . Bước 2: Hồi quy mô hình (new) Y   1   2 X 2   3 Y   4 Y   5 Y  V 2 3 4 Bước 3: Kiểm định giả thuyết H0 :  3   4   5  0 Nếu F   R  R  / m  F (m, n  k ) thì bác bỏ H 2 new 2 old .  0 1  R  /(n  k ) 2 new Trong đó m: số biến độc lập mới được đưa thêm vào mô hình (m = 3), k: số hệ số của mô hình mới (k = 5).  Kiểm định Durbin-Watson: Bước 1: Hồi quy mô hình old.  theo thứ tự tăng Bước 2: Giả sử nghi ngờ biến X 3 bị bỏ sót. Sắp xếp phần dư U của X 3 . Nếu số liệu của X 3 chưa có thì sắp xếp theo thứ tự tăng của một biến độc lập. Bước 3: Tính (không phải là thống kê Durbin-Watson) n 2  U  i 1  2 2 i U i 2 d n  U 2 i i 1 Bước 4: Dựa vào bảng tra Durbin-Watson để kiểm định giả thuyết H 0 : Dạng hàm đúng (không có X 3 ). Kiểm định thừa biến: Có thể thực hiện một trong các cách sau  Cách 1: Kiểm định t (bỏ bớt một biến).  Cách 2: Kiểm định Wald (được sử dụng để kiểm định bỏ một hay nhiều biến). Kiểm định dạng hàm của mô hình hồi quy: Việc lựa chọn giữa dạng hàm tuyến tính và tuyến tính dạng logarit trong nghiên cứu thực nghiệm là vấn đề quan trọng. Ta có thể kiểm định việc lựa chọn này theo J. Mackinnon, H. White, R. Davidson (MWD test). 74
6.5 Các ví dụ Ví dụ 6.5.1: Có số liệu về GNP thực Y (triệu $ Đài Loan), lượng lao động X 2 (người người), lượng vốn thực X 3 (triệu $ Đài Loan) và xu hướng thời gian X 4 từ năm 1958 đến 1972 của Đài Loan như sau: Năm Y X2 X3 X4 1958 8911.4 281.5 120753 1 1959 10873.2 284.4 122242 2 1960 11132.5 289.0 125263 3 1961 12086.5 375.8 128539 4 1962 12767.5 375.2 131427 5 1963 16347.1 402.5 134267 6 1964 19542.7 478.0 139038 7 1965 21075.9 553.4 146450 8 1966 23052.0 616.7 153714 9 1967 26128.2 695.7 164783 10 1968 29563.7 730.3 176864 11 1969 33373.6 816.0 188146 12 1970 38354.3 848.4 205814 13 1971 46868.3 873.1 221748 14 1972 54308.0 999.2 239715 15 Theo lý thuyết kinh tế, hàm hồi quy có dạng Cobb-Douglas: ln Yt  1   2 ln X 2t  3 ln X 3t   4 ln X 4t  U t + Trước hết ta tiến hành hồi quy GNP chỉ theo lượng lao động X 2 : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 1.257567 0.066516 18.90615 0.0000 C 2.069560 0.417743 4.954143 0.0003 R-squared 0.964907 Mean dependent var 9.949171 Adjusted R-squared 0.962207 S.D. dependent var 0.566287 S.E. of regression 0.110088 Akaike info criterion -1.451508 Sum squared resid 0.157552 Schwarz criterion -1.357101 75
Log likelihood 12.88631 Hannan-Quinn criter. -1.452513 F-statistic 357.4424 Durbin-Watson stat 1.146262 Prob(F-statistic) 0.000000 Từ giá trị xác suất Prob., ta thấy các hệ số hồi quy đều có ý nghĩa thống kê, hơn nữa R- squared = 0.964907 cho thấy mức độ phù hợp của mô hình hồi quy khá cao. Tuy nhiên theo lý thuyết kinh tế thì GNP không chỉ phụ thuộc vào lượng lao động X 2 mà còn phụ thuộc nhiều yếu tố khác. Do vậy mô hình hồi quy hai biến dạng log-log như trên có thể bị bỏ sót biến quan trọng. + Kiểm định bỏ sót biến: Omitted Variables Test Null hypothesis: LOG(X3) are jointly significant Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: LOG(X3) Value df Probability t-statistic 3.722689 12 0.0029 F-statistic 13.85842 (1, 12) 0.0029 Likelihood ratio 11.51594 1 0.0007 Nhận thấy p-value của thống kê F và tỷ số log-likelihood đều bé, nên bác bỏ giả thuyết H 0 : không bỏ sót biến, thừa nhận bỏ sót biến LOG(X3). + Giả sử không có số liệu của X3, sử dụng kiểm định RESET của Ramsey: Ramsey RESET Test Equation: UNTITLED Specification: LOG(Y) LOG(X2) C Omitted Variables: Squares of fitted values Value df Probability t-statistic 2.223393 12 0.0462 F-statistic 4.943477 (1, 12) 0.0462 Likelihood ratio 5.174644 1 0.0229 Unrestricted Test Equation: Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) -5.007947 2.818599 -1.776751 0.1009 76
C 16.38886 6.450680 2.540641 0.0259 FITTED^2 0.251211 0.112985 2.223393 0.0462 R-squared 0.975146 Mean dependent var 9.949171 Adjusted R-squared 0.971003 S.D. dependent var 0.566287 S.E. of regression 0.096430 Akaike info criterion -1.663150 Sum squared resid 0.111584 Schwarz criterion -1.521540 Log likelihood 15.47363 Hannan-Quinn criter. -1.664659 F-statistic 235.4070 Durbin-Watson stat 1.382327 Prob(F-statistic) 0.000000 Với mức ý nghĩa 5%, bác bỏ giả thuyết H 0 , thừa nhận bỏ sót biến. + Kết quả hồi quy cho cả hai biến X 2 và X 3 : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 0.714716 0.153259 4.663444 0.0005 LOG(X3) 1.113655 0.299153 3.722689 0.0029 C -7.845616 2.679864 -2.927618 0.0127 R-squared 0.983714 Mean dependent var 9.949171 Adjusted R-squared 0.981000 S.D. dependent var 0.566287 S.E. of regression 0.078057 Akaike info criterion -2.085904 Sum squared resid 0.073114 Schwarz criterion -1.944294 Log likelihood 18.64428 Hannan-Quinn criter. -2.087412 F-statistic 362.4251 Durbin-Watson stat 1.416595 Prob(F-statistic) 0.000000 + Kết quả hồi quy cho cả ba biến X 2 , X 3 và X 4 : Dependent Variable: LOG(Y) Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) -0.121776 0.256286 -0.475155 0.6440 LOG(X3) 0.403551 0.289230 1.395261 0.1905 X4 0.118095 0.032785 3.602141 0.0042 C 4.941959 4.024545 1.227955 0.2451 77
R-squared 0.992528 Mean dependent var 9.949171 Adjusted R-squared 0.990490 S.D. dependent var 0.566287 S.E. of regression 0.055223 Akaike info criterion -2.731704 Sum squared resid 0.033545 Schwarz criterion -2.542891 Log likelihood 24.48778 Hannan-Quinn criter. -2.733716 F-statistic 487.0638 Durbin-Watson stat 1.496257 Prob(F-statistic) 0.000000 + Nhận xét về các kết quả hồi quy:  Giá trị của hệ số hồi quy thay đổi đáng kể khi sử dụng các mô hình khác nhau. Điều này cho dấu hiệu nhận biết việc bỏ sót biến quan trọng. Mặt khác, hệ số xác định của các mô hình vẫn rất cao, điều này cho biết có hiện tượng đa cộng tuyến rất cao trong mô hình, các biến độc lập cũng chịu tác động của biến xu hướng.  Hồi quy phụ giữa X 2 , X 3 và X 4 để chỉ ra hiện tượng đa cộng tuyến: Dependent Variable: X4 Method: Least Squares Date: Time: Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. LOG(X2) 7.083219 0.954714 7.419203 0.0000 LOG(X3) 6.012992 1.863547 3.226638 0.0073 C -108.2822 16.69395 -6.486313 0.0000 R-squared 0.989867 Mean dependent var 8.000000 Adjusted R-squared 0.988178 S.D. dependent var 4.472136 S.E. of regression 0.486247 Akaike info criterion 1.572657 Sum squared resid 2.837236 Schwarz criterion 1.714267 Log likelihood -8.794930 Hannan-Quinn criter. 1.571149 F-statistic 586.1255 Durbin-Watson stat 1.414452 Prob(F-statistic) 0.000000 Nhìn vào kết quả hồi quy thấy có hiện tượng đa cộng tuyến khá cao. 2  Sự phù hợp của mô hình: Ta sử dụng R để xem xét mức độ phù hợp của các mô 2 hình. Mô hình chứa cả 4 biến có R cao nhất, tuy nhiên ta không chọn mô hình này vì trong kết quả hồi quy, các hệ số hồi quy của LOG(X2) và LOG(X3) không có ý nghĩa thống kê (p-value > 0,05), và dấu hệ số hồi quy của LOG(X2) âm- không phù hợp với cơ sở lý thuyết kinh tế. Mô hình hai biến Y và LOG(X2) lại thiếu biến nghiêm trọng. Vậy mô hình chứa 3 biến Y, LOG(X2) và LOG(X3) là phù hợp nhất. 78
 Dựa trên một số tiêu chuẩn khác: 2 R Log-likelihood AIC SIC Mô hình 2 biến 0.962207 12.88631 -1.451508 -1.357101 Mô hình 3 biến 0.980997 18.64294 -2.085725 -1.944115 Mô hình 4 biến 0.990489 24.48686 -2.731582 -2.542769 Nhìn vào bảng tóm tắt trên, nhận thấy mô hình ba biến tỏ ta phù hợp nhất. 79
Chương 7 MÔ HÌNH VI PHẠM CÁC GIẢ THIẾT Trong những chương trước, khi nghiên cứu mô hình hồi quy tuyến tính cổ điển, ta luôn giả định rằng các mô hình này thỏa mãn 5 giả thiết cổ điển. Vậy câu hỏi tự nhiên được đặt ra là khi những giả thiết này không được thỏa mãn thì sẽ ảnh như thế nào đến kết quả hồi quy? Nội dung chương này sẽ trình bày bản chất, nguyên nhân, hậu quả, cách phát hiện cũng như biện pháp khắc phục các giả thiết bị vi phạm. Tuy nhiên, cần lưu ý rằng không có cách tổng quát để khắc phục sự vi phạm đồng thời các giả thiết mà chỉ có thể giải quyết từng vi phạm một. Trong một số trường hợp, khi khắc phục vi phạm này thì vi phạm khác lại phát sinh. Do vậy ta phải cân nhắc mức độ nghiêm trọng của các giả thiết vi phạm mà chọn hướng khắc phục cho phù hợp. 7.1 Đa cộng tuyến 7.1.1 Bản chất của đa cộng tuyến Xét mô hình hồi quy: Y  1   2 X 2     k X k  U (7.1.1.1) Như đã biết, khi các biến X k được giả định là không tương quan nhau (độc lập nhau), ảnh hưởng riêng lên biến phụ thuộc Y , ta nói mô hình không có hiện tượng đa cộng tuyến. Tùy theo mức độ tương quan giữa các biến độc lập X k mà xảy ra đa cộng tuyến hoàn hảo hay đa cộng tuyến không hoàn hảo. Các biến X1 ,..., X k được gọi là đa cộng tuyến không hoàn hảo nếu tồn tại các số thực 1,..., k không đồng thời bằng 0 sao cho 1 X1    k X k  V  0 , với V là nhiễu ngẫu   1 nhiên. Điều này có nghĩa là X 1   2 X 2    k X k  V (giả sử 1  0 ). 1 1 1 Vậy hiện tượng đa cộng tuyến không hoàn hảo xảy ra khi có một biến biểu diễn tuyến tính qua các biến còn lại và một nhiễu ngẫu nhiên. 7.1.2 Nguyên nhân gây ra hiện tượng đa cộng tuyến Có một số nguyên nhân chủ yếu như sau: a/ Các biến độc lập có quan hệ tương quan cao vì cùng phụ thuộc vào một điều kiện khác: Ví dụ như các biến thu nhập và mức độ giàu có sẽ gây ra hiện tượng đa cộng tuyến hoàn hảo vì một cá nhân có thu nhập càng cao đồng nghĩa với càng giàu có và ngược lại. 80
b/ Khi kích thước mẫu quá bé: Ví dụ như số quan sát nhỏ hơn số biến độc lập. c/ Mẫu thu thập được không có tính đại diện cao cho tổng thể: Chẳng hạn như khảo sát thu nhập của công nhân thuộc một xí nghiệp lớn có nhiều chi nhánh, mỗi chi nhánh có nhiều phân xưởng nhưng ta chỉ thu thập số liệu tại một vài phân xưởng. d/ Chọn các biến X k có độ biến động nhỏ. 7.1.3 Hậu quả của đa cộng tuyến a/ Phương sai và hiệp phương sai của các ước lượng bằng phương pháp OLS có giá trị lớn, có nghĩa là các giá trị ước lượng của hệ số hồi quy biến động mạnh qua các mẫu khác nhau. Điều này khiến cho các ước lượng bằng OLS vẫn có tính chất BLUE nhưng không hiệu quả. Thật vậy, xét mô hình hồi quy với hai biến độc lập dạng: Yi  1  2 X i 2  3 X i 3  U i Khi đó 2 Var 2    1  r   x 2 2 23 2i 2 Var    1  r  x   3 2 23 2 3i r23 2 cov 2 ,     3  1  r  2 2 2 23  x . x2i 3i Từ các công thức trên, nhận thấy rằng khi r23 càng dần về 1 thì hiện tượng đa cộng tuyến càng tăng mạnh dần và phương sai sẽ càng tăng theo. Khi r23  1, xảy ra hiện tượng đa cộng tuyến hoàn hảo. Tốc độ gia tăng của phương sai và hiệp phương sai khi có hiện tượng đa cộng tuyến được mô tả qua thừa số phóng đại phương sai VIF (Variance-inflating factor), được xác định bởi 1 VIF  . 1- r232 1 Nếu r23  1 thì VIF     Cộng tuyến cao. 1- r232 81
1 Nếu r23  0 thì VIF   0  Không có đa cộng tuyến. 1- r232 Tổng quát, với mô hình hồi quy với k-1 biến giải thích dạng: Y  1   2 X 2     k X k  U Ta có 1 VIF  1- R 2j trong đó R 2j là hệ số tương quan trong mô hình của X j theo k-2 biến giải thích còn lại. Trong nghiên cứu thực nghiệm, khi VIF  10  R 2j  0.9 được xem là cộng tuyến cao. b/ Gia tăng độ rộng khoảng tin cậy của các hệ số hồi quy: Khi hiện tượng đa cộng tuyến gia tăng làm cho phương sai bị phóng đại và sai số chuẩn của các tham số hồi quy cũng tăng theo, dẫn đến độ rộng khoảng tin cậy của các hệ số hồi quy gia tăng, kết quả là dự báo không còn chính xác nữa. c/ Giá trị thống kê trong kiểm định T có khuynh hướng nhỏ đi do Se j tăng lên.   Hậu quả là dễ chấp nhận giả thuyết H 0 . d/ Hệ số R 2 có thể rất cao. e/ Giá trị ước lượng của các j và Se j rất nhạy đối với việc tăng thêm hay bớt đi một   quan sát hay loại bỏ biến có mức ý nghĩa thấp. 7.1.4 Cách phát hiện đa cộng tuyến a/ Hệ số xác định R 2 cao nhưng giá trị kiểm định của T thấp: Thông thường, trong nghiên cứu thực nghiệm nếu R 2  0.8 thì người ta bác bỏ giả thuyết rằng các hệ số hồi quy đồng thời bằng 0 trong kiểm định F. Trong khi đó giá trị t của kiểm định T thường rất bé trong trường hợp đa cộng tuyến xảy ra, và xu hướng là chấp nhận giả thuyết về các hệ số hồi quy đều bằng 0. Như vậy các kết quả thu được từ kiểm định T và F là mâu thuẫn nhau. 82
Ví dụ 7.1.4.1: Khảo sát một công ty kinh doanh máy vi tính tại 10 cửa hàng để nghiên cứu ảnh hưởng của doanh số bán hàng và tiền thưởng cho bộ phận kinh doanh lên lợi nhuận sau thuế có số liệu như sau: Quan sát Tiền thưởng X 2 Doanh số X 3 Lợi nhuận sau thuế Y (triệu đồng) (triệu đồng) (triệu đồng) 1 1.5 200 22 2 2.6 340 35 3 1.9 245 28 4 1.4 180 20 5 2.1 275 31 6 3.7 459 49 7 1.1 146 16 8 2.5 320 36 9 4.3 550 63 10 3 490 51 Kết quả hồi quy bằng phần mềm EVIEWS như sau: Dependent Variable: Y Method: Least Squares Date: Time: 23:42 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X2 3.580084 2.093329 1.710235 0.1310 X3 0.082479 0.015532 5.310149 0.0011 C 0.037509 1.317284 0.028475 0.9781 R-squared 0.991695 Mean dependent var 35.10000 Adjusted R-squared 0.989322 S.D. dependent var 15.11769 S.E. of regression 1.562194 Akaike info criterion 3.973385 Sum squared resid 17.08315 Schwarz criterion 4.064160 Log likelihood -16.86692 Hannan-Quinn criter. 3.873804 F-statistic 417.9181 Durbin-Watson stat 2.347840 Prob(F-statistic) 0.000000 Hàm hồi quy lợi nhuận sau thuế theo doanh số bán hàng và tiền thưởng như sau: Yi  0.037509  3.580084 * X 2i  0.082479 * X 3i R 2  0.991695 t 0.028475 1.710235 5.310149 p - value 0.9781 0.1310 0.0011 83
Nhận thấy R 2  0.991695 là rất lớn, trong khi giá trị t  1.710235 đối với 2 là rất bé và p - value  0.9781 0.05 nên 2 không có ý nghĩa thống kê, biến tiền lương X 2 không có ảnh hưởng lên lợi nhuận. Vậy có khả năng hai biến tiền thưởng X 2 và doanh số X 3 xảy ra cộng tuyến cao. Thật vậy, tiếp tục hồi quy bằng phần mềm EVIEWS cho X 2 và X 3 ta được kết quả là: Dependent Variable: X2 Method: Least Squares Date: Time: 00:00 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X3 0.007200 0.000634 11.36521 0.0000 C 0.102308 0.219523 0.466049 0.6536 R-squared 0.941677 Mean dependent var 2.410000 Adjusted R-squared 0.934387 S.D. dependent var 1.030049 S.E. of regression 0.263847 Akaike info criterion 0.349963 Sum squared resid 0.556923 Schwarz criterion 0.410480 Log likelihood 0.250183 Hannan-Quinn criter. 0.283576 F-statistic 129.1680 Durbin-Watson stat 1.798079 Prob(F-statistic) 0.000003 Nhìn vào bảng này ta có thể kết luận rằng tiền thưởng luôn bẳng khoảng 0.7% trên doanh số bán hàng. b/ Hệ số tương quan giữa các biến độc lập cao: Cũng với ví dụ trên, ma trận tương quan (Correlation matrix) là: X2 X3 Y X2 1 0.9704006195719436 0.9788968259970111 X3 0.9704006195719436 1 0.994094763546283 Y 0.9788968259970111 0.994094763546283 1 Nhận thấy r23  0.9704006195719436  1 chứng tỏ có hiện tượng đa cộng tuyến cao đã xảy ra. c/ Sử dụng hồi quy phụ: Để xem xét mức độ cộng tuyến giữa các biến độc lập với nhau, ta có thể sử dụng phương pháp hồi quy phụ như sau: Mô hình hồi quy k biến: Y  1   2 X 2     k X k  U 84
Mô hình hồi quy phụ của biến X j : X j  1   2 X 2     j 1 X j 1     j 1 X j 1   k X k  V Tính hệ số xác định R 2j , sau đó kiểm định giả thuyết: H 0 : R 2j  0 (không có đa cộng tuyến) bằng cách sử dụng thống kê F: R 2j /(k  2) Fj  1  R  /(n  k  1) 2 j Nếu Fj  F (k  2, n  k  1) thì bác bỏ giả thuyết H 0 . Trở lại ví dụ trên, xét bảng kết quả hồi quy của X 2 đối với X 3 , ta có R22  0.941677 , F2  125  F0.05 (1,8)  5.318 với p - value  0.000003  0.05 . Điều này cho kết luận rằng: bác bỏ giả thuyết H 0 , nghĩa là có xảy ra cộng tuyến giữa hai biến tiền lương và doanh số bán hàng. d/ Sử dụng thừa số phóng đại phương sai VIF: Theo như lưu ý ở phần trên, VIF  10  R 2j  0.9 xảy ra hiện tượng đa cộng tuyến cao. Tuy nhiên, việc đánh giá mức độ cộng tuyến qua VIF có những hạn chế nhất định. Thật vậy, ta biết 2 2 Var j    1  R   x  .VIF 2 j 2 ji  x2ji 2 Nhìn vào công thức trên, nhận thấy rằng khi VIF cao nhưng nếu  2 quá bé và x ji lớn thì có thể làm cho giá trị của VIF bị nhỏ lại. Do đó giá trị lớn của VIF chưa hẳn làm cho phương sai của các tham số hồi quy tăng cao. 7.1.5 Cách khắc phục đa cộng tuyến a/ Sử dụng thông tin có trước (thông tin tiên nghiệm): Các thông tin này có được từ những cuộc điều tra thống kê thực hiện trước đó hoặc từ lý thuyết kinh tế có liên quan đến lĩnh vực nghiên cứu rằng hiện tượng cộng tuyến có ảnh hưởng ít nghiêm trọng nếu chúng xảy ra. Chẳng hạn, khi hồi quy hàm sản xuất Cobb-Douglas: 85
ln Qi  1  2 ln Ki  3 ln Li  Ui ta sẽ gặp hiện tượng đa cộng tuyến do K và L cùng tăng theo quy mô sản xuất. Tuy nhiên, nếu biết hiệu suất không đổi theo quy mô thì ta có thêm thông tin: 2  3  1 . Khi đó mô hình ban đầu trở thành: Q  K  ln  i   1   2 ln  i   Li   Li  b/ Thu thập thêm số liệu hoặc lấy mẫu mới: Khi tiến hành trên mẫu số liệu mới, có thể làm cho hiện tượng đa cộng tuyến trở nên ít nghiêm trọng hơn so với mẫu ban đầu. Ngoài ra, việc tăng kích thước mẫu cũng có thể làm giảm đáng kể tính nghiêm trọng đa cộng tuyến trong mô hình. Chẳng hạn, xét mô hình hồi quy với hai biến độc lập dạng: Yi  1  2 X 2i  3 X 3i  U i Khi đó 2 Var 2    1  r   x 2 2 23 2i Nếu r232 không đổi, thì n   x22i  Var 2  . Kết quả là việc kiểm định cũng như   ước lượng liên quan tới 2 sẽ chính xác hơn. Cũng cần lưu ý thêm rằng việc bổ sung số liệu nhằm giảm tính nghiêm trọng của đa cộng tuyến đôi khi gặp khó khăn vì chi phí cao hoặc cấu trúc kinh tế của các quan sát mới có thể khác so với quan sát trước đó. c/ Kết hợp số liệu chéo và số liệu chuỗi thời gian: Đối với số liệu chuỗi thời gian, hiện tượng đa cộng tuyến thường xảy ra giữa các biến. Trong khi tại cùng một thời điểm, giá trị các biến thường không thay đổi nhiều đối với số liệu chéo. Do đó việc kết hợp hai dạng số liệu trên có thể giúp khắc phục một phần về tính chất nghiêm trọng của hiện tượng đa cộng tuyến. d/ Loại bỏ biến độc lập có đa cộng tuyến: Sau khi bỏ đi biến giải thích có hiện tượng đa cộng tuyến, các hệ số hồi quy của các biến còn lại từ chỗ không có ý nghĩa thống kê có thể trở nên có ý nghĩa thống kê. Đây là cách làm đơn giản nhất. Tuy nhiên nếu biến bị loại bỏ lại là biến cần phải có trong mô hình hồi quy thì chúng ta sẽ gặp phải vấn đề khó khăn khác như ước lượng sẽ chệch đối với các hệ số còn lại. 86
e/ Chuyển dạng dữ liệu bằng cách sử dụng sai phân bậc nhất: Đối với số liệu chuỗi thời gian, các biến giải thích thường dễ có xu hướng tương quan với nhau do cùng tăng tăng hoặc cùng giảm theo thời gian, gây ra hiện tượng đa cộng tuyến. Xét mô hình hồi quy trên số liệu chuỗi thời gian như sau: Yt  1  2 X 2t  3 X 3t  U t Giả sử xảy ra hiện tượng cộng tuyến giữa X 2t và X 3t . Để giảm thiểu hiện tượng cộng tuyến này, có thể sử dụng kỹ thuật hồi quy trên mô hình sai phân bậc nhất như sau: Yt  Yt 1   2  X 2t  X 2(t 1)   3  X 3t  X 3(t 1)   U t  U t 1  Tuy nhiên, nhiễu U t  U t 1  trong mô hình mới có thể xảy ra hiện tượng tự tương quan, không tuân theo một các giả định của mô hình hồi quy tuyến tính cổ điển. Nếu hiện tượng tự tương quan là nghiêm trọng thì mô hình này còn kém hiệu quả hơn mô hình ban đầu trong dự báo. Ví dụ 7.1.5.1: Khảo sát chi tiêu của người tiêu dùng, thu nhập và sự giàu có với số liệu như sau: Quan sát Chi tiêu cho tiêu dùng Thu nhập Sự giàu có Y ($) X 2 ($) X 3 ($) 1 70 80 810 2 65 100 1009 3 90 120 1273 4 95 140 1425 5 110 160 1633 6 115 180 1876 7 120 200 2052 8 140 220 2201 9 155 240 2435 10 150 260 2686 Theo lý thuyết kinh tế, chi tiêu cho tiêu dùng có xu hướng tăng theo thu nhập và sự giàu có nên dấu của các hệ số hồi quy là dương. Kết quả hồi quy bằng EVIEWS như sau: Dependent Variable: Y Method: Least Squares 87
Date: 10/18/17 Time: 07:41 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X2 0.941537 0.822898 1.144172 0.2902 X3 -0.042435 0.080664 -0.526062 0.6151 C 24.77473 6.752500 3.668972 0.0080 R-squared 0.963504 Mean dependent var 111.0000 Adjusted R-squared 0.953077 S.D. dependent var 31.42893 S.E. of regression 6.808041 Akaike info criterion 6.917411 Sum squared resid 324.4459 Schwarz criterion 7.008186 Log likelihood -31.58705 Hannan-Quinn criter. 6.817830 F-statistic 92.40196 Durbin-Watson stat 2.890614 Prob(F-statistic) 0.000009 Y X2 X3 Y 1 0.9808473685985793 0.9780997080416731 X2 0.9808473685985793 1 0.9989623917139848 X3 0.9780997080416731 0.9989623917139848 1   -0.042435  0 không phù hợp với lý thuyết kinh Dựa vào kết quả hồi quy, nhận thấy  3 tế (chi tiêu tăng theo sự giàu có). Ngoài ra, p  value  0.2902  0.05 đối với 2 và p  value  0.6151  0.05 đối với 3 nên 2 và 3 không có ý nghĩa thống kê (bằng 0). Tuy nhiên R 2  0.963504 rất lớn. Điều này khiến ta dự đoán hiện tượng cộng tính có thể xảy ra giữa X 2 và X 3 . Để kiểm tra điều này, ta áp dụng các phương pháp phát hiện khác nhau như sau:  r23  0.9989623917139848 rất gần 1: hiện tượng cộng tuyến hoàn hảo.  Hồi quy của Y theo từng biến giải thích: Dependent Variable: Y Method: Least Squares Date: Time: 08:03 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X2 0.509091 0.035743 14.24317 0.0000 C 24.45455 6.413817 3.812791 0.0051 R-squared 0.962062 Mean dependent var 111.0000 Adjusted R-squared 0.957319 S.D. dependent var 31.42893 88
S.E. of regression 6.493003 Akaike info criterion 6.756184 Sum squared resid 337.2727 Schwarz criterion 6.816701 Log likelihood -31.78092 Hannan-Quinn criter. 6.689797 F-statistic 202.8679 Durbin-Watson stat 2.680127 Prob(F-statistic) 0.000001 Dependent Variable: Y Method: Least Squares Date: Time: 08:04 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X3 0.049764 0.003744 13.29166 0.0000 C 24.41104 6.874097 3.551164 0.0075 R-squared 0.956679 Mean dependent var 111.0000 Adjusted R-squared 0.951264 S.D. dependent var 31.42893 S.E. of regression 6.938330 Akaike info criterion 6.888856 Sum squared resid 385.1233 Schwarz criterion 6.949373 Log likelihood -32.44428 Hannan-Quinn criter. 6.822469 F-statistic 176.6681 Durbin-Watson stat 2.417419 Prob(F-statistic) 0.000001 Nhận thấy X 2 và X 3 đều có ý nghĩa thống kê cao, hơn nữa dấu của X 3 dương cũng phù hợp với lý thuyết kinh tế.  Hồi quy phụ của X 3 theo X 2 : Dependent Variable: X3 Method: Least Squares Date: Time: 08:11 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. X2 10.19091 0.164262 62.04047 0.0000 C 7.545455 29.47581 0.255988 0.8044 R-squared 0.997926 Mean dependent var 1740.000 Adjusted R-squared 0.997667 S.D. dependent var 617.7312 S.E. of regression 29.83972 Akaike info criterion 9.806415 Sum squared resid 7123.273 Schwarz criterion 9.866932 Log likelihood -47.03207 Hannan-Quinn criter. 9.740028 F-statistic 3849.020 Durbin-Watson stat 2.077534 Prob(F-statistic) 0.000000 89
 Kiểm định F: H 0 : không có cộng tuyến, H1 : có cộng tuyến R22 /(k  2) F2  1  R22  /(n  k  1) 0.997926 /(3 - 2)   3849.2806  F0.05 (k  2, n  k  1)  5.318 (1- 0.997926) /(10 - 3  1) Do đó bác bỏ H 0 . 1  Ta có VIF  X 2    482.1601 rất lớn. Vậy khẳng định có đa cộng 1  0.997926 tuyến rất cao giữa X 2 và X 3 . Khắc phục hậu quả của đa cộng tuyến cao trong mô hình:  Loại bỏ bớt biến: Nhìn vào các bảng trên , ta thấy p  value  X 3   0.6151  p  value  X 2   0.2902  0.05 và R-squared của Y theo X 2 lớn hơn R-squared của Y theo X 3 , nghĩa là mô hình hồi quy Y theo X 2 có mức độ phù hợp cao hơn là mô hình hồi quy Y theo X 3 . Vậy ta có thể loại bỏ biến X 3 ra khỏi mô hình.  Sử dụng sai phân bậc nhất: Dependent Variable: DY Method: Least Squares Date: Time: 08:50 Sample (adjusted): 2 10 Included observations: 9 after adjustments Variable Coefficient Std. Error t-Statistic Prob. DX3 0.009547 0.093171 0.102467 0.9213 DX2 0.344944 0.989017 0.348775 0.7375 R-squared 0.001498 Mean dependent var 8.888889 Adjusted R-squared -0.141146 S.D. dependent var 10.54093 S.E. of regression 11.26028 Akaike info criterion 7.873570 Sum squared resid 887.5576 Schwarz criterion 7.917398 Log likelihood -33.43107 Hannan-Quinn criter. 7.778990 Durbin-Watson stat 2.356369 Nhận thấy R-squared trong mô hình này rất thấp, chỉ bằng 0.001498, hơn nữa 90
p  value  DX 2   0.7375 và p  value  DX 3   0.9213 rất lớn so với 0.05 nên cách khắc phục bằng phương pháp sai phân là không thích hợp. Do vậy cách loại bớt biến X 3 ra khỏi mô hình là hợp lý nhất. 7.2 Tự tương quan của nhiễu 7.2.1 Bản chất của tự tương quan Tự tương quan (Autocorrelation) được hiểu là sự tương quan giữa các thành phần của dãy quan sát theo thời gian (đối với số liệu chuỗi thời gian) hoặc không gian (đối với số liệu chéo). Mối quan hệ tương quan giữa các nhiễu trong mô hình hồi quy tuyến tính cổ điển được biểu diễn bằng hệ số hiệp phương sai Cov U i ,U j  . Nếu Cov U i ,U j   0, i  j thì ta nói xảy ra hiện tượng tự tương quan đối với nhiễu U i và U j . Ngược lại, nếu Cov U i ,U j   0, i  j thì ta nói không có tự tương quan giữa các nhiễu. Ví dụ 7.2.1.1: (Đối với số liệu chuỗi thời gian) Khi khảo sát sản lượng của quý theo vốn và lao động, nếu xảy ra hiện tượng đình công trong một quý nào đó thì có thể dẫn đến một trong hai tình huống sau đây: Hoặc việc đình công chỉ ảnh hưởng đến sản lượng của quý này và không có cơ sở để nói nó ảnh hưởng đến các quý sau thì ta xem như không có tự tương quan xảy ra, hoặc việc đình công xảy ra ở quý này và có thể tiếp tục tác động cho các quý sau thì ta nói có tự tương quan xảy ra. Ví dụ 7.2.1.2: (Đối với số liệu chéo) Khi xem xét mối quan hệ giữa chi tiêu cho tiêu dùng và thu nhập của các hộ gia đình ở cùng khu vực, có thể ta bắt gặp tình huống sau đây: Việc chi tiêu cho tiêu dùng tăng lên của một hộ gia đình nào đó dẫn đến việc tăng chi tiêu tiêu dùng của những hộ gia đình khác. Nguyên nhân có thể do tâm lý các hộ gia đình không muốn thua kém nhau. Khi đó ta nói có tự tương quan xảy ra. 91