Dự báo bằng phân tích hồi quy - Phùng Thanh Bình

Chia sẻ: Sdfcdxgvf Sdfcdxgvf | Ngày: | Loại File: PDF | Số trang:85

Thêm vào BST

Báo xấu

264
lượt xem 47
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Chương này giúp chúng ta hiểu được các vấn đề cơ bản nhất về phân tích hồi quy và các ứng dụng của phân tích hồi quy trong dự báo với các nội dung sau đây: Các vấn đề cơ bản về phân tích hồi quy, giải thích ý nghĩa thống kê của các kết quả hồi quy, thực hiện các kiểm định giả thiết quan trọng, giải thích ý nghĩa kinh tế của các kết quả hồi quy.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Dự báo bằng phân tích hồi quy - Phùng Thanh Bình

DỰ BÁO BẰNG PHÂN TÍCH HỒI QUY Phùng Thanh Bình ptbinh@ueh.edu.vn Chúng ta vừa khảo sát một số mô hình dự báo giản đơn thuộc nhóm các mô hình dự báo chuỗi thời gian. Như chúng tôi đã đề cập ở chương 1, mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó trong quá khứ và hiện tại. Tuy nhiên, các biến kinh tế thường có các mối quan hệ với nhau, và dựa trên các mối quan hệ đó mà chúng ta có thể suy luận được hành vi của một biến số nào đó khi đã có thông tin từ các biến số khác có liên quan. Chẳng hạn, các nhà hoạch định chính sách vĩ mô có thể dự báo được tốc độ tăng trưởng kinh tế trên cơ sở dự đoán được các thông tin tương lai về cung tiền, lãi suất, hay chi tiêu công. Hoặc các nhà nghiên cứu có thể dự đoán được mức độ chi tiêu của dân cư cho một nhóm hàng hóa nào đó trên cơ sở dự đoán xu hướng gia tăng trong thu nhập và trình độ học vấn. Hoặc giám đốc kinh doanh của một doanh nghiệp có thể dự đoán được doanh số trong tương lai trên cơ sở dự trù các khoản chi tiêu cho quảng cáo và chi tiêu cho nghiên cứu thị trường. Để có thể làm được như vậy, các phương pháp phân tích hồi quy trở thành một trong những công cụ vô cùng hữu ích. Ngoài ra, phân tích hồi quy còn giúp những người nghiên cứu kiểm chứng nhiều giả thiết kinh tế quan trọng nhằm có thêm thông tin chắc chắn cho việc ra quyết định về chính sách hay giải pháp nào đó. Hơn nữa, chúng ta sẽ tiếp tục tìm hiểu một số mô hình dự báo chuỗi thời gian phức tạp ở các chương sau, và các mô hình đó sẽ không thể nào thực hiện được nếu người phân tích không được trang bị một nền tảng tương đối về phân tích hồi quy. MỤC TIÊU HỌC TẬP Chương này giúp chúng ta hiểu được các vấn đề cơ bản nhất về phân tích hồi quy và các ứng dụng của phân tích hồi quy trong dự báo với các nội dung sau đây: Các vấn đề cơ bản về phân tích hồi quy Giải thích ý nghĩa thống kê của các kết quả hồi quy Thực hiện các kiểm định giả thiết quan trọng Giải thích ý nghĩa kinh tế của các kết quả hồi quy Nhận biết và khắc phục một số vấn đề thường gặp trong phân tích hồi quy Một số ứng dụng của phân tích hồi quy trong việc ra quyết định về chính sách và dự báo 1
MÔ HÌNH HỒI QUY ĐƠN MỤC ĐÍCH CỦA PHÂN TÍCH HỒI QUY Theo Gujarati (2003), phân tích hồi quy có thể giúp người phân tích: Ước lượng giá trị trung bình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích. Kiểm định các giả thiết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụ thuộc. Dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị của các biến giải thích. Dự báo tác động biên hoặc độ co giãn của một biến độc lập lên biến phụ thuộc thong qua hệ số hồi quy. MÔ HÌNH HỒI QUY TUYẾN TÍNH CỔ ĐIỂN Mô hình hồi quy tuyến tính cổ điển là một cách xem xét bản chất và hình thức của mối quan hệ giữa hai hay nhiều biến số. Trong phần này, chúng ta chỉ tập trung xem xét trường hợp mô hình hai biến. Trong đó Y là biến phụ thuộc và X là biến độc lập (hay còn gọi là biến giải thích). Như vậy, chúng ta muốn giải thích/dự báo giá trị của Y theo các giá trị khác nhau của X. Giả sử, X và Y có mối quan hệ tuyến tính như sau: E(Yt) = 1 + 2Xt (7.1) Trong đó, E(Yt) là giá trị trung bình có điều kiện của Yt theo Xt, và 1, 2 là các tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát). Phương trình (7.1) được gọi là phương trình hồi quy tổng thể. Giá trị thực Yt sẽ không phải luôn luôn bằng giá trị kỳ vọng E(Yt), vì vậy Yt có thể được thể hiện như sau: Yt = E(Yt) + ut Yt = 1 + 2Xt + ut (7.2) Trong đó, ut được gọi là hạng nhiễu ngẫu nhiên. Và ut luôn tồn tại do các nguyên nhân như bỏ sót biết giải thích, sai dạng mô hình do bỏ qua các tác động trễ, sai dạng hàm, lỗi đo lường, hoặc do đơn giản hóa mô hình bằng cách tổng hợp một số biến khác nhau thành một biến giải thích duy nhất. 2
PHƯƠNG PHÁP BÌNH PHƯƠNG BÉ NHẤT Phương pháp được sử dụng phổ biến nhất nhằm ước lượng các hệ số hồi quy là phương pháp bình phương bé nhất thông thường (OLS)1. Theo Gujarati (2003), dưới các giả định của mô hình hồi quy tuyến tính cổ điển (sẽ trình bày ở phần sau), thì phương pháp OLS có nhiều tính chất thống kê rất hấp dẫn làm cho nó trở thành một phương pháp mạnh và phổ biến nhất trong phân tích hồi quy. Phương pháp OLS được cho là của nhà toán học nổi tiếng người Đức Carl Friedrich Gauss. Nhắc lại hàm hồi quy tổng thể ở phương trình (7.2): Yt = 1 + 2X t + ut (7.2) Do hàm hồi quy tổng thể này không thể quan sát trực tiếp được, nên ta ước lượng nó từ hàm hồi quy mẫu từ phương trình (7.3): Yt = ˆ 1 + ˆ 2 Xt + u t ˆ (7.3) ˆ ˆ = Yt + u t ˆ Trong đó, Yt là giá trị quan sát thực tế, Yt là giá trị ước lượng hay trung bình có điều kiện của Yt. Ta có ˆ ˆ u t = Yt - Yt = Y t – ˆ 1 - ˆ 2 Xt (7.4) ˆ Phương trình này cho biết phần dư u t là hiệu số của giá trị Y thực tế và giá trị Y ước lượng vào thời điểm t, giá trị này có từ phương trình (7.3). Xây dựng các hệ số của hàm hồi quy mẫu với điều kiện bình phương ˆ tổng phần dư u t (Yt ˆ Yt ) là tối thiểu nhất. Nghĩa là, nghĩa là xác định ˆ và ˆ sao cho tổng 1 2 bình phương phần dư ˆt u 2 (được gọi là RSS) là tối thiểu. RSS được định nghĩa như sau: n n n RSS ˆt u2 (Yt ˆ Yt ) 2 (Yt ˆ ˆ X )2 (7.5) 1 2 t t 1 t 1 t 1 Để tối thiểu hóa (7.5), ta lấy đạo hàm bậc một của RSS theo ˆ 1 và ˆ 2 và cho các đạo hàm này bằng không. RSS ˆ ˆ X ) 0 2 (Yt (7.6) ˆ 1 2 t 1 RSS ˆ ˆ X )X 0 2 (Yt (7.7) ˆ 1 2 t t 2 1 Ordinary least squares 3
Hai phương trình (7.6) và (7.7) có thể được viết lại như sau: Yt n ˆ1 ˆ 2 Xt (7.8) X t Yt ˆ Xt ˆ X2 (7.9) 1 2 t Trong đó n là số quan sát trong mẫu. Hệ hai phương trình (7.8) và (7.9) có thể được biểu diển dưới hình thức ma trận như sau: n Xt ˆ Yt 1 = (7.10) X X2 ˆ Y Xt   2 t   t     t A 2.2 B2 ,1 C2 ,1 Có thể giải nhanh hệ phương trình (7.10) theo quy tắc Cramer để có ˆ 1 và ˆ như sau: 2 ˆ X 2 Yt t Xt Yt X t 1 2 (7.11) n X2 t Xt ˆ n Yt X t Xt Yt 2 2 (7.12) n X2 t Xt Tuy nhiên, các công thức ước tính ˆ 1 và ˆ 2 như trên có vẻ hơi phức tạp nên rất dễ làm người đọc (nhất là sinh viên năm 2 và năm 3 các ngành kinh tế) ngao ngán vì tính phức tạp của nó. Từ phương trình (7.8) ta có: ˆ Y ˆ2X (7.13) 1 Thế ˆ 1 ở phương trình (7.13) vào phương trình (7.9) để tìm ˆ 2 như sau: YtXt = ( Y ˆ 2 X ) Xt + ˆ 2 X2t YtXt = Y X t ˆ X X + ˆ X2t 2 t 2 Do Xt n X , nên ta có: YtXt = n YX n ˆ 2 X + ˆ 2 X2t 2 YtXt - nYX = ˆ 2 2 X2 nX t (7.14) Ta lại có, (X t X)(Yt Y) (X t Yt X t Y XYt XY) = X t Yt Y X X Yt XY = X t Yt n X Y n XY n X Y 4
= X t Yt n XY (7.15) Và 2 2 (X t X) = (X 2 t 2X t X X ) 2 = X2 t 2X X t X 2 = X2 t 2n XX n X 2 = X2 t nX (7.16) Thế phương trình (7.15) và (7.16) vào phương trình (7.14) ta có: (X t X)(Yt Y) ˆ (X t X) 2 2 ˆ (X t X)(Yt Y) 2 (7.17) (X t X) 2 x t yt = x2 t Trong đó, xt = (Xt - X ) và yt = (Yt - Y ). Như vậy, qua một vài bước biến đối nhỏ ta có công thức ước tính ˆ 2 cực kỳ đơn giản và rất ý nghĩa. Tưởng tượng rằng, lấy cả tử và mẫu của (7.17) chia cho (n-1), ta có: ˆ Cov(X t , Yt ) 2 (7.18) Var (X t ) Ngoài ra, ˆ 2 ở phương trình (7.17) còn có thể được thể hiện một cách khác như sau: ˆ = x t yt 2 x2 t x t (Yt Y) x t Yt Y xt ) = 2 (X t X) 2 X2 t nX x t Yt Y (X t X) x t Yt = 2 2 X2 t nX X2 t nX x t Yt x t Yt = 2 = (7.19) X 2 t nX x2 t Các công thức ở phương trình (7.17) và (7.19) mách cho chúng ta một điều rất thú vị rằng, ˆ 1 là một hàm tuyến tính theo ˆ 2 , ˆ 2 là một hàm tuyến tính 5
theo Yt, nên cả ˆ 1 và ˆ 2 đều là các hàm tuyến tính theo Yt. Và Yt là một hàm tuyến tính theo ut, vậy ˆ và ˆ là các hàm tuyến tính theo ut. Cho 1 2 nên, nếu ut có phân phối chuẩn thì ˆ 1 và ˆ 2 cũng sẽ có phân phối chuẩn. CÁC GIẢ ĐỊNH CỦA HỒI QUY TUYẾN TÍNH CỔ ĐIỂN Theo Gujarati (2003), nếu mục tiêu của ta chỉ là ước lượng các hệ số 1 và 2, thì chỉ cần phương pháp OLS là đủ. Nhưng, như ta đã biết, các mục tiêu của phân tích hồi quy không chỉ dừng lại ở việc có được các giá trị ước lượng ˆ 1 và ˆ 2 , mà còn phải suy diễn (dự báo khoảng) về các giá trị thực 1 và 2 thực sự có ý nghĩa thống kê hay không. Chính vì vậy, chúng ta cần biết cụ thể về bản chất của hàm hồi quy tổng thể. Cụ thể, chúng ta không chỉ xác định dạng hàm của mô hình hồi quy, mà còn đưa ra các giả định về cách mà Yt được tạo ra như thế nào. Phương trình (7.2) cho thấy Yt phụ thuộc vào cả Xt và ut. Cho nên, nếu ta không biết Xt và ut được tạo ra như thế nào, thì ta sẽ không có cách nào suy diễn được Yt cũng như các hệ số 1 và 2. Chính vì thế, các giả định về biến giải thích Xt và số hạng nhiễu ut có ý nghĩa rất quan trọng cho việc giải thích các giá trị ước lượng của hồi quy. Ta đã biết, các hạng nhiễu ut (không thể quan sát được) là các hạng nhiễu ngẫu nhiên. Do hạng nhiễu ut cộng với một số hạng phi ngẫu nhiên Xt để tạo ra Yt, vậy Yt sẽ là một biến ngẫu nhiên. Dưới đây là tóm tắt các giả định trong mô hình hồi quy tuyến tính cổ điển.  BẢNG 7.1: Giả định của mô hình hồi quy tuyến tính cổ điển Giả định Biểu diễn dạng toán Không thỏa mãn do (1) Mô hình tuyến tính Yt = 1 + 2Xt + ut Sai dạng mô hình (2) Mô hình được xác định đúng (3) Xt có thể biến thiên Var(Xt) 0 Sai dạng mô hình (4) Xt và ut không tương quan Cov(Xt,ut) = 0 Tự hồi quy Giá trị kỳ vọng của hạng (5) E(ut) = 0 Sai dạng mô hình nhiễu bằng không (6) Không có đa cộng tuyến ( i Xit j X jt ) 0, i j Đa cộng tuyến 2 (7) Phương sai không đổi Var(ut) = Phương sai thay đổi (8) Không có tương quan chuỗi Cov(ut,us) = 0, t s Tự tương quan (9) Hạng nhiễu phân phối chuẩn ut ~ N( , 2) Outliers ĐẶC ĐIỂM CỦA CÁC ƯỚC LƯỢNG OLS Các ước lượng của OLS khi tuân thủ các giả định sẽ đạt được tiêu chuẩn BLUE2, có nghĩa là ước lượng không chệch, tuyến tính, và tốt nhất. Ước lượng là tuyến tính do giá trị ước lượng hệ số hồi được biểu diễn tuyến tính theo Y (phương trình 7.20). Giá trị các ước lượng của các hệ số hồi quy là không chệch do kỳ vọng của ước lượng hệ số hồi quy trong hàm hồi quy mẫu bằng với giá trị của hệ số hồi quy trong hàm hồi quy tổng thể (phương 2 Best linear unbiased estimator 6
trình 7.25 và 7.26), và ước lượng của các hệ số hồi quy là tốt nhất vì phương sai của các hệ số hồi quy của hàm hồi quy mẫu là nhỏ nhất (phương trình 7.29 và 7.30). Công thức ở phương trình (7.19) có thể được viết lại như sau: ˆ x t Yt 2 = k t Yt (7.20) x2 t trong đó, xt kt (7.21) x2t Phương trình (7.20) cho thấy ˆ 2 là một ước lượng tuyến tính bởi vì nó là một hàm tuyến tính của Yt. Nói cách khác, các ước lượng OLS là một trung bình có trọng số của Yt, với kt đóng vai vai trò như các trọng số. Tương tự, ˆ cũng là một ước lượng tuyến tính theo Yt. 2 ˆ =Y ˆ X 1 2 = Y X k t Yt (7.22) Tính chất của kt 1. Do Xt được giả định là phi ngẫu nhiên (cố định), nên kt cũng phi ngẫu nhiên 2. kt 0 (do xt 0) 2 1 2 x2 1 t 3. k t (do k t . ) x2t 2 xt x2 t 4. ktxt k t Xt 1 (do ktxt k t (X t X) k t Xt X kt ktxt ) Dựa vào các tính chất của kt ta suy ra các công thức của ˆ 1 và ˆ 2 như sau. Thế công thức Yt = 1 + 2Xi + ut vào công thức (7.20), ta có ˆ = kt ( 1 2 Xt ut ) 2 = 1 kt 2 k tXt ktut = 2 ktut (7.23) Thế các công thức Y 1 2 X và công thức Yt = 1 + 2Xt + ut vào công thức (7.22), ta có: ˆ X ktut (7.24) 1 1 7
Như vậy, ˆ 1 và ˆ 2 là các hàm tuyến tính theo các hạng nhiễu ngẫu nhiên ut. Chính vì thế ˆ và ˆ sẽ có phân phối theo ut. 1 2 Trung bình của các ước lượng OLS Từ hai phương trình (7.23) và (7.24), ta thấy rằng nếu lấy giá trị trung bình của các ước lượng ˆ 1 và ˆ 2 ta sẽ có: E( ˆ 1 ) = E( 1 X ktut ) 1 (7.25) E( ˆ 2 ) = E( 2 ktut ) 2 (7.26) Như vậy, các ước lượng OLS có một tính chất rất quan trọng là có giá trị trung bình đúng bằng giá trị thực của tổng thể. Chính nhờ điều này mà người ta gọi các ước lượng OLS là các ước lượng không chệch. Phương sai của các ước lượng OLS Từ định nghĩa về phương sai ta có: Var( ˆ 2 ) = E[ ˆ 2 – E( ˆ 2 )]2 = E( ˆ 2 – 2) 2 (7.27) Thế công thức (7.26) vào (7.27), ta có: n Var( ˆ 2 ) = E( 2 + ktut - 2) 2 t 1 n 2 =E ktut t 1 2 2 = E k1 u1 k 2 u 2 ... k 2 u 2 2 2 n n 2k1k 2 u1u 2 ... 2k n 1k n u n 1u n Do ta giả định phương sai nhiễu không đổi, nên E(u 2 ) t 2 tại mỗi giá trị t và không có tự tương quan nên E(utus) = 0, với t s, nên ta có: Var( ˆ 2 ) = k1 2 2 k2 2 2 ... k 2 n 2 2 = k2 t (7.28) Thế tính chất số (3) của kt vào (7.28) ta có: 2 Var( ˆ 2 ) = (7.29) x2 t Thực hiện tương tự, ta có: X2 Var( ˆ 1 ) = t 2 (7.30) n x2 t 8
Lấy căn bậc hai các phương trình (7.29) và (7.30) ta có các sai số chuẩn của các hệ số hồi quy ˆ 1 và ˆ 2 như sau: se( ˆ 2 ) = (7.31) x2 t X2 se( ˆ 1 ) = t (7.32) n x2 t Trong đó, 2 là một hằng số do ta giả định phương sai nhiễu không đổi. Với một dữ liệu mẫu nhất định thì ta có thể dễ dàng tính được X 2 và t x 2 , trừ 2. Nếu có được một giá trị phương sai nhất định thì các sai số t chuẩn của các hệ số hồi quy sẽ có một giá trị xác định. Trên thực tế, ta chỉ có ước lượng của 2 được tính theo công thức sau đây: ˆt u2 ˆ2 (7.33) n 2 Ở đây, ˆ 2 cũng là một ước lượng không chệch của phương sai nhiễu 2. Ở ˆt công thức (7.33), (n-2) là bậc tự do, ký hiệu là d.f., và u 2 là tổng bình phương phần dư, ký hiệu là RSS. Chắc chắn chúng ta sẽ thắc mắc tại sao bậc tự do của RSS là (n-2), hay bằng số quan sát trong mẫu trừ số hệ số ước lượng trong mô hình hồi quy. Có nhiều cách giải thích số bậc tự do, như ta có thể giải thích đơn giản như sau. Ta thấy rằng, trước khi có thể tính được RSS như ở công thức (7.5), trước tiên ta phải có các hệ số ˆ 1 và ˆ vì các giá trị của Yt và Xt đã có sẵn từ dữ liệu mẫu. Để ước lượng được 2 ˆ và ˆ , ta cần ít nhất hai cặp quan sát (Yt,Xt) bất kỳ (nghĩa là xác định 1 2 phương trình đường thẳng qua hai điểm). Như vậy, hai giá trị ước lượng này là hai ràng buộc lên RSS. Nói cách khác, trong tập hợp tất cả các cặp quan sát (Yt,Xt) trong miền giá trị của mẫu dữ liệu sẽ có ít nhất hai cặp quan sát nào đó nằm trên (hoặc rất gần với) đường hồi quy mẫu. Chính vì thế, phần dư tương ứng sẽ bằng không hoặc rất nhỏ. Như vậy, thực sự giá ˆt trị của RSS chỉ do (n-2) giá trị u 2 tạo thành. Như vậy, (n-2) chính là số nguồn thông tin để tính RSS. Lấy căn bậc hai của công thức (7.33) ta sẽ có sai số chuẩn của giá trị ước lượng hay sai số chuẩn của hồi quy ( ˆ ) như sau: RSS ˆ (7.34) n 2 Đây chính là độ lệch chuẩn của các giá trị Y quanh đường hồi quy mẫu và được sử dụng như một thước đo “mức độ phù hợp” của đường hồi quy so với các giá trị thực tế từ mẫu dữ liệu. 9
HỆ SỐ XÁC ĐỊNH r2 Cho đến đây chúng ta đã xem xét xong vấn đề ước lượng các hệ số hồi quy, các sai số chuẩn, và tính chất của các ước lượng OLS. Bây giờ chúng ta sẽ xem xét mức độ phù hợp của đường hồi quy mẫu với dữ liệu thực tế; nghĩa là, ta sẽ xem đường hồi quy mẫu phù hợp với dữ liệu mẫu như thế nào. Hệ số xác định r2 (cho trường hợp mô hình hồi quy đơn) và R2 (cho trường hợp mô hình hồi quy bội) là một thước đo chung cho biết một đường hồi quy nhất định sẽ phù hợp với dữ liệu mẫu như thế nào. Để có thước đo độ phù hợp, trước hết ta cần phân tích giá trị thực Yt theo các các trị ước lượng và phần dư như ở phương trình (7.3): ˆ ˆ Yt = Yt + u t (7.3) Cả trừ cả hai vế của phương trình (7.3) cho Y , ta có: ˆ ˆ Yt - Y = Yt - Y + u t (7.35) Do chúng ta cần một thước đo về tổng biến thiên của Yt quanh giá trị trung bình Y , nên phương trình (7.35) được viết lại như sau: (Yt Y) ˆ (Yt ˆ Y ut ) (7.36) Lấy bình phương hai vế của (7.36), ta có: (Yt Y) 2 ˆ (Yt ˆ Y u t )2 (7.37) Tương đương với, y2 t ˆt (y2 ˆ u t )2 (7.38) ˆt y2 ˆt u2 ˆ ˆ 2 yt u t (7.39) ˆ ˆ Do y t u t ˆ 0 và y t ˆ x , nên phương trình (7.39) có thể được viết lại 2 t như sau: y2 t ˆt y2 ˆt u2 ˆ 2 x2 ˆt u2 (7.40) 2 t Trong đó, y 2t (Yt Y) 2 là tổng biến thiên của giá trị Y thực tế quanh giá trị trung bình mẫu và được gọi là tổng bình phương (TSS). ˆ y2 t ˆ ˆ (Y Y) 2 t (Y Y) 2 ˆ 2 x 2 là tổng biến thiên của giá trị Y ˆ t 2 t ˆ ước lượng quanh giá trị ước lượng trung bình (Y Y) và được gọi là tổng bình phương được giải thích bởi hàm hồi quy, hay đơn giản hơn là tổng ˆt bình phương phần được giải thích (ESS). u 2 là tổng biến thiên phần dư hay phần không được giải thích của các giá trị Y quanh đường hồi quy, hay 10
đơn giản là tổng bình phương phần dư (RSS). Như vậy, phương trình (7.40) được viết lại như sau: TSS = ESS + RSS (7.41) Điều này có nghĩa rằng biến thiên trong các giá trị Y quan sát quanh giá trị trung bình mẫu có thể được chia thành hai phần, một đại diện cho đường hồi quy và một đại diện cho các yếu tố ngẫu nhiên bởi vì không phải tất cả các quan sát thực của Y đều nằm trên đường hồi quy. Ta có thể biểu diễn minh họa một giá trị Y quan sát bất kỳ như Hình (7.1). Chia cả hai vế của phương trình (7.41) cho TSS, ta có: ESS RSS 1 (7.42) TSS TSS Bây giờ ta định nghĩa r2 như sau: ESS r2 TSS RSS 1 (7.43) TSS  HÌNH 7.1: Các thành phần trong biến thiên của Y Yi ˆ ui Yi ˆ Yi (Yi Y) ˆ Yi ˆ (Yi Y) Y Xi 11
Tóm lại, r2 được biết như hệ số xác định và là thước đo được sử dụng phổ biến nhất về mức độ phù hợp của hàm hồi quy mẫu với dữ liệu quan sát. Đặc điểm của hệ số xác định 1. r2 là một đại lượng không âm 2. 0 r2 1. Nếu r2 = 1, thì đường hồi quy phù hợp hoàn toàn; nghĩa ˆ là, Yt Yt với mỗi t. Ngược lại, nếu r2 = 0, thì không có mối quan hệ nào giữa biến giải thích và biến phụ thuộc. Hệ số xác định r2 còn được tính theo công thức sau đây: ESS ˆt y2 ˆ 2 x2 x2 r 2 2 t ˆ t (7.44) 2 TSS y2 t 2 yt 2 yt Nếu ta chia cả tử và mẫu của phương trình (6.98) cho (n-1), thì ta có: 2 r2 ˆ 2 Var (X t ) ˆ 2 Sx (7.45) 2 2 Var (Yt ) S2 y Với S2 và S2 là các phương sai mẫu của Xt và Yt trong mẫu dữ liệu có sẵn. x y x t yt Ngoài ra, ta biết rằng ˆ 2 , nên phương trình (7.45) có thể được x2t biến đổi như sau: 2 2 2 2 ( x t yt ) x ( x t yt ) x t yt r2 t (rXY ) 2 (7.46) ( x 2 )2 t y 2 t x 2 y2 t t x2 t y2 t Trong đó rxy là hệ số tương quan của biến phụ thuộc Y và biến độc lập X. Một số vấn đề cần lưu ý khi sử dụng hệ số xác định 1. Vấn đề hồi quy giả mạo3. Trong trường hợp hai hoặc nhiều biến thực sự không có mối tương quan gì, nhưng bản thân chúng có thể tồn tại yếu tố xu thế mạnh (thường ở dữ liệu chuỗi thời gian), nên các giá trị r2 (R2) rất cao (đôi khi cao hơn 0.9). Nếu đều này xảy ra, chúng ta có thể bị ngộ nhận về mối quan hệ thực sự giữa các biến là quan trọng. 2. Tương quan mạnh giữa các biến giải thích (hồi quy bội). Trong trường hợp hồi quy bội, nếu các biến giải thích có tương quan với nhau (được gọi là hiện tượng đa cộng tuyến), thì giá trị R2 thường rất cao. Điều này có thể dẫn đến sự nhầm lẩn trong việc cho rằng đường hồi quy rất phù hợp với dữ liệu. 3 Spurious regression 12
3. Tương quan không nhất thiết hàm ý quan hệ nhân quả. Cho dù giá trị R2 cao bao nhiêu đi nữa, thì nó cũng không thể nói lên có mối quan hệ nhân quả giữa Yt và Xt vì R2 là một thước đo mối quan hệ giữa giá trị Yt quan sát với giá trị Yt ước lượng. 4. Phương trình dữ liệu chuỗi thời gian với phương trình dữ liệu chéo. Các phương trình dữ liệu chuỗi thời gian luôn có các giá trị R2 cao hơn so với các phương trình dữ liệu chéo. Điều này bởi vì trong dữ liệu chéo chứa đựng rất nhiều sự biến thiên ngẫu nhiên nên làm cho ESS nhỏ tương đối so với TSS. Ngược lại, thậm chí các phương trình chuỗi thời gian được xác định không phù hợp lắm vẫn có thể có R2 rất cao (có thể 0.999) do hiện tượng hồi quy giả mạo, hoặc do các biến có mối quan hệ tự tương quan. 5. R2 thấp không có nghĩa chọn lựa sai biến giải thích Xt. Giá trị R2 thấp không nhất thiết do kết quả của việc sử dụng một biến giải thích sai. Dạng hàm được sử dụng có thể không phù hợp (ví dụ tuyến tính chứ không phải bậc hai) hoặc trong trường hợp dữ liệu thời gian thì việc chọn giai đoạn thời gian có thể không chính xác và cũng có thể cần đưa vào mô hình các hạng trễ. 6. Các giá trị R2 từ các phương trình với biến phụ thuộc có dạng khác nhau không thể so sánh được. Ví dụ ta ước lượng hai phương trình hồi quy sau đây: Yt = 1 + 2Xt + ut (7.47) lnYt = 1 + 2lnXt + ut (7.48) Nếu so sánh r2 của hai phương trình này là không chính xác. Điều này là do cách định nghĩa r2. Giá trị r2 của phương trình (7.47) cho biết phần trăm biến thiên trong Yt được giải thích bởi Xt, trong khi đó r2 của phương trình (7.48) cho biết phần trăm biến thiên trong logarith tự nhiên của Yt được giải thích bởi logarith tự nhiên của Xt. Nói chung, bất kỳ khi nào biến phụ thuộc được biến đổi theo các hình thức khác nhau, thì chúng ta không nên sử dụng r2 để so sánh giữa các mô hình. KIỂM ĐỊNH GIẢ THIẾT VÀ CÁC KHOẢNG TIN CẬY Với các giả định hồi quy CLRM thì hạng nhiễu ut theo phân phối chuẩn, nên các ước lượng OLS cũng theo phân phối. Cụ thể, các ước lượng OLS có thể được biểu hiện như sau: ˆ ~ N( , 2 ˆ1 ) (7.49) 1 1 ˆ 1 1 Z1 ~ N(0,1) (7.50) ˆ 1 13
ˆ ~ N( , 2 ˆ2 ) (7.51) 2 2 ˆ 2 2 Z2 ~ N(0,1) (7.52) ˆ2 Tuy nhiên, chúng ta thường không biết giá trị của ˆ và ˆ . Theo lý 1 2 thuyết thống kê, nếu ˆ và ˆ được thay bằng các ước lượng của chúng là 1 2 ˆ ˆ se( ˆ 1 ) và se( ˆ 2 ), thì các biến t 1 2 2 sẽ theo phân 1 1 và t 2 ˆ ) se( 1 ˆ ) se( 2 phối t với n-2 bậc tự do (trong trường hợp hồi quy đơn). Như vậy, chúng ta sẽ sử dụng thống kê t để kiểm định các giả thiết về các hệ số hồi quy. Các bước kiểm định ý nghĩa của các hệ số hồi quy OLS Bước 1: Xác định giả thiết không (H0) và giả thiết khác (H1 hoặc Ha). Thông thường, H0: 2 0 ; H1: 2 0 (kiểm định hai đuôi), hoặc nếu biết trước thông tin về dấu của hệ số ước lượng (ví dụ dấu dương), thì H0: 2 0 ; H1: 2 0 (kiểm định một đuôi). ˆ Bước 2: Tính giá trị thống kê t tính toán (t-stat): t 2 2 , trong đó dưới se( ˆ 2 ) ˆ giả thiết H0: 0 , nên t . Giá trị này thường được báo 2 se( ˆ 2 ) 2 cáo sẵn trong các kết quả ước lượng trên Eviews. Bước 3: Tính giá trị thống kê t tra bảng (t-crit) theo công thức sau: =TINV( ,d.f.) trong excels. Bước 4: Nếu t stat t crit , ta bác bỏ giả thiết H0. Lưu ý, nếu ta muốn kiểm định một giả thiết nào khác (ví dụ, 2 1 ), thì ta thay đổi giả thiết H0 và H1 ở bước 1, rồi tính một cách thủ công giá trị t-stat ở bước 2. Trong trường hợp này, chúng ta không thể sử dụng giá trị t-stat được báo cáo trong kết quả Eviews. Trong thống kê, khi ta ‘bác bỏ’ giả thiết không, nghĩa là ta nói rằng kết quả nghiên cứu của ta là có ý nghĩa thống kê. Ngược lại, khi ta ‘không bác bỏ’ giả thiết không, nghĩa là ta nói rằng kết quả nghiên cứu của ta là không có ý nghĩa thống kê. Thông thường, ta hay sử dụng ba mức ý nghĩa là 1%, 5%, và 10%. Tuy nhiên, sau này ta thấy rằng giá trị xác suất p (p-value hay prob của hệ số hồi quy) sẽ rất hữu ích vì chỉ cần nhìn vào giá trị xác suất p, ta có thể kết luận một hệ số ước lượng có ý nghĩa thống kê ở mức ý nghĩa là bao nhiêu. Giá trị xác xuất p sẽ được tính toán tự động khi chúng ta thực hiện hồi quy bằng phần mềm Eviews hay phần mềm khác. 14
Ý nghĩa của việc “chấp nhận” hay “bác bỏ” một giả thiết Nếu trên cơ sở của một kiểm định ý nghĩa, ví dụ kiểm định t, ta quyết định “chấp nhận” giả thiết không (H0), thì có nghĩa ta đang nói rằng với dữ liệu mẫu sẵn có ta chưa đủ cơ sở bác bỏ giả thiết đó, chứ ta không nói rằng giả thiết H0 là đúng mà không có bất cứ hoài nghi nào. Tại sao? Để trả lời câu hỏi này, ta giả sử rằng H0: 2 2.5 . Với hệ số ước lượng từ dữ liệu mẫu ˆ = -2.909 và se( ˆ ) = 0.25, thì giá trị t tính toán sẽ là (–2.909 – (– 2 2 2.5))/0.25 = 1.636, ta kết luận hệ số ước lượng không có ý nghĩa thống kê ở mức ý nghĩa = 5%. Vì thế, ta “chấp nhận” H0. Nhưng bây giờ giả sử ta giả định H0: 2 = -3, và tính được giá trị t tính toán là (–2.909 – (–3))/0.25 = 0.364. Với giá trị t tính toán này thì hệ số ước lượng vẫn không có ý nghĩa thống kê. Và bây giờ ta cũng “chấp nhận” H0. Như vậy, trong hai giả thiết H0 thì giả thiết nào thực sự là giả thiết “đúng”? Ta thực sự “không biết”. Vì thế, khi “chấp nhận” một giả thiết H0 ta luôn luôn nên hiểu rằng có một giả thiết khác có thể sẽ cũng tương thích với dữ liệu mẫu. Cho nên, tốt nhất là ta nên nói “có thể chấp nhận” giả thiết H0, hơn là chỉ nói “chấp nhận” giả thiết H0. Giả thiết không “ i = 0” và nguyên tắc t = 2 Một giả thiết H0 được sử dụng phổ biến nhất trong các nghiên cứu thực nghiệm là H0: i = 0; nghĩa là, hệ số độ dốc bằng không. Mục đích của loại giả thiết này là nhằm xem có mối quan hệ nào giữa biến phụ thuộc (Y) và một biến giải thích (X) nào đó hay không. Nếu kết quả cho thấy không có mối quan hệ nào giữa Y và X, thì việc kiểm định một giả thiết, ví dụ H0: i = –2, là vô nghĩa. H0: i =0 15
Giả thiết H0 này có thể được kiểm định một cách dễ dàng bằng phương pháp khoảng tin cậy hay kiểm định mức ý nghĩa như đã trình bày ở trên. Nhưng thông thường người ta có thể kiểm định “nhanh” bằng cách áp dụng nguyên tắc “t=2” như sau:  BẢNG 7.2: Nguyên tắc “t = 2” Nguyên tắc “t=2”. Nếu số bậc tự do là 20 hoặc cao hơn và nếu mức ý nghĩa được chọn là = 5%, thì giả thiết H0: i = 0 có thể bị bác bỏ nếu giá trị tuyệt đối của giá trị t tính toán (b2/se(b2)) lớn hơn 2. Nguồn: Gujarati, 2003, trang 134 Tất cả các phần mềm kinh tế lượng đều có báo cáo giá trị t tính toán cho loại giả thiết này. Cho nên, ta chỉ cần so sánh giá trị t tính toán đó với giá trị t tra bảng ở một mức ý nghĩa xác định, hoặc đơn giản với t = 2. Lưu ý rằng, chúng ta cần thiết phải kiểm định một hệ số hồi quy có ý nghĩa thống kê hay không vì đó là cơ sở quan trọng cho việc có thể sử dụng kết quả ước lượng cho các mục đích dự báo hệ số co giãn hoặc phân tích chính sách đối với các mô hình nhân quả. Ngoài ra, điều này cũng đúng đối với các mô hình dự báo bằng hồi quy hàm xu thế (ở chương 5). ƯỚC LƯỢNG HỒI QUY ĐƠN TRÊN EVIEWS Giả sử ta bắt đầu từ việc nhập dữ liệu vào Eviews rồi mới thực hiện ước lượng hồi. Bước 1: Khởi động Eviews Bước 2: Chọn File/New/Workfile để mở một tập tin Eviews mới Bước 3: Chọn loại tần suất của dữ liệu. Trong trường hợp dữ liệu thời gian, chọn Dated-Regular Frequency, rồi chọn tần suất là Annual nếu dữ liệu theo năm, Quarterly nếu dữ liệu theo quý, Monthly nếu dữ liệu theo tháng, sau đó nhập thời điểm bắt đầu (ví dụ 1990 nếu là năm, 2000Q1 nếu là quý, và 2000M1 nếu là tháng), và thời điểm kết thúc (ví dụ 2008 nếu là năm, 2008Q4 nếu là quý, và 2008M12 nếu là tháng). Trong trường hợp dữ liệu chéo (như ví dụ ta đang xét), chọn Unstructured/Undated, rồi nhập số quan sát của mẫu dữ liệu vào (ví dụ đang xét là 10). Sau khi chọn OK, ta sẽ có một cửa sổ mới với các thông tin mặc định bao gồm một hằng số (c) và một phần dư (resid). Bước 4: Trong cửa sổ này ta chọn “genr” để tạo các biến Y và X như sau: y=na (nhấn ‘enter’) x=na (nhấn ‘enter’) Như thế đã tạo được hai biến mới Y và X chưa có giá trị nào ở mỗi quan sát tương ứng (na = not available). Sau đó, ta chọn hai biến Y 16
và X, rồi mở dưới dạng nhóm bằng cách nhấp đúp chuột vào hai biến đó. Bước 5: Sau đó ta chọn Edit+/- để nhập dữ liệu vào hoặc có thể copy và paste từ bảng tính Excel. Sau khi đã nhập hoặc paste xong, ta lại chọn Edit+/- để kết thúc việc nhập dữ liệu từ bàn phím. Lưu ý, thông thường chúng ta chuyển trực tiếp một tập tin Excel (hoặc bất kỳ tập tin dạng nào khác) sang tập tin Eviews, chứ không cần thiết phải nhập một cách thủ công như vậy. Bước 6: Sau khi đã nhập xong dữ liệu vào Eviews, ta có thể tiến hành ước lượng phương trình hồi quy bằng một trong hai cách sau đây: Cách 1: Trên màn hình lệnh ta nhập vào như sau: ls y c x (rồi nhấn ‘enter’) Cách 2: Chọn Quick/Estimate Equation, rồi nhập vào hộp thoại ‘equation specification’ như sau: y c x (nhấn ‘enter’) Sau khi chọn “OK” chúng ta sẽ thấy xuất hiện một biểu tượng kết quả phương trình hồi quy như sau: 17
Phương pháp ước lượng Sai số chuẩn (se) Tên biến phụ thuộc được sử dụng của ˆ 1 và ˆ 2 Số quan sát Hệ số ˆ 1 pr( t >35.56) Hằng số pr( t >11.61) Tên biến Giá trị Y giải thích trung bình Độ lệch Sai số chuẩn chuẩn của Y của ước lượng RSS Giá trị ˆ thống kê F n 2 RSS Hệ số ˆ 2 Giá trị thống kê t của ˆ 2 pr( F >134.85 R2 Thống kê d ˆ 2.9091 ) 2 tˆ Durbin-Watson 2 se( ˆ 2 ) 0.2505 MÔ HÌNH HỒI QUY BỘI Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc, Y, phụ thuộc vào nhiều biến giải thích khác nhau. Cho nên, chúng ta cần phải mở rộng phân tích hồi quy cho trường hợp tổng quát hơn. Hàm hồi quy tổng thể ngẫu nhiên với k biến có thể được biểu diễn như sau: Yt = 1 + 2X2t +…+ kXkt + ut t = 1, 2, 3, …, n (7.53) Trong đó, 1 là hệ số cắt, 2, …, k là các hệ số hồi quy riêng, ut là hạng nhiễu ngẫu nhiên, và t là quan sát thứ t, n được xem là quy mô toàn bộ của tổng thể. Phương trình (7.53) cũng được chia thành hai thành phần (1) Thành phần xác định E(Yt/X2t, X3t, …, Xkt), nghĩa là giá trị trung bình có điều kiện của Y theo các giá trị cho trước của các X, và (2) Thành phần ngẫu nhiên ut đại diện cho tất cả các yếu tố khác ngoài các biến X2t, …, Xkt có ảnh hưởng lên Yt. ƯỚC LƯỢNG MÔ HÌNH HỒI QUY BỘI Trong phạm vi cuốn sách này, chúng tôi chỉ trình bày minh họa trường hợp mô hình hồi quy ba biến. Cho nên, chúng ta có thể tham khảo trường hợp 18
mô hình k biến ở các giáo trình chuyên về kinh tế lượng. Để ước lượng các hệ số hồi quy riêng ta vẫn sử dụng phương pháp tổng bình phương bé nhất thông thường (OLS) như đã giới thiệu trên. Giả sử ta có hàm hồi quy mẫu như sau: Yt = ˆ 1 + ˆ 2 X2t + ˆ 3 X3t + u t ˆ (7.54) Cũng theo phương pháp OLS, ta sẽ tìm các giá trị của ˆ 1 , ˆ 2 , và ˆ 3 sao cho tối thiểu hóa tổng bình phương phần dư (RSS). Ý tưởng này được thể hiện như sau: n n n RSS ˆt u2 (Yt ˆ Yt ) 2 (Yt ˆ ˆ X ˆ X )2 (7.55) 1 2 2t 3 3t t 1 t 1 t 1 Để tối thiểu hóa (7.55), ta lấy đạo hàm bậc một của RSS theo ˆ 1 , ˆ 2 , và ˆ và cho các đạo hàm này bằng không. 3 RSS ˆ ˆ X ˆ X ) 0 2 (Yt (7.56) ˆ 1 2 2t 3 3t 1 RSS ˆ ˆ X ˆ X )X 2 (Yt 0 (7.57) ˆ 1 2 2t 3 3t 2t 2 RSS ˆ ˆ X ˆ X )X 2 (Yt 0 (7.58) ˆ 1 2 2t 3 3t 3t 3 Sắp xếp các phương trình (7.56), (7.57), và (7.58) ta có các phương trình tương đương như sau: Yt = ˆ1+ ˆ 2X2t + ˆ 3X3t (7.59) YtX2t = ˆ 1 X2t + ˆ 2 X 2 t + ˆ 3 X2tX3t 2 (7.60) YtX3t = ˆ 1 X3t + ˆ 2 X2tX3t + ˆ 3 X 3t 2 (7.61) Có nhiều cách để có thể giải hệ gồm (7.59), (7.60) và (7.61) để tìm các nghiệm ˆ 1, ˆ 2, và ˆ 3. Thứ nhất, ta có thể giải ma trận 3 dòng 3 cột, như sau: Yt n X 2t X 2t ˆ 1 Yt X 2 t X 2t X 2 X 2t X 3t ˆ (7.62) 2t 2 Yt X 3t X 2t X 2t X 3t X2 2t ˆ 3 Giải phương trình (7.62), ta có kết quả như sau: ˆ Y ˆ 2 X2 ˆ X3 (7.63) 1 3 19
2 ˆ ( y t x 2 t )( x 3t ) ( y t x 3t )( x 2 t x 3t ) 2 (7.64) ( x 2 t )( x 3t ) ( x 2 t x 3t ) 2 2 2 ˆ ( y t x 3t )( x 2 t ) ( y t x 2 t )( x 2 t x 3t ) 2 3 (7.65) ( x 2 t )( x 3t ) ( x 2 t x 3t ) 2 2 2 GIẢI THÍCH CÁC HỆ SỐ HỒI QUY RIÊNG Giả sử ta vẫn xét mô hình hồi quy ba biến như sau: Yt = 1 + 2X2t + 3X3t + ut Ở đây, 2 đo lường ảnh hưởng của X2t lên Yt, với điều kiện giữ nguyên ảnh hưởng của X3. Khái niệm này được áp dụng như thế nào khi chúng ta có các giá trị ước lượng OLS của 2 (và 3)? Để trả lời câu hỏi này, chúng ta thực hiện hai phương trình hồi quy đơn (và cũng có thể khái quát hóa cho mô hình k biến). Phương trình hồi quy thứ nhất điều chỉnh biến X2t theo ý nghĩa “giữ nguyên X3t”; và phương trình hồi quy thứ hai ước lượng ảnh hưởng của riêng biến được điều chỉnh này lên Yt. Quy trình này được thực hiện theo hai bước sau đây: Bước 1: Hồi quy X2t theo X3t. Sau khi ước lượng phương trình này, chúng ˆ ta tính các giá trị ước lượng của X2t và phần dư u t . Để đơn giản, chúng ta sử dụng dữ liệu dưới dạng độ lệch (xt = Xt Xt ) , và mô hình sẽ như sau: x 2t ˆ x 3t ˆ ut Hoặc x 2t ˆ x 2t ˆ ut Trong đó, ˆ x 2t ˆ x 3t , ˆ ut x 2t ˆ x 3t x 2t ˆ x 2t và x 2 t x 3t ˆ 2 . x 3t ˆ Mối quan tâm của chúng ta nằm ở u t , đại diện cho thành phần của X2t không có liên quan gì đến X3t. Cho nên, khái niệm “giữ nguyên X3t” có nghĩa là chúng ta loại bỏ khỏi X2t thành phần có liên quan đến X3t. ˆ Bước 2: Hồi quy yt theo u t yt ˆu t ˆ vt ˆ yt u t ˆ ˆt u2 ˆ là ảnh hưởng của biến “X2t điều chỉnh” lên Yt, và đó chính là thước đo ảnh hưởng của riêng X2t lên Yt, khi X3t được giữ 20