intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Hồi quy và tương quan

Chia sẻ: Light Way | Ngày: | Loại File: PDF | Số trang:8

113
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu Bài giảng Hồi quy và tương quan đánh giá sự liên quan giữa hai biến định lượng thông qua biểu đồ, xây dựng và phiên giải đường hồi quy, tính và phiên giải được hệ số tương quan, kiểm định đường hồi quy.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Hồi quy và tương quan

  1. MỤC TIÊU Hồi quy và tương quan 6.00 • Đánh giá sự liên quan giữa hai biến định lượng thông qua biểu đồ 5.00 • Xây dựng và phiên giải đường hồi quy FEV (lít) 4.00 • Tính và phiên giải được hệ số tương quan • Kiểm định đường hồi quy 3.00 2.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) TẠI SAO CẦ CẦN? MÔ HÌNH HỒ HỒI QUI – Dự đoán các giá trị của các biến phụ thuộc (y) • Biểu đồ chấm điểm thể hiện quan hệ giữa chiều cao và dung tích thở gắng sức (FEV) dựa trên các giá trị của các độc lập (x1, 6.00 x2 ,…xk.). • ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, .... 5.00 – Phân tích mối quan hệ giữa các biến độc lập FEV (lít) 4.00 và biến phụ thuộc: • ví dụ: mối quan hệ giữa mức độ mỡ trong máu và 3.00 tuổi 2.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) MÔ HÌNH HỒ HỒI QUI (ti (tiế ế p) MÔ HÌNH HỒ HỒI QUI (ti (tiế ế p) • Nhận xét gì? 6.00 • Mô hình tuyến tính • FEV tăng cùng với Chiều cao 5.00 y= a + bx + ey • Vậy FEV tăng như thế nào? • Trong đó FEV (lít) 4.00 y= a+ bx + e y = biến phụ thuộc • Tăng bao nhiêu khi chiều cao tăng thêm x cm? 3.00 x = biến độc lập b a = giao điểm b = độ dốc a 2.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) e = giá trị sai số x 1
  2. CÁC BƯỚ BƯỚC TIẾ TIẾN HÀ HÀNH XÂY ĐÁNH GIÁ GIÁ CÁC GIẢ GIẢ THUYẾ THUYẾT DỰNG ĐƯỜ ĐƯỜNG HỒ HỒI QUI 1. Đánh giá các giả thuyết • Biến x, y là biến ngẫu nhiên 2. Xác định các hệ số • Giá trị của biến y có phân bố chuẩn 3. Đánh giá các hệ số hồi quy • Tập hợp các giá trị của y có 4. Sử dụng để ước lượng/dự đóan phương sai như nhau ĐƯỜ ĐƯỜNG (HỒ (HỒI QUI) XÁC ĐỊ ĐỊNH CÁ CÁC HỆ HỆ SỐ TRUNG BÌNH TỐ TỐI THIỂ THIỂU • Các hệ số được ước lượng: – trên một mẫu rút ra từ quần thể – tính tóan các giá trị thống kê mẫu Là một đường thẳng mà từ đó tổng – xây dựng phương trình đường thẳng tốt nhất bình phương trung tới đường thẳng mô tả được mối quan hệ giữa hai biến? y w trung bình là nhỏ nhất (tối thiểu) w w w w w w w w Vậy đường thẳng tốt w w w w w nhất là đường nào? w x ĐƯỜ ĐƯỜNG (HỒ (HỒI QUI) TÍNH HỆ HỆ SỐ HỒI QUI TRUNG BÌNH TỐ TỐI THIỂ THIỂU Tổng bình phương = (2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 + (3.2 - 4)2 = 6.89 Tổng bình phương = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99 Hãy so sánh hai đường thẳng Tính các hệ số hồi quy từ mẫu Đường hồi quy 4 (2,4) w yˆ = b 0 + b1x n n (å xi )(å yi ) w (4,3.2) n n 3 å( x - x)( y - y ) å x y - i i i i i =1 n i=1 2.5 b= i =1 n = i =1 n 2 å( x - x )i 2 n (å xi )2 Đường hồi quy quần thể (1,2) w i =1 åx 2 - i =1 w (3,1.5) i n y = a + bx + e i =1 1 Tổng bình phương càng nhỏ thì đường thẳng phù a = y - bx hợp với bộ số liệu tốt 1 2 3 4 hơn. 2
  3. VÍ DỤ TÍNH TAY • Chiều cao và FEV của 20 sinh viên Lập bảng số liệu Biến độc lập, X Biến phụ thuộc, Y x y xy x2 y2 (x-x)2 (y-y)2 height FEV 79 50 3950 6241 2500 5.4 10.0 154.0 3.54 85 54 4590 7225 2916 13.4 0.7 157.0 3.54 160.4 3.19 76 47 3572 5776 2209 28.4 38.0 161.2 2.85 .... .... .... .... ... ... ..... 161.2 3.42 161.3 3.20 Sx Sx Sxy Sx2 Sy2 162.0 3.60 ĐƯỜ ĐƯỜNG HỒ HỒI QUI ĐƯỜ ĐƯỜNG HỒ HỒI QUI x = 165 , 38 å x = 3307,6 å y = 77 ,1 • Đường hồi quy mô tả mối quan hệ giữa FEV và chiều cao sẽ là: y = 3,86 ; åx 2 = 547587,2 åy 2 = 306,8 å xy = 12797,0 n = 20. FEV=- FEV=-8,45 + 0,0744*chi 0,0744*chiề ều cao (3307,6)(77,1) 12797,0 - b= 20 = 0,0744. a = 3,86 - 0,0744* 165,38 = -8,45 Tính đường hồi qui bằng MS EXCEL (3307,6) 2 547587,2 - 20 Tools > Data Analysis > Regression > yˆ = a + bx = - 8,45 + 0 ,0744 x [bôi đen khỏang y và khỏang x] > OK KẾT QUẢ QUẢ TỪ EXCEL PHIÊN GIẢ GIẢI ĐƯỜ ĐƯỜNG HỒ HỒI QUI 6.00 SUMMARY OUTPUT 5.00 Regression Statistics FEV (lít) Multiple R 0.5813 4.00 R Square 0.3379 Adjusted R Square 0.3011 Standard Error 0.5892 yˆ = - 8, 45 + 0,0744 x 3.00 Observations 20 2.00 ANOVA 150.0 155.0 160.0 165.0 170.0 175.0 df SS MS F Sig. F Chiều cao (cm) Regression 1 3.1894 3.1894 9.1865 0.0072 FEV = - 8 , 45 + 0 , 0744 height Residual 18 6.2493 0.3472 Total 19 9.4387 Coef. SE t Stat P-value Lower 95% Upper 95% giá trị điểm cắt Đây là giá trị độ dốc, với mỗi một cm cao Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 lên thì FEV sẽ tăng 0,0744 lít X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 3
  4. ĐÁNH GIÁ GIÁ ĐƯỜ ĐƯỜNG HỒ HỒI QUI ĐÁNH GIÁ GIÁ ĐỘ ĐỘ DỐC • Phương pháp bình phương tối thiểu sẽ cho – Khi không có mối quan hệ tuyến tính giữa hai biến, đường hồi qui sẽ nằm ngang chúng ta đường hồi qui kể cả khi không có mối q quan hệ tuyến tính giữa x và q q • Chúng ta cần phải đánh giá xem đường hồi qui qq q q q q q q q q q q q q có phải là tốt nhất hay không? q q q q q q q • Chúng ta đánh giá độ dốc (slope) của đường hồi Có mối quan hệ tuyến tính Kh. Có mối quan hệ tuyến tính các giá trị (x) khác nhau cho các giá trị (x) khác nhau cho kết qui (ít khi đánh giá điểm cắt – Intercept) kết quả khác nhau ở (y) quả không khác nhau ở (y) độ dốc khác không (0) độ dốc bằng không (0) KIỂ KIỂM ĐỊ ĐỊNH ĐỘ ĐỘ DỐC VÍ DỤ • Chúng ta có thể suy luận b từ b bằng cách kiểm định: H0: b = 0 • Kiểm định giả thuyết thống kê về mối quan H1: b ≠ 0 (or < 0,or > 0) hệ tuyết tính giữa chiều cao và dung tích – The test statistic is thở gắng sức của các sinh viên trường y, sb = s2 sử dụng a = 5%. t= b-b å ( x - x) i 2 trong đó sb s2 = 1 n -2 (å( y - y) i 2 - b2 å( xi - x)2 ) sai số chuẩn của b. – Nếu sai số có phân bố chuẩn thì thống kê này sẽ có phân bố t-student với df=n-2 Kiể Kiểm định độ dốc: kết VÍ DỤ quả quả từ EXCEL • để tính t, chúng ta cần: SUMMARY OUTPUT • b=0,0744 • sb=0,025 Regression Statistics Multiple R 0.5813 R Square 0.3379 Adjusted R Square 0.3011 b - b 0,0744 - 0 có đủ bằng chứng để kết t= = = 3,031 Standard Error 0.5892 sb .025 Observations 20 luận chiều cao có khả năng dự đoán FEV ANOVA df SS MS F Sig. F • vùng bác bỏ t > t.025 or t < -t.025 with n = n-2 = Regression 1 3.1894 3.1894 9.1865 0.0072 Residual 18 6.2493 0.3472 18; khỏang, t.025 = 2,1 Total 19 9.4387 • kết luận: độ dốc đường hồi qui khác 0 có ý Coef. SE t Stat P-value Lower 95% Upper 95% nghĩa TK, đường hồi qui là mô tả tốt nhất. Intercept X Variable 1 -8.4465 0.0744 4.0611 0.0245 -2.0798 3.0309 0.0521 0.0072 -16.9786 0.0228 0.0856 0.1260 4
  5. Hệ số xác định Phần 2 Phầ – Để đo lường độ mạnh của mối quan hệ tuyến tính chúng ta dùng hệ số xác định R2 = å ( yˆ - y ) 2 = SSR å ( y - y) 2 SST Hệ số xác định Hệ số xác định y2 • Sự biến thiên của các giá trị quan sát và Hai điểm số liệu (x1,y1) và (x2,y2) giá trị trung bình: n t phầ Mô hình hồi qui (SSR) i mộ y lý giả Tổng biến thiên của y (SST) còn lạ biến thiên của y = SSR + SSE i, ch ư y1 a lý g iải Sai số (SSE) x1 x2 Tổng biến thiên y = Biến thiên lý giải bằng + Phần chưa lý giải (sai số) đường hồi qui ( y1 - y ) 2 + ( y 2 - y) 2 = ( yˆ 1 - y ) 2 + (yˆ 2 - y ) 2 + (y 1 - yˆ 1 ) 2 + ( y 2 - yˆ 2 ) 2 Hệ số xác định Ví dụ: • R2 đo lường tỷ lệ biến thiên của y được lý giải bằng ( å xi )2 b2 (å xi2 - sự biến thiên của x R2 = n = 0,3379 ( å xi ) 2 b 2 ( å xi2 - (å yi )2 R = 2 SSR = n å i y 2 - n å ( yi - y ) 2 ( å yi ) 2 å i y 2 - n • R2 có giá trị từ 0 đến 1 R2 = 1: lý tưởng, đường hồi qui trùng với các điểm số liệu. R2 = 0: không có mối liên hệ giữa x và y. 5
  6. Ví dụ Sử dụng đườ đường hồi qui SUMMARY OUTPUT • Nếu mô hình hồi quy là mô tả tốt cho mối Regression Statistics Multiple R 0.5813 Hệ số xác định=0,3379, nghĩa quan hệ giữa hai biến chúng ta có thể R Square 0.3379 là chỉ có 33,8% biến thiên của Adjusted R Square 0.3011 FEV được lý giải bằng sự biến dùng mô hình đó để dự đóan giá trị của y: Standard Error 0.5892 thiên của chiều cao (mô hình Observations 20 chưa phải là mô hình tốt) – Ước lượng điểm ANOVA df SS MS F Sig. F – Ước lượng khỏang Regression 1 3.1894 3.1894 9.1865 0.0072 Residual 18 6.2493 0.3472 Total 19 9.4387 Coef. SE t Stat P-value Lower 95% Upper 95% Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 Ước lượ lượng điể điểm Ước lượ lượng khoả khoảng • Hai giá trị khỏang: • Ví dụ: – Ước lượng khỏang giá trị của y với một giá trị của – Ước lượng FEV của một sinh viên cao 187cm: x 1 ( x p - x) 2 yˆ ± t (1-a / 2) s y|x 1 + + y=-8,45+0,0744*187=5,46 lít n å ( x i - x) 2 – Khỏang tin cậy – ước lượng trung bình của y với – Một sinh viên cao 187cm sẽ có dung tích thở mỗi giá trị của x. gắng sức là 5,46 lít ( x p - x) 2 1 – Kết quả này chính xác như thế nào? yˆ ± t (1-a / 2) s y| x + n å ( xi - x) 2 Kiể Kiểm định F cho mô hình hồi quy Hệ số tương quan - Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or < 0,or > 0) ANOVA df SS MS F Sig. F (å x i )2 Regression 1 b 2 ( å xi2 - ) SSReg/ MSR/MSE (SSReg) n df Residual SSRes/ n-2 SST-SSReg (SSRes) df (å y i )2 Total n-1 åy 2 i - n Bác bỏ H0 nếu F>F 1,n-2, 1-a Không bác bỏ H0 nếu F< F1,n-2, 1-a 6
  7. Ví dụ một số giá giá trị trị hệ số Hệ số tương quan tương quan Y Y Y • Hệ số tương quan (Coefficient of correlation) được sử dụng để đo lường độ lớn của mối quan hệ giữa hai biến số. X X X r = -1 r = -.6 r=0 Y Y X X r = .6 r=1 Kiể Kiểm định giả giả thuyế thuyết cho r Cách tính • Công thức • Giả thuyết r= b2 [å x 2 i - (å xi ) / n 2 ] H0: r = 0 (không liên quan) å y - (å y ) 2 2 i /n H1: r ¹ 0 (có mối quan hệ tuyến tính) • Giá trị hệ số tương quan nằm trong khỏang -1 • Kiểm định đến 1 r-r – nếu r = -1 (mối tương quan nghịch) hoặc r = +1 (mối t= tương quan thuận) tất cả các điểm số liệu nằm trên đường hồi quy 1- r 2 với df = n - 2 – nếu r = 0 không có mối tương quan n-2 Ví dụ Một số dạng hồi quy khá khác • Hệ số tương quan giữa FEV và chiều cao r= [ (0,0744 )2 547587,2 - (3307 ,6)2 / 20 = 0,58 ] 306,6 - (77,1)2 / 20 • Kiểm định H0: r = 0 (không liên quan) 0,58 - 0 t= = 3,02 H1: r ¹ 0 (có mối quan hệ 1 - 0,582 tuyến tính) t>t tra bảng=2,1 à bác bỏ H0, 20 - 2 có mối quan hệ tuyến tính giữa FEV và chiều cao, 7
  8. Mô hình tuyến tính – không Hồi quy đa biế biến tuyến tính Y Y • Có nhiều biến độc lập – y = b0+b1 x1 + b2 x2+ ....+bnxn+ e • Hồi quy logistics: X e X – y = b0+b1 x1 + b2 x2+ ....+bnxn+ e e X – Trong đó y là biến phụ thuộc chỉ có hai giá trị X có/không Không tuyến tính, hồi quy bội ü Tuyến tính 8
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2