intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 3 - TS. Nguyễn Duy Long

Chia sẻ: Star Star | Ngày: | Loại File: PDF | Số trang:30

96
lượt xem
17
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Phần 3 - Khám phá về các mối quan hệ giữa các biến. Nội dung chính trong chương này gồm: Biểu đồ phân tán, sự liên hợp và sự tương quan; phân tích hồi qui tuyến tính. Mời các bạn cùng tham khảo để biết thêm các nội dung chi tiết.

Chủ đề:
Lưu

Nội dung Text: Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 3 - TS. Nguyễn Duy Long

  1. 9/7/2010 Phần 03 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Công và QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ 1  Biểu đồ phân tán, sự liên hợp và sự tương q quan  Phân tích hồi qui tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 2 1
  2. 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 3  Đồ thị phân tán (scatter-plots) là biểu thị phổ biến và hiểu quả cho dữ liệu.  Đồ thị phân tán là cách tốt nhất để bắt đầu quan sát mối liên hệ và cách lý tưởng để xem sự liên hợp của hai biến định lượng. ©2010, Nguyễn Duy Long, Tiến Sỹ 4 2
  3. 9/7/2010  Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt (strength), và các đặc điểm bất thường (unusual features).  (1) Hướng: ◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và từ trên xuống dưới. ◦ Hướng dương: theo chiều ngược lại. ©2010, Nguyễn Duy Long, Tiến Sỹ 5  Mối liện hợp dương ( (positive i i association) i i ) giữa năm (từ 1900) và % trả lời “Có” % số người sẵn sàng bầu phụ nữ làm tổng thổng ở Mỹ.  Nhận h xét... é Năm (từ 1900) ©2010, Nguyễn Duy Long, Tiến Sỹ 6 3
  4. 9/7/2010  Mối liện hợp âm (negative association) giữa tốc độ lúc cao hi phí trên đầu người điểm ở xa lộ và chi phí ($/người/năm) trên đầu người do chậm trễ giao thông.  xét Nhận xét... Ch Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 7  (2) Dạng: ◦ Nếu liên hệ đường thẳng (tuyến tính): hi phí trên đầu người như đám mây hay ($/người/năm) một đám chấm phân tán có dạng thẳng. Ch Tốc độ lúc cao điểm ở xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 8 4
  5. 9/7/2010  Dạng: ◦ Nếu mối liên hệệ không g thẳng, g, nhưng g cong g cong, g, trong khi vẫn tăng hay giảm dần… … chúng ta có cách để làm nó thẳng hơn. ©2010, Nguyễn Duy Long, Tiến Sỹ 9  Dạng: ◦ Nếu mối liên hệ là rất cong, cong … chúng ta nói nó là liên hợp không tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 10 5
  6. 9/7/2010  (3) Độ chặt: ◦ Các điểm có vẻ như theo một ộ dòng g thẳng g (dù thẳng, cong, hay uốn). ©2010, Nguyễn Duy Long, Tiến Sỹ 11  Độ chặt: ◦ Các điểm trông g như một ộ đám mây y mờ mà không g có một hướng xác định nào: ◦ Ghi chú: chúng ta sẽ định lượng sự phân tán “scatter” sau. ©2010, Nguyễn Duy Long, Tiến Sỹ 12 6
  7. 9/7/2010  (4) Các đặc điểm bất thường: ◦ Tìm các điều không kỳ vọng. ◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là thấy những điều không mong đợi sẽ tìm thấy. ◦ Ví dụ: các giá trị ngoại lệ đứng tách ra. ◦ Nên nghi vấn với các cụm (clusters) hay các nhóm phụ (subgroups). ©2010, Nguyễn Duy Long, Tiến Sỹ 13  Xác định biến nào là trục x, biến nào trục y.  Việc ệ xác định ị dựa ự trên các vai trò của các biến.  Khi vai trò là rõ ràng ◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) là trục x, ◦ Biến hưởng ứng (response variable) là trục y. ©2010, Nguyễn Duy Long, Tiến Sỹ 14 7
  8. 9/7/2010  Chọn vai trò cho các biến phần nhiều về việc chúng ta suy nghĩ như thế nào về các biến ế hơn là vềề chính các biến ế đó.  Chỉ đặt một biến ở trục hoành không nhất thiết có nghĩa là nó giả thích hay dự báo cái gì đó….  … Biến ở trục tung có thể không hưởng ứng nó trong bất cứ cách nào. ©2010, Nguyễn Duy Long, Tiến Sỹ 15  Dữ liệu thu thập từ sinh viên các lớp thống kê ọ g học gồm chiều cao ((in.)) và cân nặng ặ g ((lb): )  Mối liên hợp dương (positive association) và khá thẳng, mặc dù Cân nặng (lb) có một trị ngoại lệ. Chiều cao (in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 16 8
  9. 9/7/2010  Sự liên hợp giữa chiều cao và cân nặng của sinh viên các lớp thống kê học chặt (strong) ra sao?  Nếu đinh lượng độ chặt, chúng ta muốn nó không phụ thuộc vào loại đơn vị.  Biểu đồ phân tán giữa chiều cao (cm) và cân nặng (kg) không thay ặng (kg) đổi dạng phân tán. Cân nặ Chiều cao (in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 17  Vì đơn vị không quan ọ g, tại trọng, ạ sao không g bỏ nó?  Có thể chuẩn hóa các biến và viết tọa độ của một điểm là (zx, zy).  Biểu đồ phân tán của chiều cao và cân Zchiều cao nặng được chuẩn hóa. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9
  10. 9/7/2010  Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc hơn biểu đồ phân tán ban đầu.  Vì cả hai trục có tỷ lệ giống nhau.  Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân tán và độ chặt của sự liện hợp.  Giá trị chuẩn hóa được xác định như sau: ( z x , z y )  ( xsxx , ysy y ) ©2010, Nguyễn Duy Long, Tiến Sỹ 19  Các điểm màu xanh lá cây làm mạnh ạ sự ự liên hợp ợp dương giữa chiều cao và cân nặng.  Các điểm màu nâu có khuynh hướng làm yếu sự liên hợp dương.  Các điểm màu xanh dương có điểm z bằng Zchiều cao không không theo cách liên hợp nào. Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10
  11. 9/7/2010  Hệ số tương quan (r, correlation coefficient) đo lường độ chặt giữa biến khám phá và biến hưởng ứng. ứng r  z x zy n 1 ©2010, Nguyễn Duy Long, Tiến Sỹ 21  Sự tương quan đo độ chặt của sự liên hợp tuyến tính giữa các biến định lượng.  Kiểm tra các điều kiện sau trước khi dùng sự tương quan: 1. Điều kiện các biến định lượng 2. Điều kiện khá thẳng (“Straight Enough”) 3. Điều kiện trị ngoại lệ ©2010, Nguyễn Duy Long, Tiến Sỹ 22 11
  12. 9/7/2010 1. Điều kiện biến định lượng: ◦ Sự tương quan chỉ áp dụng cho các biến định lượng. ◦ Không dùng sự tương quan cho biến định tính. ◦ Kiểm tra đơn vị của các biến và chúng đo lường cái gì. ©2010, Nguyễn Duy Long, Tiến Sỹ 23 2. Điều kiện khá thẳng: ◦ Có thể tính (calculate) hệ số tương quan cho bất cứ cặp biến nào. ◦ Nhưng sự tương quan chỉ đo lường độ chặt của sự liên hợp tuyến tính và sẽ gây sai lệch (misleading) nếu mối quan hệ không tuyến tính. ©2010, Nguyễn Duy Long, Tiến Sỹ 24 12
  13. 9/7/2010 3. Điều kiện trị ngoại lệ: ◦ Các trịị ngoại g ạ lệ ệ có thể g gây y lệch ệ ((distort)) sự ự tương quan rất lớn. ◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ thành lớn hay dấu sự tương quan lớn. ◦ Khi gặp trị ngoại lệ, nên trình bày sự tương quan khi có và không có trị ngoại lệ đó. ©2010, Nguyễn Duy Long, Tiến Sỹ 25  Dấu của hệ số tương quan chỉ hướng của sự liên hợp.  Hệ số tương quan luôn trong khoảng [-1, +1].  Sự tương quan đối xử x và y giống nhau  Không có đơn vị. ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13
  14. 9/7/2010  Sự tương quan không bị ảnh hưởng bởi các thay đổi trung tâm hay tỷ lệ của biến.  Sự tương quan đo độ chặt của sự liên hợp tuyến tính giữa hai biến. ◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự tương quan nhỏ nếu sự liên hợp là không tuyến tính.  Sự tương quan là rất nhạy với trị ngoại lệ. ©2010, Nguyễn Duy Long, Tiến Sỹ 27  Không đo tương quan các biến định tính.  Không nói sự tương quan khi có ý là sự liên hợp Điểm Nhiệt độ nướng (oF) ©2010, Nguyễn Duy Long, Tiến Sỹ 28 14
  15. 9/7/2010  Chú ý các trị ngoại lệ. Hệ số IQ Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ 29  Đừng nhầm sự tương quan (correlation) với quan hệ nhân quả (causation). ◦ Không hô phải h mọi sự liên l ê hệ h là quan hệ h nhân hâ quả. Dân số của làng Chứng minh: Cò mang trẻ thơ đến cho làng Số cò ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15
  16. 9/7/2010  Chú ý các biến ẩn (lurking variables). ◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng cách tác động đồng thời hai biến biến.  Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về các quốc gia trên thế giới thấy rằng có độ tương quan dương giữa phần trăm dân số dùng điện thoại di động và tuổi thọ trung bình của quốc gia. ◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức khỏe? ◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động nhiều hơn? ◦ Cái gì có thể giải thích độ tương quan dương này? ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Linear Regression ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16
  17. 9/7/2010  Từ biểu đồ phân tán bên dưới: ◦ Có sự liên hợp chặt (mạnh)? ◦ Sự liên hợp có vẽ tuyến tính? Lượng chất béo và đạm cho thức ăn của Burger King Dữ liệu từ 30 món trên menu của Burger King béo (g) Chất b Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 33  Sự tương quan lớn (âm hay dương) cho biết “có vẻ có sự liên hợp tuyến tính giữa hai biến,” nhưng không cho biết chính xác sự liên hợp đó là gì. gì  Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến tính giữa hai biến định lượng với một mô hình.  Mô hình tuyến tính (linear model) chỉ là một phương trình đường thẳng qua dữ liệu. ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17
  18. 9/7/2010 • Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu? • Phương pháp để xác định mô hình phù hợp nhất (“best fit”) Chất béo (g) C Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 35  Mô hình sẽ không bao g giờ hoàn hảo bất kể vẽ đường nào. Chất béo (g)  Một số điểm nằm trên (số dư) và một số nằm dưới đường thẳng.  Sự ước lượng từ mô hình gọi là giá trị dự báo (predicted value) Đạm (g) (ký hiệu là ŷ) ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18
  19. 9/7/2010  Sự khác nhau giữa giá trị quan sát (observed value) và giá trị dự báo tương ứng (predicted value) gọi là số ố (phần) ầ dư (residual).  Tìm số dư: Số dư = quan sát – dự báo = y – ŷ ©2010, Nguyễn Duy Long, Tiến Sỹ 37  Một số số dư dương, một số âm nên chung qui thì có thể triệt tiêu lẫn nhau.  Vì thế không khô thể đánh đá h giá iá đường đườ thẳ thẳng vừa ừ hợp h thế nào bằng cách cộng các số dư lại.  Tương tự như độ lệch chuẩn, chúng ta bình phương số dư rồi cộng lại.  Tổng càng nhỏ thì các vừa hợp.  Đường phù hợp nhất là đường có tổng các bình phương số dư nhỏ nhất. ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19
  20. 9/7/2010  Thông số thứ nhất của mô hình, b1, là độ nghiêng (slope): s b1  r y sx  Thông số thứ hai của mô hình, b0, là điểm chặn (intercept): b0  y  b1 x  trên Với ví dụ về Burger King ở trên… ©2010, Nguyễn Duy Long, Tiến Sỹ 39  Đường hồi qui cho dữ liệu của Burger King: yˆ (chatbeo)  6.8  0.97 x(dam) Chất béo (g) C Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2