Tính toán các chỉ số tương ứng với mục tiêu nghiên cứu.Hình thức thống kê mô tả, thống kê suy luận. Ước lượng khoảng thường chọn khoảng tin cậy 95% .Khi thực hiện đo đạc 100 lần thì ít nhất 95 lần kết quả nằm trong khoảng tin cậy.95% tin tưởng giá trị thực của quần thể nằm trong khoảng tin cậy.Kiểm định giải thuyết hình thành giải thuyết .Đè xuất mức ý nghĩa thống kê và lựa chọn TNTK thích hợp....
PHÂN TÍCH SỐ LIỆU VỚI STATA 10
TS. Hoàng Văn Minh, Đại học Y Hà nội
PHÂN TÍCH SỐ LIỆU
Tính toán các chỉ số tương ứng với mục tiêu
nghiên cứu
Hình thức
Thống kê mô tả
Thống kê suy luận
1
Quần thể
Khoảng tin cậy 95%
Chọn mẫu Thống kê
suy luận
Kiểm định (sử dụng test TK)
Mẫu
Thống kê mô tả
Ướ
Ước lượng khoảng
Thường chọn khoảng tin cậy 95% (95%CI)
Khi thực hiện đo đạc 100 lần thì it nhất 95 lần
kết quả nằm trong khoảng tin cậy
95% tin tưởng rằng giá trị thực của quần thể
nằm trong khoảng tin cậy
95%CI= Trung bình± 1,96*sai số chuẩn
ci hoặc cii
2
Kiểm định giả thuyết
1. Hình thành giả thuyết (Ho >test ?)
4. Thực hiện TNTK và tính toán giá trị p (> hay
1. So sánh, tìm sự khác biệt
sánh, tìm
biến định lượng
Phân bố chuẩn P.bố chuẩn+k.chuẩn
>2
1 2 1 2 >2
nhóm
nhóm
nhóm
nhóm nhóm
nhóm nhóm
nhóm nhóm
nhóm nhóm
nhóm
ANOVA Kruskal
Kruskal-
ttest đlập Sign test Đ.lập:
(ph.sai đ Wallis test
t test ttest g.cặp Mann-
nhất) Whitney
test
signtest Gh. cặp:
kwallis
Sign test
oneway
ttest
ranksum, signtest
1 NHÓM proportion
2.So sánh,
sánh,
tìm sự
khác
khác biệt
biến định
>1 NHÓM
tính
Giá trị mong đợi >=5 Giá trị mong đợi
Phân tích tương quan, liên quan
3. Biến định lượng
Hệ số tương quan (r)
pearson (chuẩn) corr
spearman (không chuẩn) spearman
Hồi quy tuyến tính
Y=a + bx1 + cx2 + dx3... regress
4. Biến định tính
đị
Tỷ suất chênh (OR) tabodds
Hồi quy logistic
log(odds)=a + bx1 + cx2 + dx3... logistic
Quản lý, xử lý và phân tích số liệu
Số liệu sau khi được thu thập sẽ được kiểm tra và nhập
vào máy tính bằng phần mềm Epidata 2.1 với tệp check
để khống chế sai số.
Phân tích số liệu (bao gồm thống kê mô tả và thống kê
suy luận) sẽ được thực hiện bằng phần mềm Stata 10.
Trung bình, trung vị và độ lệch chuẩn của trị số huyết
áp sẽ được tính toán.
Kiểm định khi bình phương với mức ý nghĩa α=5% sẽ
được sử dụng để so sánh tỷ lệ cao huyếp áp giữa các
nhóm tuổi, giới, béo gày...
Hồi quy logistic đa biến sẽ được áp dụng để xác định
mối liên quan giữa thực trạng cao huyết áp và một số
yếu tố nhân khẩu học, hành vi và lối sống...(chỉ số OR
và khoảng tin cậy 95% sẽ được tính toán)
5
Sai số
Quần thể Giá trị thực
Chọn mẫu Ngoại suy Sai số
Mẫu Ước lượng
Sai số
• Sai số ngẫu nhiên (Random error, Chance):
– Dẫn tới kết quả không chính xác (imprecise
results)
results)
– Tăng cỡ mẫu NC
• Sai số hệ thống (Systematic error,Bias)
– Dẫn tới kết quả không có giá trị (incorrect,
invalid results)
– Chuẩn hóa phương pháp và công cụ NC
há NC
6
Sai số
Nhiễu
• Là yếu tố nguy cơ (hoặc bảo vệ) đối với bệnh
• Có liên quan đến phơi nhiễm, không phụ thuộc vào nhiễu
• Không phải là kết quả trung gian giữa phơi nhiễm và bệnh
Phơi nhiễm Bệnh
Nhiễu
7
Nhiễu?
Cà phê CHD
Hút thuốc
Hút thuốc có gây CHD? Có
Hút thuốc có liên quan đến uống cà phê? Có
Là kết quả trung gian? Không
Một số biện pháp khử nhiễu
Thiết kế
– Chọn ngẫu nhiên và phân bổ ngẫu nhiên,
– Thu hẹp phạm vi nghiên cứu
– Biện pháp ghép cặp
Phân tích
– Khử nhiễu bằng phân tích tầng.
– Khử nhiễu bằng phân tích đa biến
8
9
Phân tích tầng khử nhiễu
• Biến phơi nhiễm chỉ là có và không
• Khi có ít tầng
cc bienketqua bienphoinhiem, by(biennhieu)
So sánh OR các tầng:
– Nếu OR của các tầng khác nhau-> có tương tác-> báo
cáo OR của các tầng
– Nếu OR của các tầng không khác nhau-> so sánh OR
thô và OR hiệu chỉnh:
• Chênh lệch >10%-> có nhiễu, báo cáo OR hiệu chỉnh
• Chênh lệch không nhiễu, báo cáo OR thô
10