GS NGUYEN VAN TUAN
Tiếp tục bài trước về những sai sót trong phân tích dữ liệu. Bài này tập trung vào những sai sót về sự chia nhóm tùy tiện, sử dụng sai độ lệch chuẩn và sai số chuẩn.
Sai sót 3: Phân chia biến liên tục thành nhiều nhóm mà không giải thích lí do
Thỉnh thoảng, để đơn giản hóa các phân tích thống kê, nhà nghiên cứu có thể chia các biến liên tục thành nhiều nhóm. Chẳng hạn như body mass index có thể chia thành 4 nhóm: béo phì, quá cân, bình thường, và thiếu cân. Nhưng cũng có nhiều trường hợp nhà nghiên cứu chia nhóm một cách tùy tiện, hoàn toàn không theo một qui ước lâm sàng nào cả, như chia độ tuổi thành nhiều nhóm theo 5 tuổi (0-4, 5-9, 10-14, v.v.), lại có khi chia thành nhóm theo 10 tuổi (0-9, 10-19, 20-29, v.v.). Phân chia một biến liên tục thành một biến không liên tục qua phân nhóm như vừa đề cập là một cách làm … phi khoa học. Như đề cập trên, biến liên tục là biến có giá trị chính xác cao nhất so với các biến định cấp và định danh. Một khi một biến liên tục bị cắt thành nhiều đoạn, thì điều đó cũng có nghĩa là làm giảm độ chính xác của biến số. Vì độ chính xác suy giảm, nên power của phân tích cũng giảm theo. Đã có rất nhiều nghiên cứu lí thuyết và thực hành cho thấy những phân nhóm như thế là phản khoa học, và có khi cho ra những kết quả rất khó diễn giải, nếu không muốn nói là sai.
Sai sót 4: Dùng trung bình và độ lệch chuẩn (SD) để mô tả một biến liên tục không tuân theo luật phân phối chuẩn
Không như các biến định danh và định cấp vốn có thể mô tả bằng tần số (frequency) hoặc tỉ lệ (proportion) cho mỗi nhóm, các biến số liên tục có thể mô tả bằng một biểu đồ phân phối. Đối với các biến tuân theo luật phân phối chuẩn (normal distribution), có hai thông số chính là số trung bình và độ lệch chuẩn. Theo định nghĩa của luật phân phối chuẩn, khoảng 67% các giá trị của nằm trong khoảng ±1 SD của số trung bình; khoảng 95% giá trị nằm trong khoảng ± 2 SD.
Tuy nhiên, nếu một biến không tuân theo luật phân phối chuẩn, thì số trung bình và độ lệch chuẩn sẽ không có ý nghĩa gì đáng kể. Đối với các biến không tuân theo luật phân phối chuẩn, các suy luận về 67% và 95% không còn đúng nữa. Trong trường hợp này, chúng ta nên dùng số trung vị (median) và số interquartile range để mô tả dữ liệu.
Phần lớn số liệu lâm sàng và sinh hóa không tuân theo luật phân phối chuẩn. Do đó, số trung vị và interquartile range nên được sử dụng thường xuyên hơn. Một cách tính nhẩm đáng tin cậy là nếu SD cao hơn phân nửa số trung bình (và số âm là số không khả dĩ về mặt sinh học) thì dữ liệu có lẽ không tuân theo luật phân phối chuẩn.
Sai sót 5: Dùng số trung bình và sai số chuẩn (standard error – SE) như là các chỉ số thống kê mô tả
Số trung bình và độ lệch chuẩn (SD) là những chỉ số thống kê mô tả một mẫu nghiên cứu (study sample) với điều kiện biến số tuân theo luật phân phối chuẩn. Sai số chuẩn (standard error hay SE) là một chỉ số đo lường độ chính xác (precision) của một đặc điểm quần thể (population). Xin nhắc lại, SD áp dụng một mẫu nghiên cứu, SE áp dụng cho đặc điểm của một quần thể. SD phản ảnh độ dao động hay khác biệt giữa các cá nhân trong một mẫu nghiên cứu, còn SE phản ảnh độ dao động về một chỉ số như số trung bình giữa các mẫu tưởng tượng (vâng! tưởng tượng).
SE có thể ước tính từ SD bằng cách lấy SD chia cho căn số bậc hai của số cỡ mẫu. Do đó, SE lúc nào cũng thấp hơn SD. Nhiều nhà nghiên cứu không hiểu ý nghĩa của SE nên dùng nó như là một đo lường thay cho SD, và làm cho biến số có độ dao động thấp hơn so với thực tế. Một số nhà nghiên cứu sai lầm vì không hiểu (tức sai lầm có thể thông cảm), nhưng có những nhà nghiên cứu cao bồi cố tình lừa gạt người đọc bằng cách dùng SE thay cho SD và không nói rõ. Nói chung, nên dùng SD (chứ không phải SE) để mô tả một biến số.
Còn tiếp ...
Không có nhận xét nào:
Đăng nhận xét