HONG MUNG HAI: Sai sót trong NCKH (bài 4) GS NVT

Đây là bài 4 trong loạt bài về những sai sót trong phân tích thống kê và nghiên cứu y khoa. Bài này sẽ bàn đến sai sót trong báo cáo và hiểu trị số P

Sai sót 9: Không báo cáo điều chỉnh cho nhiều so sánh

Phần lớn những nghiên cứu thực nghiệm báo cáo nhiều trị số P, vì nhà nghiên cứu kiểm định nhiều giả thuyết hay làm nhiều so sánh trong cùng một nghiên cứu, có khi cùng một dữ liệu. Chẳng hạn như nghiên cứu xác định hiệu quả của thuốc chống loãng xương có thể so sánh mật độ xương và hàng loạt marker chu chuyển xương giữa hai nhóm chứng và nhóm điều trị. Trong tình huống nhiều so sánh, xác suất kết quả dương tính giả (false positive) xảy ra rất cao. Nói theo ngôn ngữ thống kê, sai sót loại I (type I error) sẽ tăng nhanh với số lần kiểm định giả thuyết. Chẳng hạn như nếu chúng ta so sánh 15 biến giữa hai nhóm, và mỗi lần so sánh chúng ta chấp nhận sai sót loại I là 5% (a = 0.05), thì trong 15 so sánh đó, xác suất có ít nhất một so sánh sẽ có ý nghĩa thống kê (trị số P dưới 0.05) là 1 – (1 – 0.95)^15 = 54%. Nói cách khác, sai sót loại I bây giờ không phải là 5% nữa, mà là 54%! Do đó, nếu không điều chỉnh cho kiểm định nhiều giả thuyết (tiếng Anh là multiple comparison adjustment) thì chúng ta có thể đi đến kết luận sai, tức có thể phát hiện một sự khác biệt có ý nghĩa thống kê hoàn toàn do ngẫu nhiên chứ không phải do can thiệp.
Kiểm định nhiều giả thuyết hay nhiều so sánh xảy ra khi nhà nghiên cứu:

Xác lập sự tương đương giữa nhóm bằng cách so sánh các biến số ban đầu (baseline variables) giữa hai nhóm trong một nghiên cứu lâm sàng đối chứng ngẫu nhiên, và họ hi vọng là sẽ không tìm ra một khác biệt nào (vì hai nhóm được chia nhóm ngẫu nhiên).

So sánh giữa nhiều nhóm (pair-wise comparisons). Có nghiên cứu có nhiều hơn hai nhóm (chảng hạn như 4 nhóm, A, B, C và D) và có khi nhà nghiên cứu muốn so sánh tất cả các nhóm A vs B, A vs C, A vs D, B vs C, v.v. Nói chung, số lần so sánh có thể lên đến k(k – 1)/2, và kết quả dương tính giả hay tăng sai sót loại I lên rất cao khi có nhiều k và nhiều biến số so sánh.

Kiểm định nhiều giả thuyết dựa trên nhiều biến số trong cùng một nghiên cứu.

Phân tích thứ phát (secondary analysis) về mối tương quan giữa các biến trong nghiên cứu, dù những phân tích này không nằm trong dự tính lúc ban đầu.

Chia nhóm và so sánh một cách tùy tiện. Trong nhiều trường hợp, nhà nghiên cứu có thể chia nhóm thành nam và nữ, độ tuổi thì có thể là 0-4, 5-9, 10-14, 15-19 nhưng cũng có thể 0-9, 10-19, và thậm chí 0-7, 8-12, 13-19, v.v. Khi có một biến liên tục thì có hàng vạn lần để chi biến đó thành những nhóm riêng lẻ, và trong trường hợp so sánh giữa các nhóm riêng lẻ như thế rất dễ dẫn đến kết quả sai.

Phân tích lâm thời (interim analysis). Có nhiều nghiên cứu tuyển đối tượng theo thời gian, và cứ mỗi lần có thêm đối tượng, nhà nghiên cứu làm kiểm định giả thuyết thống kê. Do đó, những nghiên cứu theo thời gian, có khi nhà nghiên cứu phân tích rất nhiều lần, và trong số đó có những lần kết quả có ý nghĩa thống kê nhưng hoàn toàn do yếu tố ngẫu nhiên.

So sánh giữa các nhóm cho nhiều thời điểm. Cũng có nghiên cứu mà trong đó nhà nghiên cứu theo dõi bệnh nhân ở nhiều thời điểm, nhà nghiên cứu kiểm định giả thuyết (hay so sánh) trong từng thời điểm. Đây cũng là một trường hợp multiple comparison thường hay thấy và những so sánh từng thời điểm như thế cũng làm tăng sai sót loại I.

Điều chỉnh trị số P trong trường hợp kiểm định nhiều giả thuyết thường là một yêu cầu, những cũng có khi không cần thiết. Do đó, nhà nghiên cứu cần phải biết lúc nào thì điều chỉnh và khi nào thì không.
Nếu một kiểm định ở độ ý nghĩa thống kê là a, xác suất sai sót loại I (tức xác xuất dương tính giả) được gọi là comparisonwise error rate (CER) a, có khi cũng gọi là individual error rate. Do đó, xác suất không bác bỏ giả thuyết là 1 – a. Nếu kiểm định k giả thuyết, xác suất không bác bỏ tất cả k giả thuyết vô hiệu nếu tất cả đều đúng là (1 – a)^k. Do đó, xác suất bác bỏ ít nhất là 1 giả thuyết vô hiệu được gọi là experimentwise error rate (EER) = 1 – (1 – a)^k. Xác suất này cũng được gọi là global level hay familywise error rate, vì k tests là một thí nghiệm. Nếu tất cả k giả thuyết độc lập, thì sẽ có khoảng ka kết quả có ý nghĩa thống kê nhưng trong thực tế là không có ý nghĩa thống kê. Nếu k giả thuyết không độc lập thì không có công thức đơn giản để ước tính số kết quả dương tính giả.
Nếu nhà nghiên cứu muốn kiểm soát CER thì không cần phải điều chỉnh trị số P. Ngoài ra, trong trường hợp phân tích khai thác (exploratory analysis) để tìm hiểu các mối liên hệ giữa các biến cũng không cần phải điều chỉnh cho trị số P. Tuy nhiên, nếu nhà nghiên cứu muốn kiểm soát EER thì cần phải điều chỉnh trị số P.
Ref: Bender R, Lange S. Adjusting for multiple testing – when and how? J Clin Epidemiol 2001;54:343-349
Sai sót 10: Lẫn lộn giữa ý nghĩa thống kê (statistical significance) và ý nghĩa lâm sàng / ý nghĩa thực tế (clinical significance / practical significance)
Như đề cập ở đây, nhiều nhà nghiên cứu diễn giải một kết quả có ý nghĩa thông kê (P < 0.05) như là khẳng định có mối liên hệ sinh học hay có ý nghĩa lâm sàng. Thật ra, trị số P không có giá trị sinh học, và cũng không thể diễn giải như là có ý nghĩa sinh học hay ý nghĩa lâm sàng. Trong lâm sàng và sinh học, mức độ ảnh hưởng (effect size), mức độ khác biệt giữa hai hay nhiều nhóm mới là điều quan trọng. Có ý nghĩa thống kê là một điều kiện cần, nhưng chưa đủ để kết luận mối liên hệ hay ảnh hưởng là có thật.
Sai sót 11. Không xác định rằng số liệu trong phân tích phương sai (ANOVA) và kiểm định t đáp ứng các giả định thống kê
Phân tích phương sai, hay một phiên bản đơn giản hơn là kiểm định t, dựa vào giả định rằng số liệu phải tuân theo luật phân phối chuẩn (normal distribution), độc lập với nhau (independence), và phương sai giữa các nhóm không khác nhau (homogeneity). Nhưng trong thực tế sinh học, nhiều biến số không đáp ứng những giả định trên. Nếu nhà nghiên cứu bất chấp các giả định và phân tích thì kết quả có thể không đúng, nếu không muốn nói là sai. Khi số liệu không tuân theo luật phân phối chuẩn hay không đáp ứng các giả định trên, nhà nghiên cứu cần phải hóa chuyển số liệu để đáp ứng các giả định chung trên trước khi phân tích. Nếu số liệu không thể hoán chuyển, nhà nghiên cứu có thể áp dụng các phương pháp phân tích phi tham số (non-parametric method) như kiểm định Wilcoxon rank-sum test, thay vì dùng phương pháp phân tích phương sai.
Sai sót 12. Không mô tả phương pháp dùng để phân tích sự khác biệt giữa hai nhóm trong phân tích phương sai.
Phương pháp phân tích phương sai được sử dụng để so sánh >2 nhóm. Nếu có 3 nhóm, chúng ta có thể so sánh nhóm 1 với 2, 1 với 3, và 2 với 3. Phân tích phương sai thường cung cấp hai kết quả quan trọng: giá trị kiểm định F và trị số P. Trị số P cho nhà nghiên cứu biết có ít nhất hai nhóm (trong các nhóm được phân tích) khác nhau có ý nghĩa thống kê, nhưng không cho biết cụ thể những nhóm nào! Để biết nhóm nào thật sự khác biệt, nhà nghiên cứu cần phải tiến hành bước thứ 2 trong qui trình phân tích: đó là phân tích post hoc – phân tích hậu kiểm. Có ít nhất là 5 phương pháp phân tích hậu kiểm, bao gốm Fisher’s least significance test, Tukey, Student-Neuman-Keuls, Scheffe, Duncan, Bonferroni, v.v. Những phương pháp này có khi cho ra kết quả khác nhau vì khác nhau về giả định. Do đó, trong báo báo kết quả phân tích phương sai, nhà nghiên cứu phải trình bày rõ ràng phương pháp nào đã được áp dụng trong việc phát hiện những sự khác biệt và giả định đằng sau phương pháp phân tích.
NVT