Mô tả và so sánh sự khác biệt 02 biến số liên tục

19:20:00 14/07/2015

Có thể nói mô tả biến số liên tục bằng giá trị trung bình và độ lệch chuẩn rất thường gặp trong nghiên cứu khoa học. Nhưng nếu không tuân theo các giả định phân bố của nó thì có thể kết quả sai lầm và dĩ nhiên diễn giải kết quả cũng sai lầm.

 Ví dụ: một nghiên cứu đánh giá hiệu quả của việc sử dụng kháng sinh dự phòng có khác nhau hay không so với nhóm chứng (không dùng kháng sinh dự phòng) về nhiễm trùng vết mổ, thời gian nằm viện…      trong phẫu thuật u nang buồng trứng? Khi so sách sự khác biệt 02 nhóm mà biến số là biến liên tục, tác giả dùng t.test như bảng dưới đây:

So sánh đặc điềm 02 nhóm

Chỉ tiêu

Nhóm dùng kháng sinh

Nhóm chứng

P

 

 

 

Thời gian nằm viện trước mổ

Trung bình (ngày) ±SD

Lớn nhất

Nhỏ nhất

 

1,63±1,45

7

1

 

1,33±0,95

5

1

 

0,343

 

 

 

 

1. Mô tả biến số liên tục.

          Đây là kiểu mô không đúng quy ước. Để ý rằng số trung bình và độ lệch chuẩn 02 nhóm trên, hai lần độ lệch chuẩn lớn hơn chỉ số trung bình cho nên có thể nói 02 biến số này không tuân theo phân phối chuẩn. Một biến số không tuân theo luật phân phối chuẩn thì không thể mô tả dưới dạng giá trị trung bình và độ lệ chuẩn. Thay vào đó mô tả trung vị và khoảng tin cậy 95% trung vị hay trung vị và bách vị phân các vị trí 25%, 75% thì hợp lý hơn.

          Giả định số liệu tuân theo luật phân phối chuẩn là khoảng tin cậy 95% nằm trong khoảng giá trị trung bình ±1,96* độ lệch chuẩn. Trở lại mô tả trên, thời gian điều trị trước mổ dao động từ 1,63-1,96*1,45 = -1,2 đến 1,63+1,96*1,45 = 4,8 ngày. Ngày điều trị thì không thể nào âm được.

2. So sánh 02 nhóm.

          T.test là phương pháp so sánh sự khác biệt của 02 biến liên tục rất thường gặp trong nghiên cứu khoa học. Nhưng phải để ý so sánh t.test cho hai nhóm độc lập hay là 02 nhóm mà số liệu lập lại (một bệnh nhân lấy số liệu 02 lần ví như trước và sau điều trị chẳng hạn). Vì cũng là t.test nhưng phương pháp khác nhau nên kết quả cũng khác nhau. Trường hợp trên là sử dụng t.test cho 02 nhóm độc lập vì 02 nhóm không liên quan gì với nhau. Nhưng so sánh trên vẫn chưa hợp lý bởi:

          Sử dụng t.test phải thỏa mãn các điều kiện sau:

1. Phương pháp lấy mẫu: phải ngẫu nhiên.

2. Hai nhóm thu thập dữ liệu phải độc lập.

3. Số liệu tuân theo luật phân phối chuẩn.

4. Hai nhóm không khác nhau về phương sai.

          Trở lại nghiên cứu tên. Xem như điều kiện 1 và 2 không có vấn đề nhưng điều kiện 3 và 4 có vấn đề đó là:

 (i). Số liệu không phải là phân phối chuẩn (như phân tích phần 1)

(ii). Phương sai khác nhau: Phương sai là bình phương độ lệch chuẩn. Do đó ta có thể tính được nhóm sử dụng kháng sinh dự phòng có phương sai là (1,45)2=2,1, nhóm không sử dụng kháng sinh dự phòng là (0,95)2=0,9. Rõ ràng phương sai hai nhóm khác nhau đến 2 lần.

          Từ đó so sánh sự khác biệt hai nhóm trong trường hợp này bằng t.test là không hợp lý. Một phương pháp so sánh có lẽ hợp lý hơn bằng phương pháp phi tham số, hay phương pháp khác vẫn dùng được bằng phương pháp t.test nhưng phải hoán đổi số liệu. Tuy nhiên phương pháp này tương đối phức tạp.

          Để minh họa, có thể lấy ví dụ dưới đây:

Số liệu nhóm 01: 0.2,0.3,0.4,1.1,2.0,2.1,3.3,3.8,4.5,4.8,4.9,5.0,5.3,7.5,9.8,10.4,10.9,11.3,12.4,16.2,17.6,18.9,20.7, 24.0,25.4,40.0,42.5,50.0,60.0

Số liệu nhóm 02:

0.2,0.3,0.4,0.7,1.2,1.5,1.5,1.9,2.0,2.4,2.5,2.8,3.6,4.8,4.8,5.4,5.7,5.8,7.5,8.7,8.8,9.1,10.3,15.6,16.1,16.5,16.7,20.0,20.7,30

(số liệu mỗi cá thể cách nhau dấu phẩy)

          Ta thấy rằng cả hai nhóm không phải là phân phối chuẩn, phương sai nhóm 01 cao hơn nhòm đến 4 lần và có ý nghĩa thống kê (có thể kiểm chứng). Do đó so sánh sự khác biệt 02 nhóm không thể dùng t.test. Nhưng giả sử không kiểm định phân phối và phương sai 02 nhóm chúng tà dùng t.test kết quả p=0.04364 (có ý nghĩa thống kê).

          Như đã nói, so sánh 02 nhóm này chỉ hợp lý khi dùng phương pháp phi tham số và kết quả p=0.1096 (không có ý nghĩa thống kê).

         

 

Một nhầm lẫn thường gặp khác là so sánh sự khác biệt 03 biến số liên tục bằng t.test như nghiên cứu dưới đây.

Nhóm bệnh

N

Đường huyết (mmol/L)

TB±ĐLC

p

Nhóm 1

58

7,42±4,05

p(1) với (3) <0,01

Nhóm 2

22

11,52±6,24

p(2) với (3) >0,05

Nhóm 3

7

11,86±3,03

p(1) với (2) <0,05

         

Mới nhìn qua ta thấy có vẻ hợp lý vì khi so sánh sự khác biệt 03 nhóm người ta dùng đến 03 lần so sánh với nhau. Nhóm 01 với nhóm 02, nhóm 01 với nhóm 03 và nhóm 02 với nhóm 03. Nhưng khi để ý kỷ chúng ta thấy nhóm 02 có phương sai là (6,24)2=40, nhóm 03 có phương sai là (3,03)2=9. Phương sai nhóm 02 cao gấp 04 lần so với nhóm 03, nghĩa là rất khác nhau về phương sai. Do đó ứng dụng t.test trong trường hợp này không hợp lý mà phải dùng phương pháp so sánh phương sai.

Bùi Văn Dủ