Mô tả dữ liệu bằng biểu đồ

07:57:00 12/06/2013

BS: Bùi Văn Dủ

Trong NCKH cũng như trong công việc hàng ngày, chúng ta đối diện với rất nhiều dữ liệu phải mô tả. Phương pháp mô tả có thể bằng bảng (nếu tính chính xác là quan trọng) và cũng có khi mô tả bằng biểu đồ. Cái hay của mô tả dữ liệu bằng biểu đồ là có thể thấy được xu hướng nào đó của dữ liệu làm người đọc dễ cảm nhận được vấn đề hơn mô tả bằng bảng số liệu.

Một nguyên tắc chung của thiết kế biểu đồ đạt tiêu chuẩn là phải chú thích rõ trục hoành, trục tung, đơn vị đo và tên của biểu đồ. Một số biểu đồ phức tạp phải thêm phần ghi chú. Mỗi loại biểu đồ khác nhau phản ánh thông tin khác nhau. Do vậy khi thiết kế biểu đồ phải suy nghĩ sau cho phù hợp và tuyệt đối không “màu mè”. Dưới đây là vài loại biểu đồ thường gặp trong mô tả dữ liệu.

  1. Biểu đồ hình bánh.

 Dùng để mô tả dữ liệu có cơ cấu phần trăm. Nhưng thông tin phải nhiều chứ không đơn giản như mô tả tỷ lệ nam, nữ.

Ví dụ biểu đồ dưới đây không nên thiết kế vì ít thông tin, chiếm không gian rộng và thiết kế xấu. Thay vì thiết kế biểu đồ trên chúng ta có thể mô tả dữ liệu khoảng nửa dòng là người đọc đã rõ.

 

Biểu đồ dưới đây có thể chấp nhận được bởi cung cấp nhiều thông tin hơn và thiết kế đẹp hơn

2. Biểu đồ thanh.

 Dùng để so sánh 01 hay nhiều nhóm tại cùng một thời điểm nhưng cũng có khi dùng để mô tả phân bố dữ liệu.

2.1. So sánh nhiều nhóm.

          Biểu đồ dưới đây mô tả đường lây của các cas nhiễm HIV. Thay vì dùng biểu đồ thanh thì nên mô tả dạng biểu đồ hình bánh vì bản chất số liệu cơ cấu 100%. Ngoài ra còn thiếu thông tin về trục tung và tên biểu đồ.

Thiết kế lại

Biểu đổ dưới đây có thể chấp nhận được

2.2. Phân bố dữ liệu.

Mô phỏng 1000 trường hợp có đường huyết trung bình 122 mg/dl, độ lệch chuẩn 5 mg/dl và tuân theo luật phân phối chuẩn.

Bởi vì số liệu là mô phỏng nên chúng ta thấy khoảng 500 trường hợp số liệu dao động khoảng 120-124 và biểu đồ có hình chuông úp rất đẹp (phân phối chuẩn)

Đôi khi người ta mô tả dữ liệu bằng biểu đồ xác suất tích lũy như trong trường hợp này cho thấy khoảng 50% trường hợp có đường huyết từ 122 mg/dl trở lên.

3. Biểu đồ đường biểu diễn

Mô tả số liệu theo thời gian và phản ánh xu hướng số liệu rất tốt, như biểu đồ dưới đây (mô phỏng) cho thấy bệnh tiêu chảy có xu hướng tăng cao vào những tháng mùa khô, giảm dần vào các tháng mùa mưa còn sốt rét thì diễn biến ngược lại.

4. Biểu đồ 2 trục tung

Nên tránh vì khó đọc. Tuy nhiên những trường hợp mà số liệu 2 biến mô tả cách quá xa nhau thì biểu đồ này tỏ ra hữu hiệu (biểu đồ dưới đây)

5. Biểu đồ tán xạ:

          Mô tả sự tương quan của một hay nhiều yếu tố ví dụ:

Mô phỏng 100 đối tượng có cân nặng  trung bình 50 kg độ lệch chuẩn 5 kg, chiều cao trung bình 165 cm, độ lệch chuẩn 6 cm. Cả cân nặng và chiều cao tuân theo phân phối chuẩn và có hệ số tương quan r=0,75

Biểu đồ thể hiện xu hướng tương quan rất tốt. Người có cân nặng cao thì cũng có chiều cao cao và ngược lại.

6. Biểu đồ hộp: Mô tả sự dao động của một hay nhiều yếu tố

Ví dụ biểu đồ dưới đây cho thấy cung cấp cho ta 3 cách nhìn tổng thể về mật độ xương cột sống (gam/cm2) trên 2 đối tượng nam và nữ:

- Mật độ xương cột sống nhóm nam cao hơn nhóm nữ

- Phân bố mật độ xương 02 nhóm tương đối đồng đều

-  Nhưng có thể có giá trị ngoại lai (outlie)