Đó là câu hỏi phát sinh với hầu như mọi kết quả mới trong khoa học hoặc y
khoa: Cái gì khiến một kết quả đủ tin cậy để xem xét nghiêm túc? Câu trả lời
là phải tính ý nghĩa thống kê – nhưng cũng phải tính đến những tiêu chuẩn
nào là có nghĩa trong một tình huống cho trước.
7 trang |
Chia sẻ: lylyngoc | Lượt xem: 1598 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Sigma: bao nhiêu thì đáng tin cậy?, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Sigma: bao nhiêu thì
đáng tin cậy?
Đó là câu hỏi phát sinh với hầu như mọi kết quả mới trong khoa học hoặc y
khoa: Cái gì khiến một kết quả đủ tin cậy để xem xét nghiêm túc? Câu trả lời
là phải tính ý nghĩa thống kê – nhưng cũng phải tính đến những tiêu chuẩn
nào là có nghĩa trong một tình huống cho trước.
Số liệu thực nghiệm thường được cung cấp cùng với ý nghĩa thống kê là độ
lệch chuẩn, biểu diễn bằng chữ cái Hi Lạp in thường sigma (σ). Thuật ngữ
này chỉ lượng biến thiên trong một tập số liệu cho trước: các điểm số liệu có
hội tụ với nhau hay là rất phân tán.
Trong nhiều trường hợp, kết quả của một thí nghiệm tuân theo cái gọi là
“phân bố bình thường”. Chẳng hạn, nếu bạn tung một đồng xu 100 lần và
đếm xem bao nhiêu lần nó lật ngửa, thì kết quả trung bình sẽ là 50. Nhưng
nếu bạn làm phép thử này 100 lần, thì đa số kết quả sẽ gần giá trị 50, nhưng
không đúng bằng 50. Phần lớn trường hợp bạn thu được kết quả là 49, hoặc
51. Bạn ít khi thu được kết quả 45 hoặc 55, còn 20 và 80 thì hầu như không
có. Nếu bạn vẽ đồ thị 100 lần thử đó, bạn sẽ thu được một hình dạng nổi
tiếng gọi là đường cong hình chuông cao nhất ở chính giữa và hạ dần ở hai
bên. Đó là một phân bố bình thường.
Đồ thị hình chuông của một phân bố “thường”. Những đường thẳng đứng ở
hai bên biểu diễn những khoảng một, hai và ba sigma.
Độ lệch cho biết một điểm số liệu cho trước sai khác với giá trị trung bình là
bao nhiêu. Trong ví dụ tung đồng xu, một kết quả 47 có độ lệch là 3 khỏi giá
trị trung bình 50. Độ lệch chuẩn là căn bậc hai của giá trị trung bình của tất cả
độ lệch bình phương lên. Một độ lệch chuẩn, hay một sigma, vẽ phía trên
hoặc phía dưới giá trị trung bình trên đường cong phân bố bình thường, sẽ
định ra một vùng gồm 68% của toàn bộ các điểm dữ liệu. Hai sigma ở phía
trên hoặc phía dưới sẽ bao gồm khoảng 95% số liệu, và ba sigma sẽ bao gồm
99,7%.
Vậy khi nào một điểm số liệu nhất định – hay kết quả nghiên cứu – được xem
là có nghĩa? Độ lệch chuẩn có thể mang lại một thước đo: Nếu một điểm số
liệu cách mô hình được kiểm tra một vài độ lệch chuẩn, thì đây là bằng chứng
mạnh mẽ cho thấy điểm số liệu đó không khớp với mô hình đó. Tuy nhiên,
làm thế nào sử dụng thước đo này thì tùy thuộc vào tình huống cụ thể. Giáo
sư John Tsitsiklis tại MIT, người giảng dạy Cơ sở Xác suất, phát biểu,
“Thống kê là một nghệ thuật, với rất nhiều chỗ cho sự sáng tạo và sai lầm”.
Một phần của nghệ thuật đó là xác định xem những số đo nào là có nghĩa
trong một tình huống đã cho.
Ví dụ, nếu bạn tổ chức một cuộc trưng cầu xem có bao nhiêu người định bỏ
phiếu cho một ứng cử viên nào đó, thì quy ước được chấp nhận là hai độ lệch
chuẩn phía trên hoặc phía dưới trị trung bình, cái cho mức độ tin cậy 95%, là
hợp lí. Khoảng hai sigma đó là cái mà những người đi trưng cầu dân ý muốn
nói khi họ nói tới “biên của sai số lấy mẫu”, ví dụ 3%, trong kết quả của họ.
Điều đó có nghĩa nếu bạn hỏi toàn bộ một nhóm dân cư một câu hỏi khảo sát
và thu được một câu trả lời nhất định, sau đó bạn hỏi câu hỏi đó với một
nhóm ngẫu nhiên gồm 1000 người, thì có 95% khả năng kết quả của nhóm
thứ hai sẽ rơi vào trong vùng hai sigma với kết quả thứ nhất. Nếu một cuộc
trưng cầu ý kiến tìm thấy rằng 55% số người nghiêng về ứng cử viên A, thì
95% lần hỏi, kết quả của lần trưng cầu thứ hai sẽ là đâu đó giữa 52 và 58%.
Tất nhiên, điều đó cũng có nghĩa 5% số lần hỏi, kết quả sẽ nằm ngoài vùng
hai sigma đó. Sai số nhiều như thế là cái hay cho một cuộc trưng cầu ý kiến,
nhưng có lẽ không tốt cho kết quả của một thí nghiệm quan trọng đang thách
thức kiến thức của các nhà khoa học về một hiện tượng quan trọng – ví dụ
như hồi mùa thu năm ngoái người ta công bố có khả năng phát hiện ra những
hạt neutirno chuyển động nhanh hơn tốc độ ánh sáng trong một thí nghiệm tại
Trung tâm nghiên cứu Hạt nhân châu Âu (CERN).
Sáu sigma có khi vẫn sai
Về mặt kĩ thuật, kết quả của thí nghiệm đó có độ tin cậy rất cao: sáu sigma.
Trong đa số trường hợp, một kết quả năm sigma được xem là tiêu chuẩn vàng
có nghĩa, tương ứng với khoảng một phần một triệu khả năng tìm kiếm đó chỉ
là một kết quả của sự biến thiên ngẫu nhiên; sáu sigma được dịch là một
trong nửa tỉ cơ hội kết quả đó là một sai số ngẫu nhiên. (Một chiến lược quản
lí kinh doanh nổi tiếng có tên gọi là “Sáu Sigma” lấy ý nghĩa từ thuật ngữ
này, và được xây dựng trên những thủ tục quản lí chất lượng hết sức nghiêm
ngặt để giảm thiểu lãng phí.)
Nhưng trong thí nghiệm CERN đó, thí nghiệm có khả năng lật đổ một cột trụ
vật lí đã được chấp nhận một thế kỉ qua và đã được xác nhận trong hàng
nghìn loại kiểm nghiệm khác nhau, kết quả vẫn chưa gần như đủ tốt. Trước
tiên, giả sử rằng các nhà nghiên cứu đã thực hiện phân tích đúng và đã không
bỏ sót một số nguồn sai số hệ thống. Và vì kết quả quá bất ngờ và mang tính
cách mạng, nên cái đa số các nhà vật lí nghĩ tới là một nguồn sai số nào đó
chưa phát hiện ra.
Thật thú vị, một bộ kết quả khác cũng từ chính máy gia tốc hạt CERN lại
được lí giải khá khác.
Một phát hiện có khả năng xảy ra của cái gọi là boson Higgs – hạt hạ nguyên
tử trên lí thuyết sẽ giúp giải thích tại sao các hạt có khối lượng – cũng được
công bố hồi năm ngoái. Kết quả đó chỉ có mức độ tin cậy 2,3 sigma, tương
ứng với khoảng một trong 50 cơ hội kết quả đó là một sai số ngẫu nhiên (độ
tin cậy 98%). Nhưng vì nó khớp với cái được trông đợi dựa trên lí thuyết vật
lí hiện nay, nên đa số các nhà vật lí nghĩ rằng kết quả trên có khả năng là
đúng, bất chấp mức độ tin cậy thống kê nhỏ hơn nhiều của nó.
Có nghĩa nhưng không đúng
Nhưng trong những lĩnh vực khác, vấn đề còn phức tạp hơn. “Nơi khái niệm
này thật sự náo nhiệt là trong khoa học xã hội và trong y khoa,” Tsitsiklis nói.
Ví dụ, một bài báo hồi năm 2005 được trích dẫn rộng rãi trên tạp chí Public
Library of Science — mang tựa đề “Tại sao đa số các kết quả nghiên cứu
được công bố là sai” — có cung cấp một phân tích chi tiết gồm nhiều yếu tố
phong phú có thể dẫn tới những kết luận phi lí. Tuy nhiên, những yếu tố này
đã không được tính đến trong các số đo thống kê điển hình được sử dụng,
trong đó có “ý nghĩa thống kê”.
Bài báo trình bày rằng khi nhìn vào những tập số liệu lớn theo đủ cách khác
nhau, thật dễ tìm thấy những ví dụ vượt qua điều kiện thông thường về ý
nghĩa thống kê, mặc dù chúng thật sự chỉ là những biến thiên ngẫu nhiên.
Vâng, ngay cả với mức độ tin cậy năm sigma, nếu một máy vi tính duyệt qua
hàng triệu khả năng, thì một số khuôn mẫu hoàn toàn ngẫu nhiên phù hợp với
những điều kiện đó sẽ được phát hiện ra. Khi điều đó xảy ra thì tốt hơn hết
bạn đừng nên công bố gì cả.
Một ví dụ: Nhiều bài báo đã công bố hồi thập niên trước khẳng định những
tương quan đáng kể giữa những loại hành vi nhất định hoặc những quá trình
tư duy và hỉnh ảnh bộ não chụp bởi phương pháp cộng hưởng từ, hay MRI.
Nhưng đôi khi những thử nghiệm này có thể tìm thấy những tương quan biểu
kiến chỉ là kết quả của những thăng giáng tự nhiên, hay “sự nhiễu”, trong hệ
thống. Một nhà nghiên cứu hồi năm 2009 đã lặp lại một thí nghiệm như vậy,
về sự ghi nhận cảm xúc trên gương mặt, thay vì tiến hành với con người ông
đã quét một con cá chết – và đã tìm thấy những kết quả “có nghĩa”.
“Nếu bạn nhìn vào đủ chỗ, bạn có thể thu được kết quả ‘con cá chết”,
Tsitsiklis nói. Ngược lại, trong nhiều trường hợp một kết quả có ý nghĩa
thống kê thấp vẫn có thể “cho bạn biết có cái đáng để nghiên cứu”.
Vì thế bạn nên nhớ rằng, chỉ vì cái gì đó phù hợp với một định nghĩa được
chấp nhận của “sự có nghĩa” thì không nhất thiết là nó có nghĩa. Nó còn tùy
thuộc vào ngữ cảnh.