การทดสอบสมมติฐานวิจัย และ การมีนัยสำคัญทางสถิติ คืออะไร
คนทั่วไปอาจจะเคยได้ยินคำกล่าวที่ว่า การทำรายงาน หรือ การทำวิจัยที่ไม่มีการทดสอบสมมติฐาน หรือเมื่อทดสอบสมมติฐานแล้ว พบว่า ผลการวิจัย “ไม่มีนัยสำคัญ” คือ งานวิจัยที่ “ไม่สำคัญ” ประเด็น การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ จึงเป็นเรื่องที่ควรเข้าใจที่ถูกต้อง
คำพูดดังกล่าวนี้ถือเป็นคำพูดที่ผิดโดยสิ้นเชิง และเป็นที่น่าเสียดายเป็นอย่างยิ่งที่มีผู้วิจัยจำนวนไม่น้อยที่เข้าใจผิดถึงกับไม่เผยแพร่งานวิจัยนั้น หรือบางท่านก็พยายามเปลี่ยนแปลงกระบวนการทำวิจัยใหม่ เช่น การเปลี่ยนตัวแปร การเปลี่ยนกลุ่มตัวอย่าง รวมไปถึงการเปลี่ยนแบบจำลอง หรือ สถิติที่ใช้ในการวิเคราะห์ใหม่ เป็นต้น นอกจากนี้ ยังอาจพบว่า มีบรรณาธิการบางวารสารไม่ยอมให้งานวิจัยฉบับนั้นลงตีพิมพ์ บางส่วนของคณะกรรมการพิจารณาผลงานวิชาการ ไม่ยินยอมให้งานวิจัยนั้นผ่านการพิจารณา และอื่นๆ อีกมากมาย การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ จึงเป็นสิ่งสำคัญ
ปรากฏการณ์ที่เกิดขึ้นเช่นนี้ เนื่องจากเป็นการให้ความสำคัญกับค่า Sig. หรือ p-value มากเกินความเป็นจริง หรือภาษาอังกฤษ ใช้คำว่า Over reliance on p-value ซึ่งเกิดจากความไม่เข้าใจหลักการอนุมานทางสถิติ (Statistical inference) โดยเฉพาะอย่างยิ่ง ความเข้าใจที่ลึกซึ้งของการทดสอบสมมติฐาน การแปลความหมาย ของงานวิจัย
การตีความ หรือ แปลความหมายของ ผลการทดสอบสมมติฐานของงานวิจัย ที่ปรากฎผล “ไม่มีนัยสำคัญทางสถิติ (Not statistically significant)” เป็น “ไม่มีความสำคัญ (Clinically or socio-biologically unimportant)” เป็นการเข้าใจผิดไปจากการทางสถิติโดยสิ้นเชิง
เนื้อหาต่อไปนี้ จะอธิบายถึงแนวคิดและกระบวนการ ที่มาที่ไปของการทดสอบความมีนัยสำคัญทางสถิติ รวมไปถึงวิธีการคำนวณ และตัวอย่างประกอบคำอธิบาย เพื่อชี้ให้เห็นว่า ผลการวิจัยในส่วนของ ผลการทดสอบสมมติฐาน ที่ได้ข้อสรุปว่าไม่มีนัยสำคัญ เป็นคนละเรื่องการการตีความว่างานวิจัยนั้น ไม่มีความสำคัญ
พื้นฐานความรู้เพื่อการทำความเข้าใจที่ถูกต้อง
2.1 นัยสำคัญทางสถิติคืออะไร
หากลองนึกมโนภาพในสมอง เป็น เหรียญที่ไม่ถ่วง หรือ เหรียญที่ไม่มีคติ เราสามารถรู้ได้โดยตรรกะพื้นฐานว่า ค่าความน่าจะเป็นในการโยนเหรียญ แล้วผลออกมาเป็น “หัว” จากการโยนเหรียญ 1 ครั้ง นั้น มีค่าเท่ากับครึ่งหนึ่งของผลที่มีโอกาสเกิดทั้งหมด หรือ เท่ากับ 0.5 ดังนั้น หากเราโยนเหรียญ 10 ครั้งแล้วได้หัว 7 ครั้งได้ก้อย 3 ครั้ง เราก็จะเข้าใจได้ว่า การทอดหรือโยนเหรียญนั้น มีโอกาสได้หัว 9 ครั้งกับก้อย 3 ครั้ง และจะพบว่าโอกาสที่จะได้ก้อย ทั้ง 10 ครั้งจากการโยนเหรียญ 10 ครั้งนั้น มีโอกาสเกิดขึ้นได้น้อยมาก เพราะส่วนใหญ่ ผลที่ได้จากการโยนเหรียญจะเป็นหัว
เมื่อโยนแล้วส่วนใหญ่จะออกหัวหรือออกก้อย เรามักจะคิดในใจหรือเรียกว่าเป็นการตั้งตั้งสมมุติฐานของความไม่แตกต่างว่าสัดส่วนของการเกิดหัวเกิดก้อยเท่ากัน กล่าวคือ ค่าความน่าจะเป็นของการโยนแล้วขึ้นหัวเท่ากับ 0.5 จากนั้นเราก็ทำการพิสูจน์ หรือเรียกว่า ทำการทดสอบสมมุติฐาน ด้วยการโยนเหรียญหลายๆครั้ง เช่น โยนเหรียญ 100 ครั้ง และทั้ง 100 ครั้งออกหัว คำถามคือ “ผลที่ได้นั้นมีโอกาสเป็นไปได้มากน้อยแค่ไหนถ้าหากเหรียญไม่ถ่วง?”
มนุษย์ที่มีตรรกะปกติทั่วไป ย่อมสรุปว่าเหตุการณ์เช่นนี้ เป็นสิ่งที่เกิดได้ยากมาก ดังนั้นเขาจึงปฏิเสธสมมุติฐานของความไม่แตกต่างและสรุปว่าเหรียญนั้นถ่วง แต่หากถ้าสมมุติผลได้ 90 หัว และ 10 ก้อย หรือได้ 80 หัว และ 20 ก้อย ถ้าหากความจริงคือเหรียญไม่ถ่วงแล้ว ผลที่ได้นั้นมีโอกาสเป็นไปได้มากขึ้นเป็นลำดับ
การตัดสินใจว่าจะปฏิเสธสมมุติฐานของความไม่แตกต่าง หรือ ไม่นั้นขึ้นอยู่กับวิจารณญาณ ไม่มีหลักเกณฑ์ตายตัว แต่มักไม่ต่างกันมาก เช่น ถ้าสมมติสมมุติผลได้ 5 หัว และ 5 ก้อย หลายคนจะบอกว่า เป็นไปได้สูงและตัดสิน ไม่ปฏิเสธสมมุติฐานของความไม่แตกต่าง
วิธีการทางสถิติมีการกำหนดค่าในการตัดสินใจ ที่จะแยกระหว่างความเป็นไปได้ และ ความเป็นไปไม่ได้คือ 5 ใน 100 หรือ p-value = 0.05 ขีดจำกัดดังกล่าว ได้กำหนดเป็นวิธีมาช้านาน ถึงแม้ว่าจะมีค่าอื่นที่อาจจะใช้ได้อย่างมีเหตุผล เช่น 0.1 และ 0.01 ก็ตาม ผลการศึกษาที่ได้ค่าน้อยกว่าค่านี้ (p-value < 0.05) จะได้สรุปว่ามีนัยสำคัญทางสถิติ
ด้วยเหตุนี้ เมื่อพิจารณา คำว่า “นัยสำคัญทางสถิติ” จึงมีความหมายว่าผลที่ได้จาการศึกษาหรือวิจัยนั้นๆ เพียงพอที่จะบอกว่าเป็นไปโดยบังเอิญนั้นน้อยมาก และเราย่อมสามารถที่จะปฏิเสธสมมุติฐานของความไม่แตกต่าง แต่หาก ผลการศึกษาที่ได้ค่ามากกว่าค่านี้ (p-value > 0.05) เราก็จะบอกว่าการศึกษาครั้งนี้ ไม่มีนัยสำคัญทางสถิติและ สมมุติฐานของความไม่แตกต่างนั้น ไม่ได้รับการปฏิเสธ เช่น ผลการโยนเหรียญเกิดหัว 6 ครั้งก้อย 4 ครั้ง ผลนี้แม้จะเกิดได้ไม่บ่อยนัก แต่ก็ใช่เป็นไปได้ยาก ถึงแม้เหรียญจะไม่ถ่วง
เหตุการณ์ที่ยังผลให้ p-value > 0.05 สามารถเกิดขึ้นได้กับการที่โยนเหรียญเพียง 5 ครั้ง แม้ผลจะออกมาว่าได้หัวทั้ง 5 ครั้ง ก็ไม่สามารถบอกว่าเป็นเหตุการณ์ที่เป็นไปได้ยาก และจะสรุปได้ว่าไม่มีนัยสำคัญทางสถิติเช่นเดียวกัน กรณีนี้ความจริงเหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ว่า ถ่วงหรือไม่ ดังนั้น คำกล่าวที่ว่า “เราไม่มีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือสรุปว่าเหรียญถ่วง)”
เท่ากับเป็นการอธิบายคำว่า “ไม่มีนัยสำคัญทางสถิติ” ได้เหมาะสมในกรณีนี้ ในทางกลับกัน หากโยนเหรียญ 1,000 ครั้ง ได้หัว 501 ครั้งและก้อย 499 ครั้งย่อมยังผลให้ p-value > 0.05 เช่นกัน (คำนวณจริงได้ p-value = 0.950 ในการทดสอบสมมติฐานว่า สัดส่วนได้หัวเท่ากับก้อยเท่ากับ 0.5 และผลทดลองได้ 499/1000 = 0.499) แต่กรณีนี้เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานไม่ผิด (คือมั่นใจที่จะสรุปว่าเหรียญไม่ถ่วง) เพราะฉะนั้น ผลการศึกษาที่ออกมาว่า ไม่มีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value ทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้น อาจถูก หรือผิด ก็ได้ กล่าวตามตัวอย่างข้างต้น คือ เหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ (Inconclusive)
การศึกษาที่มีขนาดตัวอย่างใหญ่มากๆ สามารถได้ผล Significant แม้ขนาดความแตกต่างจะน้อยมาก ๆ ก็ตาม (ขนาดตัวอย่างใหญ่ มีหลักเกณฑ์ทางสถิติที่ระบุชัดเจนว่า จำนวนมากเท่าใด คือ ตัวอย่างขนาดใหญ่)
ขอบคุณเนื้อหาดีๆ;