การทดสอบสมมติฐานวิจัยและการมีนัยสำคัญทางสถิติ

การทดสอบสมมติฐานวิจัย และ การมีนัยสำคัญทางสถิติ คืออะไร

คนทั่วไปอาจจะเคยได้ยินคำกล่าวที่ว่า  การทำรายงาน หรือ การทำวิจัยที่ไม่มีการทดสอบสมมติฐาน  หรือเมื่อทดสอบสมมติฐานแล้ว พบว่า ผลการวิจัย “ไม่มีนัยสำคัญ”  คือ งานวิจัยที่ “ไม่สำคัญ”  ประเด็น  การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ  จึงเป็นเรื่องที่ควรเข้าใจที่ถูกต้อง

คำพูดดังกล่าวนี้ถือเป็นคำพูดที่ผิดโดยสิ้นเชิง   และเป็นที่น่าเสียดายเป็นอย่างยิ่งที่มีผู้วิจัยจำนวนไม่น้อยที่เข้าใจผิดถึงกับไม่เผยแพร่งานวิจัยนั้น   หรือบางท่านก็พยายามเปลี่ยนแปลงกระบวนการทำวิจัยใหม่  เช่น  การเปลี่ยนตัวแปร  การเปลี่ยนกลุ่มตัวอย่าง  รวมไปถึงการเปลี่ยนแบบจำลอง หรือ สถิติที่ใช้ในการวิเคราะห์ใหม่ เป็นต้น   นอกจากนี้  ยังอาจพบว่า  มีบรรณาธิการบางวารสารไม่ยอมให้งานวิจัยฉบับนั้นลงตีพิมพ์   บางส่วนของคณะกรรมการพิจารณาผลงานวิชาการ  ไม่ยินยอมให้งานวิจัยนั้นผ่านการพิจารณา และอื่นๆ อีกมากมาย  การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ  จึงเป็นสิ่งสำคัญ

ปรากฏการณ์ที่เกิดขึ้นเช่นนี้  เนื่องจากเป็นการให้ความสำคัญกับค่า Sig. หรือ p-value   มากเกินความเป็นจริง หรือภาษาอังกฤษ ใช้คำว่า Over reliance on p-value   ซึ่งเกิดจากความไม่เข้าใจหลักการอนุมานทางสถิติ (Statistical inference)  โดยเฉพาะอย่างยิ่ง  ความเข้าใจที่ลึกซึ้งของการทดสอบสมมติฐาน การแปลความหมาย ของงานวิจัย

การตีความ หรือ แปลความหมายของ  ผลการทดสอบสมมติฐานของงานวิจัย ที่ปรากฎผล  “ไม่มีนัยสำคัญทางสถิติ (Not statistically significant)” เป็น “ไม่มีความสำคัญ (Clinically or socio-biologically unimportant)” เป็นการเข้าใจผิดไปจากการทางสถิติโดยสิ้นเชิง

การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ
การทดสอบสมมติฐานงานวิจัย อย่างมีนัยสำคัญทางสถิติ

เนื้อหาต่อไปนี้  จะอธิบายถึงแนวคิดและกระบวนการ  ที่มาที่ไปของการทดสอบความมีนัยสำคัญทางสถิติ รวมไปถึงวิธีการคำนวณ   และตัวอย่างประกอบคำอธิบาย  เพื่อชี้ให้เห็นว่า  ผลการวิจัยในส่วนของ ผลการทดสอบสมมติฐาน  ที่ได้ข้อสรุปว่าไม่มีนัยสำคัญ  เป็นคนละเรื่องการการตีความว่างานวิจัยนั้น ไม่มีความสำคัญ

พื้นฐานความรู้เพื่อการทำความเข้าใจที่ถูกต้อง 

2.1 นัยสำคัญทางสถิติคืออะไร

หากลองนึกมโนภาพในสมอง เป็น เหรียญที่ไม่ถ่วง  หรือ  เหรียญที่ไม่มีคติ เราสามารถรู้ได้โดยตรรกะพื้นฐานว่า  ค่าความน่าจะเป็นในการโยนเหรียญ  แล้วผลออกมาเป็น “หัว” จากการโยนเหรียญ 1 ครั้ง นั้น มีค่าเท่ากับครึ่งหนึ่งของผลที่มีโอกาสเกิดทั้งหมด  หรือ เท่ากับ 0.5  ดังนั้น  หากเราโยนเหรียญ 10 ครั้งแล้วได้หัว 7 ครั้งได้ก้อย 3 ครั้ง เราก็จะเข้าใจได้ว่า  การทอดหรือโยนเหรียญนั้น มีโอกาสได้หัว  9 ครั้งกับก้อย 3  ครั้ง และจะพบว่าโอกาสที่จะได้ก้อย ทั้ง 10 ครั้งจากการโยนเหรียญ 10 ครั้งนั้น มีโอกาสเกิดขึ้นได้น้อยมาก  เพราะส่วนใหญ่ ผลที่ได้จากการโยนเหรียญจะเป็นหัว

เมื่อโยนแล้วส่วนใหญ่จะออกหัวหรือออกก้อย เรามักจะคิดในใจหรือเรียกว่าเป็นการตั้งตั้งสมมุติฐานของความไม่แตกต่างว่าสัดส่วนของการเกิดหัวเกิดก้อยเท่ากัน กล่าวคือ  ค่าความน่าจะเป็นของการโยนแล้วขึ้นหัวเท่ากับ 0.5 จากนั้นเราก็ทำการพิสูจน์ หรือเรียกว่า ทำการทดสอบสมมุติฐาน  ด้วยการโยนเหรียญหลายๆครั้ง เช่น โยนเหรียญ 100 ครั้ง และทั้ง 100 ครั้งออกหัว  คำถามคือ “ผลที่ได้นั้นมีโอกาสเป็นไปได้มากน้อยแค่ไหนถ้าหากเหรียญไม่ถ่วง?

มนุษย์ที่มีตรรกะปกติทั่วไป  ย่อมสรุปว่าเหตุการณ์เช่นนี้  เป็นสิ่งที่เกิดได้ยากมาก  ดังนั้นเขาจึงปฏิเสธสมมุติฐานของความไม่แตกต่างและสรุปว่าเหรียญนั้นถ่วง แต่หากถ้าสมมุติผลได้ 90 หัว และ 10 ก้อย หรือได้ 80 หัว และ 20 ก้อย ถ้าหากความจริงคือเหรียญไม่ถ่วงแล้ว ผลที่ได้นั้นมีโอกาสเป็นไปได้มากขึ้นเป็นลำดับ

การตัดสินใจว่าจะปฏิเสธสมมุติฐานของความไม่แตกต่าง  หรือ  ไม่นั้นขึ้นอยู่กับวิจารณญาณ ไม่มีหลักเกณฑ์ตายตัว แต่มักไม่ต่างกันมาก เช่น ถ้าสมมติสมมุติผลได้ 5 หัว และ 5 ก้อย หลายคนจะบอกว่า เป็นไปได้สูงและตัดสิน  ไม่ปฏิเสธสมมุติฐานของความไม่แตกต่าง

วิธีการทางสถิติมีการกำหนดค่าในการตัดสินใจ  ที่จะแยกระหว่างความเป็นไปได้ และ ความเป็นไปไม่ได้คือ 5 ใน 100 หรือ p-value = 0.05 ขีดจำกัดดังกล่าว  ได้กำหนดเป็นวิธีมาช้านาน ถึงแม้ว่าจะมีค่าอื่นที่อาจจะใช้ได้อย่างมีเหตุผล เช่น 0.1 และ 0.01 ก็ตาม ผลการศึกษาที่ได้ค่าน้อยกว่าค่านี้ (p-value < 0.05) จะได้สรุปว่ามีนัยสำคัญทางสถิติ

ด้วยเหตุนี้  เมื่อพิจารณา คำว่า  “นัยสำคัญทางสถิติ”  จึงมีความหมายว่าผลที่ได้จาการศึกษาหรือวิจัยนั้นๆ เพียงพอที่จะบอกว่าเป็นไปโดยบังเอิญนั้นน้อยมาก และเราย่อมสามารถที่จะปฏิเสธสมมุติฐานของความไม่แตกต่าง  แต่หาก  ผลการศึกษาที่ได้ค่ามากกว่าค่านี้ (p-value > 0.05) เราก็จะบอกว่าการศึกษาครั้งนี้  ไม่มีนัยสำคัญทางสถิติและ  สมมุติฐานของความไม่แตกต่างนั้น  ไม่ได้รับการปฏิเสธ เช่น ผลการโยนเหรียญเกิดหัว 6 ครั้งก้อย 4 ครั้ง ผลนี้แม้จะเกิดได้ไม่บ่อยนัก  แต่ก็ใช่เป็นไปได้ยาก  ถึงแม้เหรียญจะไม่ถ่วง

เหตุการณ์ที่ยังผลให้ p-value > 0.05 สามารถเกิดขึ้นได้กับการที่โยนเหรียญเพียง 5 ครั้ง แม้ผลจะออกมาว่าได้หัวทั้ง 5 ครั้ง  ก็ไม่สามารถบอกว่าเป็นเหตุการณ์ที่เป็นไปได้ยาก และจะสรุปได้ว่าไม่มีนัยสำคัญทางสถิติเช่นเดียวกัน กรณีนี้ความจริงเหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ว่า  ถ่วงหรือไม่ ดังนั้น  คำกล่าวที่ว่า “เราไม่มีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานผิด (คือสรุปว่าเหรียญถ่วง)”

เท่ากับเป็นการอธิบายคำว่า  “ไม่มีนัยสำคัญทางสถิติ” ได้เหมาะสมในกรณีนี้ ในทางกลับกัน  หากโยนเหรียญ 1,000 ครั้ง ได้หัว 501 ครั้งและก้อย 499  ครั้งย่อมยังผลให้ p-value > 0.05 เช่นกัน (คำนวณจริงได้ p-value = 0.950 ในการทดสอบสมมติฐานว่า สัดส่วนได้หัวเท่ากับก้อยเท่ากับ 0.5 และผลทดลองได้ 499/1000 = 0.499) แต่กรณีนี้เรามีหลักฐานเพียงพอที่จะสรุปว่าสมมติฐานไม่ผิด (คือมั่นใจที่จะสรุปว่าเหรียญไม่ถ่วง)  เพราะฉะนั้น  ผลการศึกษาที่ออกมาว่า ไม่มีนัยสำคัญทางสถิติ การแสดงเพียงค่า p-value ทำให้เราทราบได้เพียงว่าสมมติฐานความไม่แตกต่างนั้น  อาจถูก หรือผิด ก็ได้ กล่าวตามตัวอย่างข้างต้น คือ เหรียญอาจถ่วงหรือไม่ก็ได้ แต่เราไม่สามารถสรุปได้ (Inconclusive)

การศึกษาที่มีขนาดตัวอย่างใหญ่มากๆ สามารถได้ผล Significant แม้ขนาดความแตกต่างจะน้อยมาก ๆ ก็ตาม  (ขนาดตัวอย่างใหญ่  มีหลักเกณฑ์ทางสถิติที่ระบุชัดเจนว่า  จำนวนมากเท่าใด  คือ ตัวอย่างขนาดใหญ่)

 

 

ขอบคุณเนื้อหาดีๆ;

1.การทดสอบสมมติฐานทางสถิติ

2.ขั้นตอนการทดสอบสมมติฐานการวิจัย