ประสิทธิภาพของการประมาณค่าพารามิเตอร์แบบเบส์โดยใช้การสรุปอ้างอิง ความน่าเชื่อถือของโมเดลการตอบสนองข้อสอบ
Keywords:
การวิเคราะห์ข้อสอบ, การประมาณค่าพารามิเตอร์, วิธีการสรุปอ้างอิงความน่าเชื่อถือของโมเดลการตอบสนองข้อสอบAbstract
บทคัดย่อ
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการประมาณของวิธีการสรุปอ้างอิงความน่าเชื่อถือของโมเดลการตอบสนองข้อสอบ (Generalizability in Item Response Modeling) 4 รูปแบบ ได้แก่ รูปแบบที่ 1 Original GIRM พัฒนาโดย Brigg และ Wilson (2007) รูปแบบที่ 2 AGIRM A รูปแบบที่ 3 AGIRM B และรูปแบบที่ 4 Numerical Bayesian GIRM ผู้วิจัยเป็นผู้พัฒนาขึ้น นอกจากนี้ยังศึกษาถึงอิทธิพลของขนาดกลุ่มอย่างและจำนวนข้อสอบ รวมทั้งยังศึกษาความไว (Sensitivity) ของรูปแบบต่าง ๆ ต่อการกำหนดลักษณะการแจกแจงเริ่มแรกของค่าพารามิเตอร์ของข้อสอบและผู้สอบที่ส่งผลต่อประสิทธิภาพของวิธีการประมาณ ซึ่งวัดได้จากดัชนี 3 ประเภท ได้แก่ ความลำเอียงในการประมาณค่า (Biased estimator) คำนวณจากการวิเคราะห์ค่าความคลาดเคลื่อนเฉลี่ย (Mean Average Deviation) ความไม่แน่นอนในการประมาณค่า (Uncertainty estimator) คำนวณจากการวิเคราะห์ค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) และประสิทธิภาพในการประมาณค่าองค์ประกอบความแปรปรวน ซึ่งคำนวณจากการวิเคราะห์ระยะทางยุคลิด (Euclidean Distance) ข้อมูลที่ใช้ในการศึกษาครั้งนี้ใช้ข้อมูลจำลอง (simulation) จากโปรแกรม R และทำการประมวลผลภายใต้จากการเขียนคำสั่งการประมวลผลด้วยโปรแกรม WinBUGS ด้วย Package R2 WinBUGS
ผลการวิจัยพบว่า เมื่อเปรียบเทียบประสิทธิภาพในการประมาณค่าของรูปแบบของวิธีการสรุปอ้างอิงความน่าเชื่อถือของผลการวัดด้วยโมเดลการตอบสนองข้อสอบ(GIRM) พบว่า ความลำเอียงในการประมาณค่า รูปแบบที่ 1 กับ รูปแบบที่ 4 ให้ค่าประสิทธิภาพสูงที่สุด โดยรูปแบบที่ 4 สามารถประมาณค่าพารามิเตอร์ได้เฉพาะลักษณะการแจกแจงเริ่มแรกของผู้สอบและข้อสอบแบบ
ปกติ สำหรับความไม่แน่นอนในการประมาณค่า พบว่า รูปแบบที่ 4 ให้ค่าประสิทธิภาพสูงที่สุด สำหรับลักษณะการแจกแจงเริ่มแรกของผู้สอบและข้อสอบแบบปกติส่วนลักษณะการแจกแจกเริ่มแรกของค่าพารามิเตอร์ตัวใดตัวหนึ่งของผู้สอบหรือข้อสอบที่ไม่มีลักษณะการแจกแจงเริ่มแรกแบบปกติ พบว่า รูปแบบที่ 1 ให้ค่าประสิทธิภาพสูงที่สุด และเมื่อพิจารณาในด้านประสิทธิภาพขององค์ประกอบความแปรปรวนยุคลิด พบว่า รูปแบบที่ 2 ให้ค่าประสิทธิภาพสูงที่สุด การศึกษาอิทธิพลของขนาดกลุ่มตัวอย่างและจำนวนข้อสอบ พบว่า ขนาดกลุ่มตัวอย่าง ส่งผลต่อประสิทธิภาพในด้านความลำเอียงและความไม่แน่นอน ในการประมาณค่าในทุกรูปแบบ และด้านประสิทธิภาพขององค์ประกอบความแปรปรวนยุคลิด พบว่า ขนาดกลุ่มตัวอย่างไม่ส่งผลต่อประสิทธิภาพในการประมาณค่า สำหรับความยาวแบบสอบ พบว่า ส่งผลต่อการการวัดประสิทธิภาพในความลำเอียงในการประมาณค่าและการวิเคราะห์ประสิทธิภาพองค์ประกอบความแปรปรวนยุคลิด ในทุกรูปแบบ ส่วนความไม่แน่นอนในการประมาณค่า พบว่า ขนาดกลุ่มตัวอย่างส่งผลต่อประสิทธิภาพในการประมาณค่าเฉพาะรูปแบบที่ 3 เท่านั้น ในเรื่องการศึกษาความไว พบว่า การแจกแจงเริ่มแรกของผู้สอบ ไม่ส่งผลต่อประสิทธิภาพด้านความลำเอียง ส่วนความไม่แน่นอนในการประมาณค่าและประสิทธิภาพขององค์ประกอบความแปรปรวนยุคลิด พบว่าการแจกแจงเริ่มแรกของผู้สอบ ส่งผลต่อการวัดประสิทธิภาพความลำเอียงในทุกรูปแบบ ส่วนการแจกแจงเริ่มแรกของข้อสอบ พบว่า ส่งผลต่อการวัดประสิทธิภาพความลำเอียงในการประมาณค่าและความไม่แน่นอนในการประมาณค่าทุกรูปแบบ และส่งผลการวิเคราะห์ประสิทธิภาพองค์ประกอบความแปรปรวนยุคลิดเฉพาะในกรณีที่การแจกแจงเริ่มแรกของผู้สอบเป็นแบบแกมม่าเท่านั้นคำสำคัญ : การวิเคราะห์ข้อสอบ การประมาณค่าพารามิเตอร์ วิธีการสรุปอ้างอิงความน่าเชื่อถือของโมเดลการตอบสนองข้อสอบ
Abstract
This research aimed to compare the efficiency of the 4 forms of GIRM; Form 1 Original GIRM developed by Brigg และ Wilson (2007), Form 2 AGIRM A, Form 3 AGIRM B, and Form 4 Numerical Bayesian GIRM developed by the researcher. The research also studied the impact of the sample size, the test length, and the sensitivity of each form toward the prior distribution setting of parameter of the items and the examiners which affected the efficiency of the estimation which could be measured by 3 types of indicators; Biased estimator calculated from Mean Average Deviation (MAD), Uncertainty estimator calculated from Standard Deviation (S.D.), and efficiency of constituent variance estimation calculated from Euclidean Distance(EUC). The data was simulation from program R and was assessed with program WinBUGS with Package R2 WinBUGS. The results of research were as follows: 1.From the comparison of GIRM, it was found that when Bias estimated from MAD was considered, Form 1 Original GIRM and Form 4 Numerical Bayesian GIRM had the best efficiency. Form 4 could estimate normal prior distribution of the items and the examiners. For Uncertainty, it was found that Form 4 is the best efficiency for normal prior distribution. For the prior distribution of one parameter without normal prior distribution, Form 1 Original GIRM had the best efficiency. And when the efficiency of constituent variance estimation calculated from EUC was considered, it was found that Form 2 AGIRM A had the most efficiency. 2. From the study of the influence of the sample size and the test length, it was found that the sample size affected the measure of bias efficiency in Form 1 , Form 2 , and Form 3 . For the uncertainty in the estimation, it was found that the sample size affected all forms of efficiency estimation. And when the efficiency of constituent variance EUC was considered, it was found that the sample size did not affect efficiency estimation. The test length affected the measure of bias efficiency and efficiency of constituent variance EUC in Form 1, Form 2, and Form 3. For uncertainty of estimation, it was found that the sample size affected all forms of efficiency estimation. 3. From the study of sensitivity of the test analysis result, it was found that the prior distribution of the examiners did not affect the measure of bias efficiency. For the uncertainty of estimation and analysis of constituent variance EUC, it was found that the prior distribution of the items affected the measure of bias efficiency. It was found that the prior distribution affected the measure of Bias estimator and all forms of uncertainty estimator. It also affected the efficiency of constituent variance EUC only when the prior distribution of the examiners was gamma.
Keywords: Item Analysis, Parameter Estimation, Generalization in Item Response Modeling