The Effects of Scoring Methods on Efficiency of Computerized Adaptive Testing

Main Article Content

ภาณุวัชร ปุรณะศิริ
สมศักดิ์ ลิลา
สมพงษ์ ปั้นหุ่น

Abstract

The purposes of this research were to study effects of scoring methods on the quality measure of validity, reliability, and standard error of measurement and to compare results of effects of scoring methods on efficiency of computerized adaptive testing to investigate on number of items and test functional information by considering the composition of the main testing, item selection criteria, ability estimation procedure, termination criteria, examinee’s different abilities. The first phase was developing test item bank on Mathematics for  an upper secondary school level. The test was analyzed to get the qualities of items by using Item Response Theory. The sample of 3,330 examinee. A total of 230 test items were created that have not adapted the scale, The measurements were similar, as observed by the mean of the analyzed test parameters, having the discrimination index were 0.73-0.95, the standard deviation were 0.06-0.23, which is considered good. The difficulty of test items were 0.79-1.09, the standard deviation were 0.29-1.27. The guessing values were 0.11-0.16, the standard deviation were 0.02-0.04, which is considered good. Having checked the unidimensional of the test by using factor analysis, it revealed that the first value was higher than other values, with similar values all together. It is assumed that the test is unidimensional. The second phase was studying the effects of scoring methods by the five independent variables including selection criteria, ability estimation procedure, termination criteria and examinee’s ability on efficiency of computerized adaptive testing to investigate on number of items and test functional information. The data obtained from 540 samples were analyzed by using means, standard deviation, and Analysis of Variance. The results indicated that the quality of the measurement results scoring of Multiple-Response Method (MR), Multiple True-False Method (MTF) and Omit Multiple True-False Method (OMTF) revealed validity of 0.7202, 0.7233, 0.7239, respectively. The reliability values were 0.7716, 0.7750, 0.7757, respectively. The standard error of measurement values were 0.2326, 0.4609, 0.2305, respectively. The Effects of MR, MTF and OMTF scoring after item considering selection criteria, ability estimation procedure, termination criteria examinee’s ability, number of items, and functional test information.

Article Details

How to Cite
ปุรณะศิริ ภ., ลิลา ส., & ปั้นหุ่น ส. (2019). The Effects of Scoring Methods on Efficiency of Computerized Adaptive Testing. Journal of Humanities & Social Sciences (JHUSOC), 15(2), บทความที่ 14 หน้าที่ 147–157. retrieved from https://so03.tci-thaijo.org/index.php/jhusoc/article/view/201564
Section
Research Article
Author Biography

ภาณุวัชร ปุรณะศิริ

BURIRAMPITTHAYAKHOM SCHOOL 

References

ชวาล แพรัตกุล. (2552). เทคนิคการวัดผล. (พิมพ์ครั้งที่ 7). กรุงเทพฯ: มหาวิทยาลัยศรีนครินทรวิโรฒ.
ต่าย เซี่ยงฉี. (2534). การศึกษาเปรียบเทียบประสิทธิภาพในการประมาณค่าความสามารถของผู้สอบจากการทดสอบเทเลอร์รูปปิรามิดที่มีรูปแบบจำนวนชั้นและวิธีการให้คะแนนที่ แตกต่างกันโดยใช้วิธีมอนติคาร์โล. ปริญญานิพนธ์การศึกษาดุษฎีบัณฑิต, สาขาวิชาการวิจัยและพัฒนาหลักสูตร บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
บุญชม ศรีสะอาด. (2540). การวิจัยทางการวัดผลและประเมินผล. กรุงเทพฯ: สุวีริยาสาส์น.
บุญชม ศรีสะอาด. (2553). การวิจัยเบื้องต้น (พิมพ์ครั้งที่ 8). กรุงเทพฯ: สุวิริยาสาส์น.
รังสรรค์ เล็กมณี. (2540). ผลของตัวแปรบางตัวต่อความเที่ยงตรงเชิงสภาพและจำนวนข้อสอบที่ใช้ในการทดสอบแบบปรับเหมาะกับความสามารถของผู้สอบด้วยคอมพิวเตอร์. วิทยานิพนธ์ดุษฎีบัณฑิต สาขาวิชาการทดสอบและวัดผลการศึกษา บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
ศิริชัย กาญจนวาสี. (2550). ทฤษฏีการทดสอบแนวใหม่ : MODERN TEST THEORY. กรุงเทพฯ: โรงพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.
สมศักดิ์ ลิลา. (2539). การพัฒนาระบบคลังข้อสอบเพื่อการเรียนการสอนด้วยไมโครคอมพิวเตอร์. ปริญญานิพนธ์การศึกษาดุษฎีบัณฑิต สาขาวิชาการวิจัยและพัฒนาหลักสูตร บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
Coombs, C. H., Milholland, J. E., & Womer, F. B. (1956). The assessment of partial knowledge. Education and Psychological Measurement, 16, 13-37.
Frary, R. B. (1980). The effect of misinformation, partial information, and guessing on Expected multiple-choice test item scores. Applied Psychological Measurement, 4, 79-90.
Gifford, J. A., & Swaminathan, H. (1990). Bias and the Effect of Priors in Bayesian Estimation of Parameters of Item Response Model. Applied Psychological Measurement, 14(1), 33-43.
Haladyna, T. M., & Roid, G. H. (1983). Two Alternative Methods for Criterion-referenced Instructional Program Assessment. Educational Technology, 28, 35-38.
Hambleton, R. K., Swaminathan H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. London.
Ho, R. G. (1989). Using Micro CAT in Computerized Adaptive Testing: A Comparison of Three Adaptive Testing Strategies. Dissertation Abstracts International, 50(2), 421-A.
Leclercq, D. (1983). Confidence Marking : Its Use in Testing. Evaluation in Education, 6, 161-287.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Lord, F. M., & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading Massachusetts: Addison-Welsley.
Urry, V. W. (1977). Tailored Testing: A Successful Application of Latent Trait Theory. Journal of Educational Measurement, 14(2), 181-196.