The Effects of Scoring Methods on Efficiency of Computerized Adaptive Testing
Main Article Content
Abstract
The purposes of this research were to study effects of scoring methods on the quality measure of validity, reliability, and standard error of measurement and to compare results of effects of scoring methods on efficiency of computerized adaptive testing to investigate on number of items and test functional information by considering the composition of the main testing, item selection criteria, ability estimation procedure, termination criteria, examinee’s different abilities. The first phase was developing test item bank on Mathematics for an upper secondary school level. The test was analyzed to get the qualities of items by using Item Response Theory. The sample of 3,330 examinee. A total of 230 test items were created that have not adapted the scale, The measurements were similar, as observed by the mean of the analyzed test parameters, having the discrimination index were 0.73-0.95, the standard deviation were 0.06-0.23, which is considered good. The difficulty of test items were 0.79-1.09, the standard deviation were 0.29-1.27. The guessing values were 0.11-0.16, the standard deviation were 0.02-0.04, which is considered good. Having checked the unidimensional of the test by using factor analysis, it revealed that the first value was higher than other values, with similar values all together. It is assumed that the test is unidimensional. The second phase was studying the effects of scoring methods by the five independent variables including selection criteria, ability estimation procedure, termination criteria and examinee’s ability on efficiency of computerized adaptive testing to investigate on number of items and test functional information. The data obtained from 540 samples were analyzed by using means, standard deviation, and Analysis of Variance. The results indicated that the quality of the measurement results scoring of Multiple-Response Method (MR), Multiple True-False Method (MTF) and Omit Multiple True-False Method (OMTF) revealed validity of 0.7202, 0.7233, 0.7239, respectively. The reliability values were 0.7716, 0.7750, 0.7757, respectively. The standard error of measurement values were 0.2326, 0.4609, 0.2305, respectively. The Effects of MR, MTF and OMTF scoring after item considering selection criteria, ability estimation procedure, termination criteria examinee’s ability, number of items, and functional test information.
Article Details
เนื้อหาและข้อมูลในบทความที่ลงตีพิมพ์ในวารสารทดสอบระบบ ThaiJo2 ถือเป็นข้อคิดเห็นและความรับผิดชอบของผู้เขียนบทความโดยตรงซึ่งกองบรรณาธิการวารสาร ไม่จำเป็นต้องเห็นด้วย หรือร่วมรับผิดชอบใดๆ
บทความ ข้อมูล เนื้อหา รูปภาพ ฯลฯ ที่ได้รับการตีพิมพ์ในวารสารทดสอบระบบ ThaiJo2 ถือเป็นลิขสิทธิ์ของวารสารทดสอบระบบ ThaiJo2 หากบุคคลหรือหน่วยงานใดต้องการนำทั้งหมดหรือส่วนหนึ่งส่วนใดไปเผยแพร่ต่อหรือเพื่อกระทำการใดๆ จะต้องได้รับอนุญาตเป็นลายลักอักษรจากวารสารทดสอบระบบ ThaiJo2 ก่อนเท่านั้น
References
ต่าย เซี่ยงฉี. (2534). การศึกษาเปรียบเทียบประสิทธิภาพในการประมาณค่าความสามารถของผู้สอบจากการทดสอบเทเลอร์รูปปิรามิดที่มีรูปแบบจำนวนชั้นและวิธีการให้คะแนนที่ แตกต่างกันโดยใช้วิธีมอนติคาร์โล. ปริญญานิพนธ์การศึกษาดุษฎีบัณฑิต, สาขาวิชาการวิจัยและพัฒนาหลักสูตร บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
บุญชม ศรีสะอาด. (2540). การวิจัยทางการวัดผลและประเมินผล. กรุงเทพฯ: สุวีริยาสาส์น.
บุญชม ศรีสะอาด. (2553). การวิจัยเบื้องต้น (พิมพ์ครั้งที่ 8). กรุงเทพฯ: สุวิริยาสาส์น.
รังสรรค์ เล็กมณี. (2540). ผลของตัวแปรบางตัวต่อความเที่ยงตรงเชิงสภาพและจำนวนข้อสอบที่ใช้ในการทดสอบแบบปรับเหมาะกับความสามารถของผู้สอบด้วยคอมพิวเตอร์. วิทยานิพนธ์ดุษฎีบัณฑิต สาขาวิชาการทดสอบและวัดผลการศึกษา บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
ศิริชัย กาญจนวาสี. (2550). ทฤษฏีการทดสอบแนวใหม่ : MODERN TEST THEORY. กรุงเทพฯ: โรงพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.
สมศักดิ์ ลิลา. (2539). การพัฒนาระบบคลังข้อสอบเพื่อการเรียนการสอนด้วยไมโครคอมพิวเตอร์. ปริญญานิพนธ์การศึกษาดุษฎีบัณฑิต สาขาวิชาการวิจัยและพัฒนาหลักสูตร บัณฑิตวิทยาลัย มหาวิทยาลัยศรีนครินทรวิโรฒ.
Coombs, C. H., Milholland, J. E., & Womer, F. B. (1956). The assessment of partial knowledge. Education and Psychological Measurement, 16, 13-37.
Frary, R. B. (1980). The effect of misinformation, partial information, and guessing on Expected multiple-choice test item scores. Applied Psychological Measurement, 4, 79-90.
Gifford, J. A., & Swaminathan, H. (1990). Bias and the Effect of Priors in Bayesian Estimation of Parameters of Item Response Model. Applied Psychological Measurement, 14(1), 33-43.
Haladyna, T. M., & Roid, G. H. (1983). Two Alternative Methods for Criterion-referenced Instructional Program Assessment. Educational Technology, 28, 35-38.
Hambleton, R. K., Swaminathan H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. London.
Ho, R. G. (1989). Using Micro CAT in Computerized Adaptive Testing: A Comparison of Three Adaptive Testing Strategies. Dissertation Abstracts International, 50(2), 421-A.
Leclercq, D. (1983). Confidence Marking : Its Use in Testing. Evaluation in Education, 6, 161-287.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates.
Lord, F. M., & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading Massachusetts: Addison-Welsley.
Urry, V. W. (1977). Tailored Testing: A Successful Application of Latent Trait Theory. Journal of Educational Measurement, 14(2), 181-196.