การสกัดวลีสําคัญภาษาไทยอัตโนมัติโดยใช้เทคนิคเอ็นแกรม ร่วมกับการเรียนรู้ของเครื่องจักร (Automatic Thai Keyphrase Extraction using N-Gram and Machine Learning Approach)
Keywords:
การสกัดวลีสำคัญภาษาไทย, เอ็นแกรม, การเรียนรู้ของเครื่องจักรAbstract
การศึกษาครั้งนี้มีวัตถุประสงค์เพื่อออกแบบกระบวนการสกัดวลีสำคัญภาษาไทย อัตโนมัติโดยใช้เทคนิคเอ็นแกรมร่วมกับการเรียนรู้ของเครื่องจักร และเปรียบเทียบ ประสิทธิภาพในการสกัดวลีสำคัญอัตโนมัติ ระหว่างการใช้เทคนิคเอ็นแกรมร่วมกับโครงข่าย ประสาทเทียมและเทคนิคเอ็นแกรมร่วมกับตัวจำแนกเบย์อย่างง่าย ข้อมูลที่ใช้ในการทดลอง เอกสารบทความวิชาการ กระบวนการที่นำเสนอนี้ประกอบด้วยงานหลัก 2 ส่วน คือ การสกัดวลีที่คาดว่าเป็นวลีสำคัญโดยใช้แกรมตั้งแต่ 1 ถึง 3-แกรมที่มีความถี่มากว่า 2 2) การฝึกฝนแบบจำลองโดยใช้ข้อมูลในการสอน คือ ความถี่ของวลี ตำแหน่งที่ ปรากฏวลี ค่าความถี่ผูกผันของเอกสาร และความยาวของวลี ผลการทดลองพบว่าการ เทคนิคเอ็นแกรมร่วมกับโครงข่ายประสาทเทียมในการจำแนกวลีสำคัญมีประสิทธิภาพ มากกว่าการใช้เทคนิคเอ็นแกรมร่วมกับตัวจำแนกเบย์อย่างง่าย และการทดลองสกัดวลี สำคัญจากชุดข้อมูลทดสอบมีความถูกต้องร้อยละ 97.31 แสดงให้เห็นว่ากระบวนการที่ เสนอสามารถสกัดวลีสำคัญภาษาไทยจากเอกสารบทความวิชาการแบบอัตโนมัติได้ อย่างมีประสิทธิภาพ ซึ่งจะมีประโยชน์ต่องานด้านการค้นคืนสารสนเทศต่อไป