ขั้นตอนการลดเทอมคุณสมบัติซํ้าซ้อน สําหรับการจําแนกบทเพลงไทย (The Algorithm of Feature Redundancy Reduction for Thai Lyrics Classification)

Authors

  • Nutthapat Kaewrattanapat Khonkaen University

Keywords:

การลดคุณสมบัติ, การวิเคราะห์เชิงอารมณ์, การจำแนกเอกสารภาษาไทย, ภาษาศาสตร์เชิงคำนวณ, Feature Reduction, Sentiment Analysis, Thai Document Classification, Computational Linguistic

Abstract

บทคัดย่อ

         จากอดีตจนถึงปัจจุบันมนุษย์ได้มีการใช้บทเพลงในการถ่ายทอดความรู้สึกนึกคิดและอารมณ์ต่างๆ ซึ่งได้รับความนิยมอย่างมากในการใช้สื่อสารลักษณะหนึ่งของมนุษย์ โดยมีการเลือกใช้คำ ประโยค หรือวลี ที่มีความสอดคล้องกับอารมณ์ที่จะถ่ายทอดให้แก่ผู้รับสารได้ จากการสำรวจพบว่าในเว็บไซต์และสื่อสังคมออนไลน์ต่างๆได้มีการเผยแพร่และแลกเปลี่ยนข้อมูลบทเพลงจำนวนมหาศาล และในการค้นคืนข้อมูลบทเพลงนั้น ยังไม่สามารถค้นคืนในลักษณะเชิงอารมณ์ (Sentiment) ของบทเพลงได้ เช่น หากต้องการค้นคืนบทเพลงที่มีอารมณ์รัก (Love Song) เมื่อใช้คำสำคัญ “บทเพลง+รัก” เครื่องมือจักรกลค้นคืน (Search Engine) จะค้นข้อมูลที่มีคำว่า “บทเพลง” และคำว่า “รัก” โดยแท้จริงแล้วจุดมุ่งหมายของผู้ค้นคืน คือ บทเพลงที่มีอารมณ์รัก ทำให้ผู้ค้นได้รับข้อมูลสนองกลับที่ไม่ตรงจุดประสงค์นั่นเองนอกจากนี้ในการจำแนกประเภทบทเพลงมีการเกิดคุณลักษณะที่ซ้ำซ้อนเนื่องจากบทเพลงประเภทบทเพลงรัก และบทเพลงเศร้ามีการใช้คำที่คล้ายคลึงกันจำนวนมาก ทำให้เกิดความถูกต้องในการจำแนกต่ำ

           การวิจัยครั้งนี้ได้ทำการศึกษาและนำเสนอขั้นตอนการลดเทอมคุณสมบัติซ้ำซ้อนสำหรับการจำแนกบทเพลงไทย โดยใช้วิธีการลดความซ้ำซ้อนด้วยการลำดับค่า TF*IDF และพยากรณ์ด้วยการวัดความคล้ายคลึงโคไซน์ โดยจากการทดลองทำให้ทราบว่าการลดคุณสมบัติของบทเพลง (Feature Reduction) ทำให้การพยากรณ์ประเภทของบทเพลงมีความถูกต้องสูงที่สุด คือ การลดคุณสมบัติลงจำนวนร้อยละ 70 มีความถูกต้องร้อยละ 75 โดยใช้เวลาในการประมวลผล คือ 0.76 วินาที ซึ่งลดระยะเวลาในการประมวลผลลดลง 1.54 วินาที ทำให้เกิดประสิทธิภาพทั้งด้านความถูกต้องและด้านเวลาในการประมวลผล

 

Abstract

           From the past to the present time, humans have used songs for conveying their emotions, thoughts, and sentiments. People used this popular communication approach by selecting words, sentences or phrases related to their emotions and transmitting them to receivers.  It was discovered that websites and social media have presented and exchanged a large number of songs and lyrics, but the  song retrieving through their sentimentality were impossible.  For instance, if you wanted to retrieve love songs and you used key words “lyrics + love,” the computer search engines would render to you the entries with the words “songs + love.”  Actually, the searchers were expecting love emotion oriented songs. This resulted in the failure to respond to the searcher needs.  In addition, the lyrics classification produced redundancy as love lyrics and lamenting lyrics used a large number of similar words. This led to low accuracy of song classification. 

         This study proposed and presented the algorithm of feature redundancy reduction for Thai lyrics classification, using TF*IDF feature reduction and predicting the Cosine Similarity. Through the experiment, the results indicated that the feature reduction achieved the highest accuracy of lyrics classification.  Seventy percents of the feature reduction produced 75% accuracy.  Its processing time is 0.76 seconds, and the duration of processing time was decreased to 1.54 seconds.  In addition, the feature reduction reduced processing time and increased the classification accuracy.

 

Downloads

Published

2017-01-12

How to Cite

Kaewrattanapat, N. (2017). ขั้นตอนการลดเทอมคุณสมบัติซํ้าซ้อน สําหรับการจําแนกบทเพลงไทย (The Algorithm of Feature Redundancy Reduction for Thai Lyrics Classification). Journal of Information Science Research and Practice, 34(3). Retrieved from https://so03.tci-thaijo.org/index.php/jiskku/article/view/74590

Issue

Section

Research Article