การยกระดับการจำแนกข้อความป้อนกลับของสินค้าโดยตัวจำแนกข้อความ ร่วมกับการวัดความสำคัญของคำ Enhancing Classification of Item’s Feedback using Text Classifier with Word Centrality Measures

Main Article Content

วัชรีวรรณ จิตต์สกุล
สุนันฑา สดสี

Abstract

บทคัดย่อ
งานวิจัยฉบับนี้ นำเสนอกระบวนการจำแนกข้อความป้อนกลับ (Feedback) ของสินค้าในพาณิชย์อิเล็กทรอนิกส์ โดยการใช้ตัวจำแนกข้อความ (Text Classifier) ร่วมกับการวัดความสำคัญของคำ (Word Centrality Measures) ในงานวิจัยฉบับนี้ข้อความป้อนกลับของสินค้า คือ ข้อความแสดงความคิดเห็นต่อสินค้าจากลูกค้า เมื่อซื้อสินค้าดังกล่าว แบ่งออกเป็นความคิดเห็นเชิงบวก และความคิดเห็นเชิงลบ ตัวจำแนกข้อความที่เหมาะสมได้มาจากการทดสอบประสิทธิภาพเปรียบเทียบระหว่างอัลกอริทึมที่อยู่ในพื้นฐาน 3 รูปแบบคือ พื้นฐานกฏ (Rule-Based) พื้นฐานโครงสร้างต้นไม (Tree Structure-Based) และพื้นฐานการเรียนรู  (Learning-Based) ได้แก่ Conjunctive Rule, Random Forest และ Support Vector Machine ตามลำดับ ตัวจำแนกข้อความทำหน้าที่ระบุค่าความน่าจะเป็นในการแพร่กระจายของข้อความ (Probability Distribution) มีค่าอยู่ในช่วง [0, 1] ในส่วนของการวัดความสำคัญของคำ ใช้ทฤษฏีกราฟเพื่อแทนข้อความป้อนกลับของสินค้าด้วยกราฟข้อความ (Text Graph) และกำหนดความสำคัญของคำด้วยการวัดค่าความเป็นศูนย์กลาง (Centrality Measures) ในรูปแบบความน่าจะเป็นของความเป็นศูนย์กลางของข้อความ (Probability Centrality) ซึ่งมีค่าอยู่ในช่วง [0, 1] เช่นกัน ทั้งนี้ค่าความน่าจะเป็นในการแพร่กระจายของข้อความและความน่าจะเป็นของความเป็นศูนย์กลางของข้อความจะถูกนำมาใช้ในการจำแนกข้อความ ผลการดำเนินงานวิจัยแสดงให้เห็นว่ากระบวนการ
จำแนกข้อความป้อนกลับที่เสนอขึ้นในงานวิจัยฉบับนี้ สามารถจำแนกข้อความทดสอบจำนวน 3 ชุดข้อความเปรียบเทียบกับตัวจำแนกอื่น ๆ ได้อย่างมีประสิทธิภาพด้วยค่าเฉลี่ยความถูกต้องในการจำแนกร้อยละ 80.9


Abstract
This paper presents a novelty of item’s feedback classification in e-commerce systems. This proposed work is developed based on a combination between a text classifier and word centrality measures. Herein, the item’s feedback means comments written by customers to the purchased items, which are classified into positive or negative comments. In this work, the suitable text classifier is selected from three major types of classification: Rule-based, Tree structure-based, and Learning-based, which are Conjunctive Rule, Random Forest, and Support Vector Machine, respectively. In this work, the classifier is used for identifying the feedbacks in the probability distribution value [0, 1]. On the other hand, items’ feedbacks are also represented by a graph, which is presenting a relationship among words. As well as, centrality measures are applied to determine each contained word centrality, and finalize to a probability centrality in [0, 1]. Both probability distribution and probability centrality, here, are applied to classify the item’s feedback to positive or negative comments. The simulation results showed that the proposed classification method was efficient to classify three benchmark datasets, compared to other existing  approaches with an average of classification accuracy 80.9 %.

Article Details

How to Cite
[1]
จิตต์สกุล ว. and สดสี ส., “การยกระดับการจำแนกข้อความป้อนกลับของสินค้าโดยตัวจำแนกข้อความ ร่วมกับการวัดความสำคัญของคำ Enhancing Classification of Item’s Feedback using Text Classifier with Word Centrality Measures”, RMUTI Journal, vol. 10, no. 3, pp. 104–117, Dec. 2017.
Section
บทความวิจัย (Research article)

References

[1] Wolfgang Himmel, Ulrich Reincke and Hans Wilhelm Michelmann. (2009). Text Mining and Natural Language Processing Approaches for Automatic Categorization of Lay Requests to Web-Based Expert Forums. Journal of Medical Internet Research. Vol. 11. No. 3. e25. pp. 1-6. DOI: 10.2196/jmir.1123

[2] Peng Zhou and Nora El-Gohary. (2016). Ontology-Based Multilabel Text Classification of Construction Regulatory Documents. Journal of Computing in Civil Engineering. Vol. 30. No. 4. pp. 1-13

[3] Vandana Korde. (2012). Text Classofication and Classifiers: A Survey. International Journal of Artificial Intelligence & Applications. Vol. 3. No. 2. pp. 85-99

[4] D. K. Kirange and Ratnadeep R. Deshmukh. (2014). Emotion Classification of Restaurant and Laptop Review Dataset: Semeval 2014 Task 4. International Journal of Computer Applications. Vol. 113. No. 6. pp. 17-20

[5] Aashutosh Bhatt, Ankit Patel, Harsh Chheda and Kiran Gawande. (2015). Amazon Review Classification and Sentiment Analysis. International Journal of Computer Science and Information Technologies. Vol. 6. No. 6. pp. 5107-5110

[6] Bondy, J. and Murty, U. (1976). Graph Theory With Applications. USA. : Elsecier Science Publishing Co., Inc.

[7] Kjetil Valle. (2011). Graph-Based Representations for Textual Case-Based Reasoning. Department of Computer and Information Science, Norwegian University of Science and Technology. pp. 1-10

[8] Asma Khazaal Abdulsahib and Siti Sakira Kamaruddin. (2015). Graph Based Text Representation for Document Clustering. Journal of Theoretical and Applied Information Technology. Vol. 76. No. 1. pp. 1-13

[9] J. Wu, Z. Xuan, and D. Pan. (2011). Enhancing Text Representation for Classification Tasks with Semantic Graph Structures. International Journal if Innovative Computing, Information Control. Vol. 7. No. 5. pp. 2689-2698

[10] Fragkiskos D. Malliaros and Konstantinos Skianis. (2015). Graph-Based Term Weighting for Text Categorization. IEEE/ACM International Conference on Advances in Social Networks. New York, NY, US. pp. 1473-1479

[11] Organisation for Economic Co-operation and Development. (2016). Consumer Protection in E-commerce. France : OECD Publishing

[12] Ricci, F., Rokach, L., Shapira, B., and Kantor, P.B. (2011). Recommender Systems Handbook. US. : Springer US Publisher

[13] Mohd Fauzi bin Othman and Thomas Moh Shan Yau. (2007). Comparison of Different Classification Techniques Using WEKA for Breast Cancer. In Biomed 06, IFMBE Proceeding 15. Germany : Springer Berlin Heidelberg. pp. 520-523

[14] Leo Breiman and R. (2001). Random Forests. Machine Learning. Vol. 45. Issue. 1. pp. 5-32. DOI: 10.1023/A:1010933404324

[15] W. Ali, S.M. Shamsuddin and A.S. Ismail. (2011). Web Proxy Cache Content Classification based on Support Vector Machine. Journal of Artificial Intelligence. Vol. 4. No. 1. pp. 100-109. DOI: 10.3923/jai.2011.100-109

[16] Hanneman, Robert A. and Mark Riddle. (2005). Introduction to Social Network Methods. Riverside, CA : University of California, Riverside

[17] M. M. Durland, K. A. Fredericks. (2006). Social Network Analysis in Program Evaluation. San Francisco : Jossey-Bass, Calif

[18] Xing Fang and Justin Zhan. (2015). Sentiment Analysis Using Product Review Data. Journal of Big Data. Vol. 2. No. 5. pp. 1-14

[19] Manvee Chauhan. (2015) Sentimental Analysis of Product Based Reviews Using Machine Learning Approaches. Journal of Network Communications and Emerging Technologies (JNCET). Vol. 5. No. 2. pp. 19-25

[20] Vinodhini Gopalakrishnan, Chandrasekaran Ramaswamy. (2014). Sentiment Learning from Imbalanced Dataset: An Ensemble Based Method. International Journal of Artificial Intelligence. Vol. 12. No. 2. pp. 75-87

[21] Deepak Kumar Gupta and Asif Ekbal. (2014). IITP: Supervised Machine Learning for Aspect based Sentiment Analysis. In Proceedings of the 8th International Workshop on Semantic Evaluation. Dublin, Ireland. pp. 319-323

[22] Dimitrios Kotzias, Misha Denil, Nando De Freitas and Padhraic Smyth. (2015). From Group to Individual Labels using Deep Features. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney, NSW, Australia. pp. 1-10

[23] Powers, David M W. (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. Vol. 2. No. 1. pp. 37-63