Improving Multi-label Classification Performance on Imbalanced Datasets Through SMOTE Technique and Data Augmentation Using IndoBERT Model

Leno Dwi Cahya; Ardytha Luthfiarta; Julius Immanuel Theo Krisna; Sri Winarno; Adhitya Nugraha

doi:10.25077/TEKNOSI.v9i3.2023.290-298

Improving Multi-label Classification Performance on Imbalanced Datasets Through SMOTE Technique and Data Augmentation Using IndoBERT Model

Authors

Leno Dwi Cahya Universitas Dian Nuswantoro
Ardytha Luthfiarta Universitas Dian Nuswantoro https://orcid.org/0000-0002-3455-3848
Julius Immanuel Theo Krisna Universitas Dian Nuswantoro
Sri Winarno Universitas Dian Nuswantoro
Adhitya Nugraha Universitas Dian Nuswantoro https://orcid.org/0000-0001-5366-110X

DOI:

https://doi.org/10.25077/TEKNOSI.v9i3.2023.290-298

Keywords:

Imbalanced, SMOTE, Augmentation, Sentiment, NLP

Abstract

Sentiment and emotion analysis is a common classification task aimed at enhancing the benefit and comfort of consumers of a product. However, the data obtained often lacks balance between each class or aspect to be analyzed, commonly known as an imbalanced dataset. Imbalanced datasets are frequently challenging in machine learning tasks, particularly text datasets. Our research tackles imbalanced datasets using two techniques, namely SMOTE and Augmentation. In the SMOTE technique, text datasets need to undergo numerical representation using TF-IDF. The classification model employed is the IndoBERT model. Both oversampling techniques can address data imbalance by generating synthetic and new data. The newly created dataset enhances the classification model's performance. With the Augmentation technique, the classification model's performance improves by up to 20%, with accuracy reaching 78%, precision at 85%, recall at 82%, and an F1-score of 83%. On the other hand, using the SMOTE technique, the evaluation results achieve the best values between the two techniques, enhancing the model's accuracy to a high 82% with precision at 87%, recall at 85%, and an F1-score of 86%.

References

[1] T. Shaik, X. Tao, C. Dann, H. Xie, Y. Li, and L. Galligan, â€œSentiment analysis and opinion mining on educational data: A survey,â€ Natural Language Processing Journal, vol. 2, p. 100003, Mar. 2023, doi: 10.1016/j.nlp.2022.100003. [2] W. Zhang, X. Li, Y. Deng, L. Bing, and W. Lam, â€œA Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges,â€ IEEE Trans Knowl Data Eng, vol. 35, no. 11, pp. 11019â€“11038, Nov. 2023, doi: 10.1109/TKDE.2022.3230975. [3] E. Alemayehu and Y. Fang, â€œA Submodular Optimization Framework for Imbalanced Text Classification With Data Augmentation,â€ IEEE Access, vol. 11, pp. 41680â€“41696, 2023, doi: 10.1109/ACCESS.2023.3267669. [4] A. Nugroho, M. A. Soeleman, R. Anggi Pramunendar, A. Affandy, and A. Nurhindarto, â€œPeningkatan Performa Ensemble Learning pada Segmentasi Semantik Gambar dengan Teknik Oversampling untuk Class Imbalance,â€ Jurnal Teknologi Informasi dan Ilmu Komputer, vol. 10, no. 4, pp. 899â€“908, 2023, doi: 10.25126/jtiik.2023106831. [5] Z. Hengyu, â€œImproved SMOTE algorithm for imbalanced dataset,â€ in 2020 Chinese Automation Congress (CAC), IEEE, Nov. 2020, pp. 693â€“697. doi: 10.1109/CAC51589.2020.9326603. [6] B. Jonathan, P. H. Putra, and Y. Ruldeviyani, â€œObservation Imbalanced Data Text to Predict Users Selling Products on Female Daily with SMOTE, Tomek, and SMOTE-Tomek,â€ in 2020 IEEE International Conference on Industry 4.0, Artificial Intelligence, and Communications Technology (IAICT), IEEE, Jul. 2020, pp. 81â€“85. doi: 10.1109/IAICT50021.2020.9172033. [7] M. S. N. M. Danuri, R. A. Rahman, I. Mohamed, and A. Amin, â€œThe Improvement of Stress Level Detection in Twitter: Imbalance Classification Using SMOTE,â€ in 2022 IEEE International Conference on Computing (ICOCO), IEEE, Nov. 2022, pp. 294â€“298. doi: 10.1109/ICOCO56118.2022.10031684. [8] V. Rupapara, F. Rustam, H. F. Shahzad, A. Mehmood, I. Ashraf, and G. S. Choi, â€œImpact of SMOTE on Imbalanced Text Features for Toxic Comments Classification Using RVVC Model,â€ IEEE Access, vol. 9, pp. 78621â€“78634, 2021, doi: 10.1109/ACCESS.2021.3083638. [9] J. Wei and K. Zou, â€œEDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks,â€ Jan. 2019, [Online]. Available: http://arxiv.org/abs/1901.11196 [10] M. Wankhade, A. C. S. Rao, and C. Kulkarni, â€œA survey on sentiment analysis methods, applications, and challenges,â€ Artif Intell Rev, vol. 55, no. 7, pp. 5731â€“5780, Oct. 2022, doi: 10.1007/s10462-022-10144-1. [11] Y. Yanfi, Y. Heryadi, L. Lukas, W. Suparta, and Y. Arifin, â€œSentiment Analysis of User Review on Indonesian Food and Beverage Group using Machine Learning Techniques,â€ in 2022 IEEE Creative Communication and Innovative Technology (ICCIT), IEEE, Nov. 2022, pp. 1â€“5. doi: 10.1109/ICCIT55355.2022.10118707. [12] S. Saadah, Kaenova Mahendra Auditama, Ananda Affan Fattahila, Fendi Irfan Amorokhman, Annisa Aditsania, and Aniq Atiqi Rohmawati, â€œImplementation of BERT, IndoBERT, and CNN-LSTM in Classifying Public Opinion about COVID-19 Vaccine in Indonesia,â€ Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol. 6, no. 4, pp. 648â€“655, Aug. 2022, doi: 10.29207/resti.v6i4.4215. [13] B. Juarto and Yulianto, â€œIndonesian News Classification Using IndoBert,â€ International Journal of Intelligent Systems and Applications in Engineering, vol. 11, no. 2, pp. 454â€“460, 2023. [14] F. S. S. Ningsih et al., â€œSynonym-based Text Generation in Restructuring Imbalanced Dataset for Deep Learning Models,â€ in 2022 5th International Conference on Networking, Information Systems and Security: Envisage Intelligent Systems in 5g//6G-based Interconnected Digital Worlds (NISS), IEEE, Mar. 2022, pp. 1â€“6. doi: 10.1109/NISS55057.2022.10085156. [15] L. Hu, C. Li, W. Wang, B. Pang, and Y. Shang, â€œPerformance Evaluation of Text Augmentation Methods with BERT on Small-sized, Imbalanced Datasets,â€ in 2022 IEEE 4th International Conference on Cognitive Machine Intelligence (CogMI), IEEE, Dec. 2022, pp. 125â€“133. doi: 10.1109/CogMI56440.2022.00027. [16] F. Muftie and M. Haris, â€œIndoBERT Based Data Augmentation for Indonesian Text Classification,â€ in 2023 International Conference on Information Technology Research and Innovation (ICITRI), IEEE, Aug. 2023, pp. 128â€“132. doi: 10.1109/ICITRI59340.2023.10250061. [17] Riccosan and K. E. Saputra, â€œMultilabel multiclass sentiment and emotion dataset from indonesian mobile application review,â€ Data Brief, vol. 50, p. 109576, Oct. 2023, doi: 10.1016/j.dib.2023.109576. [18] H. Q. Abonizio, E. C. Paraiso, and S. Barbon, â€œToward Text Data Augmentation for Sentiment Analysis,â€ IEEE Transactions on Artificial Intelligence, vol. 3, no. 5, pp. 657â€“668, Oct. 2022, doi: 10.1109/TAI.2021.3114390. [19] D. R. Beddiar, M. S. Jahan, and M. Oussalah, â€œData expansion using back translation and paraphrasing for hate speech detection,â€ Online Soc Netw Media, vol. 24, p. 100153, Jul. 2021, doi: 10.1016/j.osnem.2021.100153. [20] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, â€œBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,â€ Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.04805 [21] J. Tiedemann and S. Thottingal, â€œOPUS-MT-Building open translation services for the World,â€ 2020. [Online]. Available: http://opus.nlpl.eu

Downloads

Submitted

2023-11-14

Accepted

2024-01-12

Published

2024-01-16

How to Cite

[1]

L. D. Cahya, A. Luthfiarta, J. I. T. Krisna, S. Winarno, and A. Nugraha, “Improving Multi-label Classification Performance on Imbalanced Datasets Through SMOTE Technique and Data Augmentation Using IndoBERT Model”, TEKNOSI, vol. 9, no. 3, pp. 290–298, Jan. 2024.

Download Citation

Issue

Vol. 9 No. 3 (2023): Desember 2023

Section

Articles

License

Hak cipta untuk artikel ini ditransfer ke Jurnal Nasional Teknologi dan Sistem Informasi (TEKNOSI) jika dan ketika artikel diterima untuk publikasi. Yang bertanda tangan di bawah ini dengan ini mentransfer setiap dan semua hak di dalam dan ke kertas termasuk tanpa batasan semua hak cipta untuk TEKNOSI. Yang bertanda tangan di bawah ini dengan ini menyatakan dan menjamin bahwa makalah tersebut asli dan bahwa ia adalah pembuat makalah, kecuali untuk bahan yang secara jelas diidentifikasi sebagai sumber aslinya, dengan pemberitahuan izin dari pemilik hak cipta jika diperlukan. Yang bertanda tangan di bawah ini menyatakan bahwa ia memiliki kekuatan dan wewenang untuk membuat dan melaksanakan penugasan ini.

Kami menyatakan bahwa:

Makalah ini belum diterbitkan dalam bentuk yang sama di tempat lain.
Makalah ini tidak akan dikirimkan di tempat lain untuk publikasi sebelum penerimaan/penolakan oleh Jurnal ini
Izin hak cipta diperoleh untuk materi yang diterbitkan di tempat lain dan yang memerlukan izin ini untuk reproduksi.

Selanjutnya, Saya/kami dengan ini mentransfer hak publikasi yang tidak terbatas dari makalah yang disebutkan di atas secara keseluruhan kepada TEKNOSI. Transfer hak cipta mencakup hak untuk mereproduksi dan mendistribusikan artikel, termasuk cetak ulang, terjemahan, reproduksi foto, mikroform, bentuk elektronik (offline, online) atau reproduksi lain yang serupa.

Penulis yang sesuai menandatangani dan menerima tanggung jawab untuk merilis materi ini atas nama setiap dan semua penulis bersama. Perjanjian ini harus ditandatangani oleh setidaknya salah satu penulis yang telah memperoleh persetujuan dari rekan penulis jika berlaku. Setelah pengajuan perjanjian ini ditandatangani oleh penulis yang sesuai, perubahan kepengarangan atau dalam urutan penulis yang tercantum tidak akan diterima.

Hak / Syarat dan Ketentuan yang dipertahankan :

Penulis memiliki semua hak kepemilikan dalam setiap proses, prosedur, atau artikel manufaktur yang dijelaskan dalam Karya ini.
Penulis dapat mereproduksi atau mengotorisasi orang lain untuk mereproduksi karyaÂ ini atau karya turunannya untuk penggunaan pribadi penulis atau untuk penggunaan perusahaan, dengan ketentuan bahwa sumber dan menyatakan hak cipta dimiliki TEKNOSI, salinan tidak digunakan dengan cara apa pun yang menyiratkan pengesahan TEKNOSI atas suatu produk atau layanan dari pihak mana pun, dan salinannya sendiri tidak ditawarkan untuk dijual.
Meskipun penulis diizinkan untuk menggunakan kembali semua atau sebagian dari karya ini dalam karya lain, ini tidak termasuk mengabulkan permintaan pihak ketiga untuk mencetak ulang, menerbitkan ulang, atau jenis penggunaan ulang lainnya.

Improving Multi-label Classification Performance on Imbalanced Datasets Through SMOTE Technique and Data Augmentation Using IndoBERT Model

Authors

DOI:

Keywords:

Abstract

References

Downloads

Submitted

Accepted

Published

How to Cite

Issue

Section

License

Most read articles by the same author(s)

Similar Articles

SidebarMenu

Template Artikel

indexed

ISSN

SiteLink

Language

IndexedBy

License

Address:

Contact Info:

Information :