Perbandingan Metode Seleksi Fitur Chi-Square dan Information Gain untuk Peningkatan Interpretabilitas dan Optimasi Kinerja Model TabNet

Penulis

  • Annisa Ratna Salsabilla Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro
  • Ramadhan Rakhmat Sani Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro
  • Ika Novita Dewi Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro

DOI:

https://doi.org/10.25077/TEKNOSI.v11i3.2025.253-262

Kata Kunci:

Kanker Payudara, TabNet, Chi-Square, Information Gain, Optuna

Abstrak

Kanker payudara merupakan salah satu masalah kesehatan global yang paling signifikan. Untuk membantu diagnosis dini, pendekatan machine learning menawarkan potensi untuk menganalisis data klinis secara akurat. Namun, model machine learning konvensional seringkali memiliki keterbatasan dalam memodelkan hubungan non-linear yang kompleks pada data medis, yang dapat membatasi akurasi prediktif. Penelitian ini menggunakan arsitektur deep learning karena kemampuannya dalam memodelkan hubungan non-linear yang kompleks. Secara spesifik, model TabNet dipilih karena dirancang untuk data tabular dan menawarkan interpretabilitas lebih baik. Penelitian ini menggunakan dataset publik Wisconsin Diagnostic Breast Cancer (WDBC) dengan 30 fitur dan distribusi kelas tidak seimbang, sehingga memerlukan seleksi fitur untuk menangani data berdimensi tinggi dan SMOTE-ENN untuk penyeimbangan kelas. Dua metode seleksi fitur, Chi-Square dan Information Gain, dibandingkan untuk menentukan pendekatan paling efektif. Untuk memastikan performa optimal, optimasi hiperparameter dilakukan menggunakan Optuna dan divalidasi dengan Stratified K-Fold Cross-Validation. Hasil eksperimen menunjukkan bahwa seleksi fitur dan optimasi secara signifikan meningkatkan kinerja. Model dasar dengan seleksi fitur Chi-Square menghasilkan akurasi 64.91%. Sedangkan model Chi-Square dengan optimasi Optuna meningkatkan akurasi sebesar 98.25%. Peningkatan ini juga lebih tinggi 3.51% dibandingkan dengan model yang dioptimalkan tanpa seleksi fitur dengan akurasi 94.74%. Dalam perbandingan akhir, kedua metode menunjukkan keunggulan berbeda yaitu Chi-Square (75% fitur) unggul dalam presisi 100% dan waktu komputasi lebih efisien, sementara Information Gain (75% fitur) menjadi satu-satunya yang mencapai recall 100%, yang krusial untuk meminimalkan false negative. Temuan ini menunjukkan bahwa pilihan metode optimal bersifat kontekstual. Information Gain unggul untuk sensitivitas diagnostik maksimal, sementara Chi-Square lebih unggul untuk keseimbangan performa dan efisiensi.

Referensi

F. Brayl., “Global cancer statistics 2022 GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries,” CA. Cancer J. Clin., vol. 74, pp. 229–263, May 2024, doi: 10.3322/caac.21834.

M. Fu, Z. Peng, M. Wu, D. Lv, Y. Li, and S. Lyu, “Current and future burden of breast cancer in Asia A GLOBOCAN data analysis for 2022 and 2050,” Breast, vol. 79, no. May 2024, p. 103835, 2025, doi: 10.1016/j.breast.2024.103835.

L. Pratiwi, A. Ambarsari, B. Fajri, and W. Mariyana

W. Gautama, “Breast Cancer in Indonesia in 2022: 30 Years of Marching in Place,” Indones. J. Cancer, vol. 16, no. 1, p. 1, 2022, doi: 10.33371/ijoc.v16i1.920.

T. S. and R. P. P. Tumuluru, C. P. Lakshmi, “A Review of Machine Learning Techniques for Breast Cancer Diagnosis in Medical Applications,” 2019 Third Int. Conf. I-SMAC (IoT Soc. Mobile, Anal. Cloud), vol. 11, no. 113, pp. 13–21, 2019.

W. S. W. Wolberg, O. Mangasarian, N. Street, “Breast Cancer Wisconsin (Diagnostic).” UCI Machine Learning Repository, 1993. [Online]. Available: https://doi.org/10.24432/C5DW2B.

H. Chen, N. Wang, X. Du, K. Mei, Y. Zhou, and G. Cai, “Classification Prediction of Breast Cancer Based on Machine Learning,” Comput. Intell. Neurosci., vol. 2023, no. 1, 2023, doi: 10.1155/2023/6530719.

S. Ara, A. Das, and A. Dey, “Malignant and Benign Breast Cancer Classification using Machine Learning Algorithms,” 2021 Int. Conf. Artif. Intell. ICAI 2021, pp. 97–101, 2021, doi: 10.1109/ICAI52203.2021.9445249.

M. A. A. Albadr, M. Ayob, S. Tiun, F. T. AL-Dhief, A. Arram, and S. Khalaf, “Breast cancer diagnosis using the fast learning network algorithm,” Front. Oncol., vol. 13, no. April, pp. 1–16, 2023, doi: 10.3389/fonc.2023.1150840.

S. Zhou, C. Hu, S. Wei, and X. Yan, “Breast Cancer Prediction Based on Multiple Machine Learning Algorithms,” Technol. Cancer Res. Treat., vol. 23, 2024, doi: 10.1177/15330338241234791.

C. Shah, Q. Du, and Y. Xu, “Enhanced TabNet: Attentive Interpretable Tabular Learning for Hyperspectral Image Classification,” Remote Sens., vol. 14, no. 3, pp. 1–21, 2022, doi: 10.3390/rs14030716.

J. Si, W. Y. Cheng, M. Cooper, and R. G. Krishnan, “InterpreTabNet: Distilling Predictive Signals from Tabular Data by Salient Feature Interpretation,” in Proceedings of Machine Learning Research, ML Research Press, 2024, pp. 45353–45405.

K. Qu, J. Xu, Q. Hou, K. Qu, and Y. Sun, “Feature selection using Information Gain and decision information in neighborhood decision system,” Appl. Soft Comput., vol. 136, p. 110100, 2023, doi: 10.1016/j.asoc.2023.110100.

K. Kanti Ghosh et al., “Theoretical and empirical analysis of filter ranking methods: Experimental study on benchmark DNA microarray data,” Expert Syst. Appl., vol. 169, no. May 2020, p. 114485, 2021, doi: 10.1016/j.eswa.2020.114485.

I. Chhillar and A. Singh, “An improved soft voting-based machine learning technique to detect breast cancer utilizing effective feature selection and SMOTE-ENN class balancing,” Discov. Artif. Intell., vol. 5, no. 1, 2025, doi: 10.1007/s44163-025-00224-w.

M. Bahrami, M. Vali, and H. Kia, “Breast Cancer Detection from Imbalanced Clinical Data: A Comparative Study of Sampling Methods,” 2023 30th Natl. 8th Int. Iran. Conf. Biomed. Eng. ICBME 2023, no. December, pp. 145–149, 2023, doi: 10.1109/ICBME61513.2023.10488624.

R. Bhuvanya, T. Kujani, S. Manoj Kumaran, and N. Lokesh Kumar, “OptNet: Innovative Model for Early Lung Cancer Diagnosis integrating TabNet and Optuna,” IEEE Int. Conf. Electron. Syst. Intell. Comput. ICESIC 2024 - Proc., pp. 174–179, 2024, doi: 10.1109/ICESIC61777.2024.10846378.

A. Rahmadeyan and M. Mustakim, “Seleksi Fitur pada Supervised Learning: Klasifikasi Prestasi Belajar Mahasiswa Saat dan Pasca Pandemi COVID-19,” J. Nas. Teknol. dan Sist. Inf., vol. 9, no. 1, pp. 21–32, 2023, doi: 10.25077/teknosi.v9i1.2023.21-32.

H. I. Mun and W. Son, “Properties of chi-square statistic and information gain for feature selection of imbalanced text data,” Korean J. Appl. Stat., vol. 35, no. 4, pp. 469–484, 2022, doi: 10.5351/kjas.2022.35.4.469.

V. Borisov, T. Leemann, K. Sebler, J. Haug, M. Pawelczyk, and G. Kasneci, “Deep Neural Networks and Tabular Data: A Survey,” IEEE Trans. Neural Networks Learn. Syst., vol. 35, no. 6, pp. 7499–7519, 2024, doi: 10.1109/TNNLS.2022.3229161.

S. Ank and T. Pfister, “TabNet Attentive Interpretable Tabular Learning,” 35th AAAI Conf. Artif. Intell. AAAI 2021, vol. 8A, pp. 6679–6687, 2021, doi: 10.1609/aaai.v35i8.16826.

M. F. Amin, “Confusion matrix in three-class classification problems: A step-by-step tutorial,” J. Eng. Res., vol. 6, no. 5, 2023, [Online]. Available: https://erjeng.journals.ekb.eg/article_296718_30a98aac15193d04dc73ba9bc00cf046.pdf

Unduhan

Telah diserahkan

18-10-2025

Diterima

18-12-2025

Diterbitkan

28-12-2025

Cara Mengutip

[1]
A. R. Salsabilla, R. R. Sani, dan I. N. Dewi, “Perbandingan Metode Seleksi Fitur Chi-Square dan Information Gain untuk Peningkatan Interpretabilitas dan Optimasi Kinerja Model TabNet”, TEKNOSI, vol. 11, no. 3, hlm. 253–262, Des 2025.

Terbitan

Bagian

Articles

Artikel Serupa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 > >> 

Anda juga bisa Mulai pencarian similarity tingkat lanjut untuk artikel ini.