Pengembangan Korpus Bahasa Minang pada Spell Error Corpus for Minang Language (SPEML)
DOI:
https://doi.org/10.25077/TEKNOSI.v11i01.2025.17-26Keywords:
Bahasa Minang, Kesalahan Ejaan, Korpus, Kesalahan, SPECIL, SPEMLAbstract
Bahasa Minang merupakan bahasa daerah kelima dengan jumlah penutur terbanyak di Indonesia, namun minim sumber daya linguistik dan teknologi pemrosesan bahasa alami yang mendukung. Keterbatasan ini menyulitkan pengembangan aplikasi seperti mesin penerjemah dan pemeriksa ejaan otomatis. Saat ini hanya tersedia korpus kesalahan ejaan dalam Bahasa Indonesia dengan kesalahan hanya satu karakter pada setiap token. Korpus belum mencakup kesalahan penulisan kata serapan. Selain itu belum ada korpus khusus yang dikembangkan untuk kesalahan ejaan dalam bahasa daerah di Indonesia, termasuk Bahasa Minang. Penelitian ini bertujuan mengembangkan korpus kesalahan ejaan Bahasa Minang, yang dinamakan Spell Error Corpus for Minang Language (SPEML). SPEML mencakup kesalahan ejaan sampai dengan tiga karakter dan kesalahan penulisan kata serapan. Pengembangan SPEML melibatkan proses pengumpulan data korpus Bahasa Minang, data kata serapan yang sering digunakan, serta pembentukan korpus kesalahan ejaan. Kesalahan ejaan dibentuk dengan mengacak token secara sistematis pada satu karakter, dua karakter, hingga tiga karakter, disesuaikan dengan panjang token. Hasil penelitian ini berupa SPEML yang mampu mengklasifikasikan tujuh jenis kesalahan ejaan, yaitu: penyisipan karakter, penghapusan karakter, pindah posisi karakter, penggantian karakter, kesalahan tanda baca, kesalahan kata nyata, dan kesalahan penulisan kata serapan. Pengembangan SPEML menjadi langkah awal dalam mendukung pengembangan teknologi pemrosesan bahasa alami untuk bahasa daerah, khususnya Bahasa Minang.References
G. Indra Winata et al., “NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages.” [Online]. Available: https://github.com/
K. P. dan K. Badan Pengembangan Bahasa dan Perbukuan, “Bahasa dan Peta Bahasa di Indonesia,” https://petabahasa.kemdikbud.go.id/index.php.
S. Raharjo, E. Utami, M. Yusa, and E. Sutanta, “Systematic Literature Review: Corpus Linguistics in Indonesia,” in Communications in Computer and Information Science, Springer Science and Business Media Deutschland GmbH, 2022, pp. 370–377. doi: 10.1007/978-3-031-06417-3_50.
J. A. Lopo and R. Tanone, “Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages,” Apr. 2024, [Online]. Available: http://arxiv.org/abs/2404.01009
W. Wongso, A. Joyoadikusumo, B. S. Buana, and D. Suhartono, “Many-to-Many Multilingual Translation Model for Languages of Indonesia,” IEEE Access, vol. 11, pp. 91385–91397, 2023, doi: 10.1109/ACCESS.2023.3308818.
R. Sovia, S. Defit, and Yuhandri, “Development of the Minangkabau Local Language Translation Machine Based on Stemming,” in Proceeding - 2022 International Symposium on Information Technology and Digital Innovation: Technology Innovation During Pandemic, ISITDI 2022, Institute of Electrical and Electronics Engineers Inc., 2022, pp. 195–198. doi: 10.1109/ISITDI55734.2022.9944457.
A. Ayub et al., “Tata Bahasa Minangkabau,” p. 234, 1993.
Y. M. Altameemi, “State-of-the-Art Review of the Corpus Linguistics Field From the Beginning Until the Development of ChatGPT,” Theory and Practice in Language Studies, vol. 14, no. 2, pp. 423–431, Feb. 2024, doi: 10.17507/tpls.1402.13.
J. A. Lopo and R. Tanone, “Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages,” Apr. 2024, [Online]. Available: http://arxiv.org/abs/2404.01009
Y. Yanfi, F. L. Gaol, B. Soewito, and H. L. H. S. Warnars, “Spell Checker for the Indonesian Language: ExtensiveReview,” International Journal of Emerging Technology and Advanced Engineering, vol. 12, no. 5, pp. 1–7, May 2022, doi: 10.46338/ijetae0522_01.
D. A. Kwary, “A corpus platform of Indonesian academic language,” SoftwareX, vol. 9, pp. 102–106, Jan. 2019, doi: 10.1016/j.softx.2019.01.011.
S. Raharjo, E. Utami, M. Yusa, and E. Sutanta, “Systematic Literature Review: Corpus Linguistics in Indonesia,” in Communications in Computer and Information Science, Springer Science and Business Media Deutschland GmbH, 2022, pp. 370–377. doi: 10.1007/978-3-031-06417-3_50.
X. Pan, B. Zhang, J. May, J. Nothman, K. Knight, and H. Ji, “Cross-lingual name tagging and linking for 282 languages,” in ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers), Association for Computational Linguistics (ACL), 2017, pp. 1946–1958. doi: 10.18653/v1/P17-1178.
M. O. Ibrohim and I. Budi, “Hate speech and abusive language detection in Indonesian social media: Progress and challenges,” Aug. 01, 2023, Elsevier Ltd. doi: 10.1016/j.heliyon.2023.e18647.
F. Koto and I. Koto, “Towards Computational Linguistics in Minangkabau Language: Studies on Sentiment Analysis and Machine Translation.” [Online]. Available: https://id.wikimedia.org/wiki/
O. V. Putra, F. M. Wasmanson, T. Harmini, and S. N. Utama, “Sundanese Twitter Dataset for Emotion Classification,” in CENIM 2020 - Proceeding: International Conference on Computer Engineering, Network, and Intelligent Multimedia 2020, Institute of Electrical and Electronics Engineers Inc., Nov. 2020, pp. 391–395. doi: 10.1109/CENIM51130.2020.9297929.
N. Ifada, F. H. Rachman, M. W. M. A. Syauqy, S. Wahyuni, and A. Pawitra, “MadureseSet: Madurese-Indonesian Dataset,” Data Brief, vol. 48, Jun. 2023, doi: 10.1016/j.dib.2023.109035.
A. Mohammed Saleh Al-Hamzi, A. Gougui, Y. Sari Amalia, and T. Suhardijanto, “Corpus Linguistics and Corpus-Based Research and its Implication in Applied Linguistics: A Systematic Review,” Parole: Journal of Linguistics and Education, vol. 10, no. 2, pp. 2020–176, 2020.
Y. Yanfi, R. Setiawan, H. Soeparno, and W. Budiharto, “SPECIL: Spell Error Corpus for the Indonesian Language,” IEEE Access, vol. 11, pp. 93227–93237, 2023, doi: 10.1109/ACCESS.2023.3307712.
Y. Yanfi, R. Setiawan, H. Soeparno, and W. Budiharto, “Comparison of Spelling Error Correction Algorithms for the Indonesian Language,” in 2023 11th International Conference on Information and Education Technology, ICIET 2023, Institute of Electrical and Electronics Engineers Inc., 2023, pp. 443–447. doi: 10.1109/ICIET56899.2023.10111191.
“2021-ACM-A Framework for Indonesian Grammar Error Correction”.
D. A. Anggoro and I. Nurfadilah, “Active Verb Spell Checking Mem- + P in Indonesian Language Using the Jaro-Winkler Distance Algorithm,” Iraqi Journal of Science, vol. 63, no. 4, pp. 1811–1822, 2022, doi: 10.24996/ijs.2022.63.4.38.
“Pembangunan Aplikasi Identifikasi Kesalahan Ketik Jaro Winkler Distance”.
A. Amalia, O. S. Sitompul, T. Mantoro, and E. B. Nababan, “Morpheme Embedding for Bahasa Indonesia Using Modified Byte Pair Encoding,” IEEE Access, vol. 9, pp. 155699–155710, 2021, doi: 10.1109/ACCESS.2021.3128439.
F. Rahman, S. Kurniati, and Nova Rina, “Basis Data Leksikal: Perubahan Bunyi Bahasa Minangkabau Isolek Sangir Jujuan,” Linguistik Indonesia, vol. 42, no. 1, pp. 185–198, 2024, doi: 10.26499/li.v42i1.572.
H. Priyatman, M. Saleh, and H. Sujaini, “Analisis Akurasi Algoritma Extended Word Similarity Based Clustering (EWSB) pada Mesin Penerjemah Bahasa Indonesia-Minang,” Jurnal Edukasi dan Penelitian Informatika (JEPIN), vol. 6, no. 3, p. 323, 2020, doi: 10.26418/jp.v6i3.43330.
Downloads
Submitted
Accepted
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Jurnal Nasional dan Sistem Informasi

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Hak cipta untuk artikel ini ditransfer ke Jurnal Nasional Teknologi dan Sistem Informasi (TEKNOSI) jika dan ketika artikel diterima untuk publikasi. Yang bertanda tangan di bawah ini dengan ini mentransfer setiap dan semua hak di dalam dan ke kertas termasuk tanpa batasan semua hak cipta untuk TEKNOSI. Yang bertanda tangan di bawah ini dengan ini menyatakan dan menjamin bahwa makalah tersebut asli dan bahwa ia adalah pembuat makalah, kecuali untuk bahan yang secara jelas diidentifikasi sebagai sumber aslinya, dengan pemberitahuan izin dari pemilik hak cipta jika diperlukan. Yang bertanda tangan di bawah ini menyatakan bahwa ia memiliki kekuatan dan wewenang untuk membuat dan melaksanakan penugasan ini.
Kami menyatakan bahwa:
- Makalah ini belum diterbitkan dalam bentuk yang sama di tempat lain.
- Makalah ini tidak akan dikirimkan di tempat lain untuk publikasi sebelum penerimaan/penolakan oleh Jurnal ini
- Izin hak cipta diperoleh untuk materi yang diterbitkan di tempat lain dan yang memerlukan izin ini untuk reproduksi.
Selanjutnya, Saya/kami dengan ini mentransfer hak publikasi yang tidak terbatas dari makalah yang disebutkan di atas secara keseluruhan kepada TEKNOSI. Transfer hak cipta mencakup hak untuk mereproduksi dan mendistribusikan artikel, termasuk cetak ulang, terjemahan, reproduksi foto, mikroform, bentuk elektronik (offline, online) atau reproduksi lain yang serupa.
Penulis yang sesuai menandatangani dan menerima tanggung jawab untuk merilis materi ini atas nama setiap dan semua penulis bersama. Perjanjian ini harus ditandatangani oleh setidaknya salah satu penulis yang telah memperoleh persetujuan dari rekan penulis jika berlaku. Setelah pengajuan perjanjian ini ditandatangani oleh penulis yang sesuai, perubahan kepengarangan atau dalam urutan penulis yang tercantum tidak akan diterima.
Hak / Syarat dan Ketentuan yang dipertahankan :
- Penulis memiliki semua hak kepemilikan dalam setiap proses, prosedur, atau artikel manufaktur yang dijelaskan dalam Karya ini.
- Penulis dapat mereproduksi atau mengotorisasi orang lain untuk mereproduksi karya ini atau karya turunannya untuk penggunaan pribadi penulis atau untuk penggunaan perusahaan, dengan ketentuan bahwa sumber dan menyatakan hak cipta dimiliki TEKNOSI, salinan tidak digunakan dengan cara apa pun yang menyiratkan pengesahan TEKNOSI atas suatu produk atau layanan dari pihak mana pun, dan salinannya sendiri tidak ditawarkan untuk dijual.
- Meskipun penulis diizinkan untuk menggunakan kembali semua atau sebagian dari karya ini dalam karya lain, ini tidak termasuk mengabulkan permintaan pihak ketiga untuk mencetak ulang, menerbitkan ulang, atau jenis penggunaan ulang lainnya.