Pengembangan Korpus Bahasa Minang pada Spell Error Corpus for Minang Language (SPEML)

Penulis

  • Dewi Soyusiawaty Program Studi Informatika, Universitas Ahmad Dahlan
  • Abdul Fadlil Program Studi Teknik Elektro, Universitas Ahmad Dahlan
  • Sunardi Sunardi Program Studi Teknik Elektro, Universitas Ahmad Dahlan

DOI:

https://doi.org/10.25077/TEKNOSI.v11i01.2025.17-26

Kata Kunci:

Bahasa Minang, Kesalahan Ejaan, Korpus, Kesalahan, SPECIL, SPEML

Abstrak

Bahasa Minang merupakan bahasa daerah kelima dengan jumlah penutur terbanyak di Indonesia, namun minim sumber daya linguistik dan teknologi pemrosesan bahasa alami yang mendukung.  Keterbatasan ini menyulitkan pengembangan aplikasi seperti mesin penerjemah dan pemeriksa ejaan otomatis.  Saat ini hanya tersedia korpus kesalahan ejaan dalam Bahasa Indonesia dengan kesalahan hanya satu karakter pada setiap token.  Korpus belum mencakup kesalahan penulisan kata serapan.  Selain itu belum ada korpus khusus yang dikembangkan untuk kesalahan ejaan dalam bahasa daerah di Indonesia, termasuk Bahasa Minang.  Penelitian ini bertujuan mengembangkan korpus kesalahan ejaan Bahasa Minang, yang dinamakan Spell Error Corpus for Minang Language (SPEML).  SPEML mencakup kesalahan ejaan sampai dengan tiga karakter dan kesalahan penulisan kata serapan.  Pengembangan SPEML melibatkan proses pengumpulan data korpus Bahasa Minang, data kata serapan yang sering digunakan, serta pembentukan korpus kesalahan ejaan.  Kesalahan ejaan dibentuk dengan mengacak token secara sistematis pada satu karakter, dua karakter, hingga tiga karakter, disesuaikan dengan panjang token. Hasil penelitian ini berupa SPEML yang mampu mengklasifikasikan tujuh jenis kesalahan ejaan, yaitu: penyisipan karakter, penghapusan karakter, pindah posisi karakter, penggantian karakter, kesalahan tanda baca, kesalahan kata nyata, dan kesalahan penulisan kata serapan. Pengembangan SPEML menjadi langkah awal dalam mendukung pengembangan teknologi pemrosesan bahasa alami untuk bahasa daerah, khususnya Bahasa Minang.

Biografi Penulis

Abdul Fadlil, Program Studi Teknik Elektro, Universitas Ahmad Dahlan

Abdul Fadlil adalah Guru Besar di Program Studi Teknik Elektro, Fakultas Teknologi Industri, Universitas Ahmad Dahlan.  Bidang keahliannya meliputi Elektronika & Instrumentasi, Pemrosesan Sinyal dan Sistem Cerdas.

Sunardi Sunardi, Program Studi Teknik Elektro, Universitas Ahmad Dahlan

Sunardi adalah Guru Besar di Program Studi Teknik Elektro, Fakultas Teknologi Industri, Universitas Ahmad Dahlan.  Bidang keahliannya meliputi Teori Informasi, Sistem Komunikasi, dan Komunikasi Data.

Referensi

G. Indra Winata et al., “NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages.” [Online]. Available: https://github.com/

K. P. dan K. Badan Pengembangan Bahasa dan Perbukuan, “Bahasa dan Peta Bahasa di Indonesia,” https://petabahasa.kemdikbud.go.id/index.php.

S. Raharjo, E. Utami, M. Yusa, and E. Sutanta, “Systematic Literature Review: Corpus Linguistics in Indonesia,” in Communications in Computer and Information Science, Springer Science and Business Media Deutschland GmbH, 2022, pp. 370–377. doi: 10.1007/978-3-031-06417-3_50.

J. A. Lopo and R. Tanone, “Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages,” Apr. 2024, [Online]. Available: http://arxiv.org/abs/2404.01009

W. Wongso, A. Joyoadikusumo, B. S. Buana, and D. Suhartono, “Many-to-Many Multilingual Translation Model for Languages of Indonesia,” IEEE Access, vol. 11, pp. 91385–91397, 2023, doi: 10.1109/ACCESS.2023.3308818.

R. Sovia, S. Defit, and Yuhandri, “Development of the Minangkabau Local Language Translation Machine Based on Stemming,” in Proceeding - 2022 International Symposium on Information Technology and Digital Innovation: Technology Innovation During Pandemic, ISITDI 2022, Institute of Electrical and Electronics Engineers Inc., 2022, pp. 195–198. doi: 10.1109/ISITDI55734.2022.9944457.

A. Ayub et al., “Tata Bahasa Minangkabau,” p. 234, 1993.

Y. M. Altameemi, “State-of-the-Art Review of the Corpus Linguistics Field From the Beginning Until the Development of ChatGPT,” Theory and Practice in Language Studies, vol. 14, no. 2, pp. 423–431, Feb. 2024, doi: 10.17507/tpls.1402.13.

J. A. Lopo and R. Tanone, “Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages,” Apr. 2024, [Online]. Available: http://arxiv.org/abs/2404.01009

Y. Yanfi, F. L. Gaol, B. Soewito, and H. L. H. S. Warnars, “Spell Checker for the Indonesian Language: ExtensiveReview,” International Journal of Emerging Technology and Advanced Engineering, vol. 12, no. 5, pp. 1–7, May 2022, doi: 10.46338/ijetae0522_01.

D. A. Kwary, “A corpus platform of Indonesian academic language,” SoftwareX, vol. 9, pp. 102–106, Jan. 2019, doi: 10.1016/j.softx.2019.01.011.

S. Raharjo, E. Utami, M. Yusa, and E. Sutanta, “Systematic Literature Review: Corpus Linguistics in Indonesia,” in Communications in Computer and Information Science, Springer Science and Business Media Deutschland GmbH, 2022, pp. 370–377. doi: 10.1007/978-3-031-06417-3_50.

X. Pan, B. Zhang, J. May, J. Nothman, K. Knight, and H. Ji, “Cross-lingual name tagging and linking for 282 languages,” in ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers), Association for Computational Linguistics (ACL), 2017, pp. 1946–1958. doi: 10.18653/v1/P17-1178.

M. O. Ibrohim and I. Budi, “Hate speech and abusive language detection in Indonesian social media: Progress and challenges,” Aug. 01, 2023, Elsevier Ltd. doi: 10.1016/j.heliyon.2023.e18647.

F. Koto and I. Koto, “Towards Computational Linguistics in Minangkabau Language: Studies on Sentiment Analysis and Machine Translation.” [Online]. Available: https://id.wikimedia.org/wiki/

O. V. Putra, F. M. Wasmanson, T. Harmini, and S. N. Utama, “Sundanese Twitter Dataset for Emotion Classification,” in CENIM 2020 - Proceeding: International Conference on Computer Engineering, Network, and Intelligent Multimedia 2020, Institute of Electrical and Electronics Engineers Inc., Nov. 2020, pp. 391–395. doi: 10.1109/CENIM51130.2020.9297929.

N. Ifada, F. H. Rachman, M. W. M. A. Syauqy, S. Wahyuni, and A. Pawitra, “MadureseSet: Madurese-Indonesian Dataset,” Data Brief, vol. 48, Jun. 2023, doi: 10.1016/j.dib.2023.109035.

A. Mohammed Saleh Al-Hamzi, A. Gougui, Y. Sari Amalia, and T. Suhardijanto, “Corpus Linguistics and Corpus-Based Research and its Implication in Applied Linguistics: A Systematic Review,” Parole: Journal of Linguistics and Education, vol. 10, no. 2, pp. 2020–176, 2020.

Y. Yanfi, R. Setiawan, H. Soeparno, and W. Budiharto, “SPECIL: Spell Error Corpus for the Indonesian Language,” IEEE Access, vol. 11, pp. 93227–93237, 2023, doi: 10.1109/ACCESS.2023.3307712.

Y. Yanfi, R. Setiawan, H. Soeparno, and W. Budiharto, “Comparison of Spelling Error Correction Algorithms for the Indonesian Language,” in 2023 11th International Conference on Information and Education Technology, ICIET 2023, Institute of Electrical and Electronics Engineers Inc., 2023, pp. 443–447. doi: 10.1109/ICIET56899.2023.10111191.

“2021-ACM-A Framework for Indonesian Grammar Error Correction”.

D. A. Anggoro and I. Nurfadilah, “Active Verb Spell Checking Mem- + P in Indonesian Language Using the Jaro-Winkler Distance Algorithm,” Iraqi Journal of Science, vol. 63, no. 4, pp. 1811–1822, 2022, doi: 10.24996/ijs.2022.63.4.38.

“Pembangunan Aplikasi Identifikasi Kesalahan Ketik Jaro Winkler Distance”.

A. Amalia, O. S. Sitompul, T. Mantoro, and E. B. Nababan, “Morpheme Embedding for Bahasa Indonesia Using Modified Byte Pair Encoding,” IEEE Access, vol. 9, pp. 155699–155710, 2021, doi: 10.1109/ACCESS.2021.3128439.

F. Rahman, S. Kurniati, and Nova Rina, “Basis Data Leksikal: Perubahan Bunyi Bahasa Minangkabau Isolek Sangir Jujuan,” Linguistik Indonesia, vol. 42, no. 1, pp. 185–198, 2024, doi: 10.26499/li.v42i1.572.

H. Priyatman, M. Saleh, and H. Sujaini, “Analisis Akurasi Algoritma Extended Word Similarity Based Clustering (EWSB) pada Mesin Penerjemah Bahasa Indonesia-Minang,” Jurnal Edukasi dan Penelitian Informatika (JEPIN), vol. 6, no. 3, p. 323, 2020, doi: 10.26418/jp.v6i3.43330.

Unduhan

Telah diserahkan

21-12-2024

Diterima

23-04-2025

Diterbitkan

30-04-2025

Cara Mengutip

[1]
D. Soyusiawaty, A. Fadlil, dan S. Sunardi, “Pengembangan Korpus Bahasa Minang pada Spell Error Corpus for Minang Language (SPEML)”, TEKNOSI, vol. 11, no. 01, hlm. 17–26, Apr 2025.

Terbitan

Bagian

Articles

Artikel Serupa

<< < 1 2 3 4 

Anda juga bisa Mulai pencarian similarity tingkat lanjut untuk artikel ini.