Pra-Anotasi pada Model BioBERT untuk Pengenalan Entitas Bernama Laporan Radiologi Klinis Bahasa Indonesia
DOI:
https://doi.org/10.25077/TEKNOSI.v11i3.2025.387-397Kata Kunci:
Pengenalan, Entitas, Bernama, Klinis, NER, Laporan, Radiologi, Ontologi, RadLex, Pra-Anotasi, Validasi, Manusia, BioBERTAbstrak
Penelitian ini menekankan pada teknik pra-anotasi untuk pengembangan model Named Entity Recognition ( NER ) dalam domain medis, khususnya pada laporan radiologi hati. Salah satu kendala utama dalam pengembangan model Named Entity Recognition ( NER) adalah terbatasnya ketersediaan data beranotasi. Tantangan ini semakin kompleks ketika di hadapkan dengan skema anotasi yang di implementasikan pada data privat. Untuk menangani hal tersebut, penelitian ini mengusulkan metode pendekatan penyusunan dataset Named Entity Recognition ( NER ) yang berkualitas guna meningkatkan performa model. Proses penelitian di mulai dengan pembuatan silver corpus melalui proses pra-anotasi semi otomatis. Pada tahap ini dimulai dengan pembersihan data laporan radiologi, kemudian tahap selanjutnya memasukkan data yang telah di bersihkan ke dalam kamus terminologi medis ( Radlex ) untuk memetakan dan memberi label pada entitas medis yang relevan. Hasil anotasi terminologi medis tersebut kemudian divalidasi untuk menghasilkan gold corpus sebagai data anotasi final. Untuk mengukur kinerja pendekatan ini, dilakukan perbandingan anatara performa model BioBERT yang telah di fine-tune menggunakan hasil anotasi melalui tahap dari skema yang diusulkan dan model yang dilatih menggunakan data hasil anotasi manual melalui Label Studio. Hasil eksperimen menunjukkan bahwa model yang dilatih menggunakan korpus pre-anotasi Radlex memberikan peningkatan performa 45% dibandingkan dengan anotasi manual, sekaligus menghasilkan efesiensi waktu dalam proses pengerjaan.Referensi
D. Fraile Navarro et al., “Clinical named entity recognition and relation extraction using natural language processing of medical free text: A systematic review,” International Journal of Medical Informatics, vol. 177. Elsevier Ireland Ltd, Sep. 01, 2023. doi: 10.1016/j.ijmedinf.2023.105122.
Z. D. Eka Putra and D. W. Utomo, “Penerapan Deep Learning dengan Mekanisme Attention untuk Meningkatkan Performa Segmentasi Liver dan Tumor pada Citra CT Menggunakan ResUnet,” Jurnal Nasional Teknologi dan Sistem Informasi, vol. 10, no. 3, pp. 231–239, Jan. 2025, doi: 10.25077/teknosi.v10i3.2024.231-239.
G. H. B. Andrade, S. Yada, and E. Aramaki, “Is Boundary Annotation Necessary? Evaluating Boundary-Free Approaches to Improve Clinical Named Entity Annotation Efficiency: Case Study,” JMIR Medical Informatics, vol. 12, 2024, doi: 10.2196/59680.
S. Silvestri, F. Gargiulo, and M. Ciampi, “Iterative Annotation of Biomedical NER Corpora with Deep Neural Networks and Knowledge Bases,” Applied Sciences (Switzerland), vol. 12, no. 12, Jun. 2022, doi: 10.3390/app12125775.
A. Penelitian, D. Soyusiawaty, A. Fadlil, A. Dahlan, and R. Selatan, “Jurnal Nasional Teknologi dan Sistem Informasi Attribution-ShareAlike 4.0 International Some rights reserved Pengembangan Korpus Bahasa Minang pada Spell Error Corpus for Minang Language (SPEML)”, doi: 10.25077/TEKNOSI.v11i1.2025.17-26.
P. H. Brekke, T. Rama, I. Pilán, Ø. Nytrø, and L. Øvrelid, “Synthetic data for annotation and extraction of family history information from clinical text,” Journal of Biomedical Semantics, vol. 12, no. 1, Dec. 2021, doi: 10.1186/s13326-021-00244-2.
W. Lau, K. Lybarger, M. L. Gunn, M. B. Chb, and M. Yetisgen, “Event-based clinical findings extraction from radiology reports with pre-trained language model.”[Online]. Available: https://github.com/wilsonlau-uw/BERT-EE
A. Sylolypavan, D. Sleeman, H. Wu, and M. Sim, “The impact of inconsistent human annotations on AI driven clinical decision making,” npj Digital Medicine, vol. 6, no. 1, Dec. 2023, doi: 10.1038/s41746-023-00773-3.
P. Parjono and S. Kusumadewi, “Pemodelan Text Mining dalam Pengkodean Penyakit Pasien Berdasar Kode ICD 10,” Jurnal Nasional Teknologi dan Sistem Informasi, vol. 9, no. 2, pp. 200–207, Sep. 2023, doi: 10.25077/teknosi.v9i2.2023.200-207.
G. Bernier-Colborne and S. Vajjala, “Annotation Errors and NER: A Study with OntoNotes 5.0,” Jun. 2024, [Online]. Available: http://arxiv.org/abs/2406.19172
L. Liu et al., “Web-Based Application Based on Human-in-the-Loop Deep Learning for Deidentifying Free-Text Data in Electronic Medical Records: Development and Usability Study,” Interactive Journal of Medical Research, vol. 12, p. e46322, Aug. 2023, doi: 10.2196/46322.
S. Datta, J. Godfrey-Stovall, and K. Roberts, “RadLex Normalization in Radiology Reports.” [Online]. Available: http://alt.qcri.org/semeval2014/task7/
S. Tsuji, A. Wen, N. Takahashi, H. Zhang, K. Ogasawara, and G. Jiang, “Developing a RadLex-based named entity recognition tool for mining textual radiology reports:development and performance evaluation study,” Journal of Medical Internet Research, vol. 23, no. 10, Oct. 2021, doi: 10.2196/25378.
A. Miranda-Escalada, A. Gonzalez-Agirre, J. Armengol-Estapé, and M. Krallinger, “Overview of automatic clinical coding: annotations, guidelines, and solutions for non-English clinical cases at CodiEsp track of CLEF eHealth 2020.” [Online]Available:https://www.who.int/classifications/icd/icdonlineversions/en/
M. Marquis, I. Bossenko, and P. Ross, “RadLex and SNOMED CT integration: a pilot study for standardising radiology classification,” Insights into Imaging, vol. 16, no. 1, Dec. 2025, doi: 10.1186/s13244-025-01935-5.
D. Li et al., “Performance and Agreement When Annotating Chest X-ray Text Reports—A Preliminary Step in the Development of a Deep Learning-Based Prioritization and Detection System,” Diagnostics, vol. 13, no. 6, Mar. 2023, doi: 10.3390/diagnostics13061070.
J.-B. Delbrouck et al., “RadGraph-XL: A Large-Scale Expert-Annotated Dataset for Entity and Relation Extraction from Radiology Reports.” [Online]. Available: https://github.com/Stanford-AIMI/radgraph-XL
Y. Zhu, Y. Ye, M. Li, J. Zhang, and O. Wu, “Investigating annotation noise for named entity recognition,” Neural Computing and Applications, vol. 35, no. 1, pp. 993–1007, 2023, doi: 10.1007/s00521-022-07733-0.
M. Mikulova, M. Straka, J. Stepanek, B. Stepankova, and J. Hajic, “Quality and Efficiency of Manual Annotation: Pre-annotation Bias,” Jun. 2023, [Online]. Available: http://arxiv.org/abs/2306.09307
H. A. Xu, V. Loftsson, B. Kulynych, B. Kaabachi, and J. L. Raisaro, “Accelerating Clinical Text Annotation in Underrepresented Languages: A Case Study on Text De-Identification,” in Studies in Health Technology and Informatics, IOS Press BV, Aug. 2024, pp. 853–857. doi: 10.3233/SHTI240546.
M. Syed et al., “DeIDNER corpus: Annotation of clinical discharge summary notes for named entity recognition using BRAT tool,” in Public Health and Informatics: Proceedings of MIE 2021, IOS Press, 2021, pp. 432–436. doi: 10.3233/SHTI210195.
Z. Bao, Y. Wang, and W. Zhang, “Low-Resource Named Entity Recognition without Human Annotation,” Academy and Industry Research Collaboration Center (AIRCC), Sep. 2021, pp. 327–335. doi: 10.5121/csit.2021.111427.
Q. Zeng, M. Yu, W. Yu, T. Jiang, and M. Jiang, “Validating Label Consistency in NER Data Annotation,” Sep. 2021, [Online]. Available: http://arxiv.org/abs/2101.08698
Unduhan
Telah diserahkan
Diterima
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Jurnal Nasional Teknologi dan Sistem Informasi

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.
Hak cipta untuk artikel ini ditransfer ke Jurnal Nasional Teknologi dan Sistem Informasi (TEKNOSI) jika dan ketika artikel diterima untuk publikasi. Yang bertanda tangan di bawah ini dengan ini mentransfer setiap dan semua hak di dalam dan ke kertas termasuk tanpa batasan semua hak cipta untuk TEKNOSI. Yang bertanda tangan di bawah ini dengan ini menyatakan dan menjamin bahwa makalah tersebut asli dan bahwa ia adalah pembuat makalah, kecuali untuk bahan yang secara jelas diidentifikasi sebagai sumber aslinya, dengan pemberitahuan izin dari pemilik hak cipta jika diperlukan. Yang bertanda tangan di bawah ini menyatakan bahwa ia memiliki kekuatan dan wewenang untuk membuat dan melaksanakan penugasan ini.
Kami menyatakan bahwa:
- Makalah ini belum diterbitkan dalam bentuk yang sama di tempat lain.
- Makalah ini tidak akan dikirimkan di tempat lain untuk publikasi sebelum penerimaan/penolakan oleh Jurnal ini
- Izin hak cipta diperoleh untuk materi yang diterbitkan di tempat lain dan yang memerlukan izin ini untuk reproduksi.
Selanjutnya, Saya/kami dengan ini mentransfer hak publikasi yang tidak terbatas dari makalah yang disebutkan di atas secara keseluruhan kepada TEKNOSI. Transfer hak cipta mencakup hak untuk mereproduksi dan mendistribusikan artikel, termasuk cetak ulang, terjemahan, reproduksi foto, mikroform, bentuk elektronik (offline, online) atau reproduksi lain yang serupa.
Penulis yang sesuai menandatangani dan menerima tanggung jawab untuk merilis materi ini atas nama setiap dan semua penulis bersama. Perjanjian ini harus ditandatangani oleh setidaknya salah satu penulis yang telah memperoleh persetujuan dari rekan penulis jika berlaku. Setelah pengajuan perjanjian ini ditandatangani oleh penulis yang sesuai, perubahan kepengarangan atau dalam urutan penulis yang tercantum tidak akan diterima.
Hak / Syarat dan Ketentuan yang dipertahankan :
- Penulis memiliki semua hak kepemilikan dalam setiap proses, prosedur, atau artikel manufaktur yang dijelaskan dalam Karya ini.
- Penulis dapat mereproduksi atau mengotorisasi orang lain untuk mereproduksi karya ini atau karya turunannya untuk penggunaan pribadi penulis atau untuk penggunaan perusahaan, dengan ketentuan bahwa sumber dan menyatakan hak cipta dimiliki TEKNOSI, salinan tidak digunakan dengan cara apa pun yang menyiratkan pengesahan TEKNOSI atas suatu produk atau layanan dari pihak mana pun, dan salinannya sendiri tidak ditawarkan untuk dijual.
- Meskipun penulis diizinkan untuk menggunakan kembali semua atau sebagian dari karya ini dalam karya lain, ini tidak termasuk mengabulkan permintaan pihak ketiga untuk mencetak ulang, menerbitkan ulang, atau jenis penggunaan ulang lainnya.











