Pra-Anotasi pada Model BioBERT untuk Pengenalan Entitas Bernama Laporan Radiologi Klinis Bahasa Indonesia

Penulis

  • Arum Maulia Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro
  • Danang Wahyu Utomo Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro

DOI:

https://doi.org/10.25077/TEKNOSI.v11i3.2025.387-397

Kata Kunci:

Pengenalan, Entitas, Bernama, Klinis, NER, Laporan, Radiologi, Ontologi, RadLex, Pra-Anotasi, Validasi, Manusia, BioBERT

Abstrak

Penelitian ini menekankan pada teknik pra-anotasi untuk pengembangan model Named Entity Recognition ( NER ) dalam domain medis, khususnya pada laporan radiologi hati. Salah satu kendala utama dalam pengembangan model Named Entity Recognition ( NER) adalah terbatasnya ketersediaan data beranotasi. Tantangan ini semakin kompleks ketika di hadapkan dengan skema anotasi yang di implementasikan pada data privat. Untuk menangani hal tersebut, penelitian ini mengusulkan metode pendekatan penyusunan dataset Named Entity Recognition ( NER )  yang berkualitas guna meningkatkan performa model. Proses penelitian di mulai dengan pembuatan silver corpus melalui proses pra-anotasi semi otomatis. Pada tahap ini dimulai dengan pembersihan data laporan radiologi, kemudian tahap selanjutnya memasukkan data yang telah di bersihkan ke dalam kamus terminologi medis ( Radlex ) untuk memetakan dan memberi label pada entitas medis yang relevan. Hasil anotasi terminologi medis tersebut kemudian divalidasi untuk menghasilkan gold corpus sebagai data anotasi final. Untuk mengukur kinerja pendekatan ini, dilakukan perbandingan anatara performa model BioBERT yang telah di fine-tune menggunakan hasil anotasi melalui tahap dari skema yang diusulkan dan model yang dilatih menggunakan data hasil anotasi manual melalui Label Studio. Hasil eksperimen menunjukkan bahwa model yang dilatih menggunakan korpus pre-anotasi Radlex memberikan peningkatan performa 45% dibandingkan dengan anotasi manual, sekaligus menghasilkan efesiensi waktu dalam proses pengerjaan.

Referensi

D. Fraile Navarro et al., “Clinical named entity recognition and relation extraction using natural language processing of medical free text: A systematic review,” International Journal of Medical Informatics, vol. 177. Elsevier Ireland Ltd, Sep. 01, 2023. doi: 10.1016/j.ijmedinf.2023.105122.

Z. D. Eka Putra and D. W. Utomo, “Penerapan Deep Learning dengan Mekanisme Attention untuk Meningkatkan Performa Segmentasi Liver dan Tumor pada Citra CT Menggunakan ResUnet,” Jurnal Nasional Teknologi dan Sistem Informasi, vol. 10, no. 3, pp. 231–239, Jan. 2025, doi: 10.25077/teknosi.v10i3.2024.231-239.

G. H. B. Andrade, S. Yada, and E. Aramaki, “Is Boundary Annotation Necessary? Evaluating Boundary-Free Approaches to Improve Clinical Named Entity Annotation Efficiency: Case Study,” JMIR Medical Informatics, vol. 12, 2024, doi: 10.2196/59680.

S. Silvestri, F. Gargiulo, and M. Ciampi, “Iterative Annotation of Biomedical NER Corpora with Deep Neural Networks and Knowledge Bases,” Applied Sciences (Switzerland), vol. 12, no. 12, Jun. 2022, doi: 10.3390/app12125775.

A. Penelitian, D. Soyusiawaty, A. Fadlil, A. Dahlan, and R. Selatan, “Jurnal Nasional Teknologi dan Sistem Informasi Attribution-ShareAlike 4.0 International Some rights reserved Pengembangan Korpus Bahasa Minang pada Spell Error Corpus for Minang Language (SPEML)”, doi: 10.25077/TEKNOSI.v11i1.2025.17-26.

P. H. Brekke, T. Rama, I. Pilán, Ø. Nytrø, and L. Øvrelid, “Synthetic data for annotation and extraction of family history information from clinical text,” Journal of Biomedical Semantics, vol. 12, no. 1, Dec. 2021, doi: 10.1186/s13326-021-00244-2.

W. Lau, K. Lybarger, M. L. Gunn, M. B. Chb, and M. Yetisgen, “Event-based clinical findings extraction from radiology reports with pre-trained language model.”[Online]. Available: https://github.com/wilsonlau-uw/BERT-EE

A. Sylolypavan, D. Sleeman, H. Wu, and M. Sim, “The impact of inconsistent human annotations on AI driven clinical decision making,” npj Digital Medicine, vol. 6, no. 1, Dec. 2023, doi: 10.1038/s41746-023-00773-3.

P. Parjono and S. Kusumadewi, “Pemodelan Text Mining dalam Pengkodean Penyakit Pasien Berdasar Kode ICD 10,” Jurnal Nasional Teknologi dan Sistem Informasi, vol. 9, no. 2, pp. 200–207, Sep. 2023, doi: 10.25077/teknosi.v9i2.2023.200-207.

G. Bernier-Colborne and S. Vajjala, “Annotation Errors and NER: A Study with OntoNotes 5.0,” Jun. 2024, [Online]. Available: http://arxiv.org/abs/2406.19172

L. Liu et al., “Web-Based Application Based on Human-in-the-Loop Deep Learning for Deidentifying Free-Text Data in Electronic Medical Records: Development and Usability Study,” Interactive Journal of Medical Research, vol. 12, p. e46322, Aug. 2023, doi: 10.2196/46322.

S. Datta, J. Godfrey-Stovall, and K. Roberts, “RadLex Normalization in Radiology Reports.” [Online]. Available: http://alt.qcri.org/semeval2014/task7/

S. Tsuji, A. Wen, N. Takahashi, H. Zhang, K. Ogasawara, and G. Jiang, “Developing a RadLex-based named entity recognition tool for mining textual radiology reports:development and performance evaluation study,” Journal of Medical Internet Research, vol. 23, no. 10, Oct. 2021, doi: 10.2196/25378.

A. Miranda-Escalada, A. Gonzalez-Agirre, J. Armengol-Estapé, and M. Krallinger, “Overview of automatic clinical coding: annotations, guidelines, and solutions for non-English clinical cases at CodiEsp track of CLEF eHealth 2020.” [Online]Available:https://www.who.int/classifications/icd/icdonlineversions/en/

M. Marquis, I. Bossenko, and P. Ross, “RadLex and SNOMED CT integration: a pilot study for standardising radiology classification,” Insights into Imaging, vol. 16, no. 1, Dec. 2025, doi: 10.1186/s13244-025-01935-5.

D. Li et al., “Performance and Agreement When Annotating Chest X-ray Text Reports—A Preliminary Step in the Development of a Deep Learning-Based Prioritization and Detection System,” Diagnostics, vol. 13, no. 6, Mar. 2023, doi: 10.3390/diagnostics13061070.

J.-B. Delbrouck et al., “RadGraph-XL: A Large-Scale Expert-Annotated Dataset for Entity and Relation Extraction from Radiology Reports.” [Online]. Available: https://github.com/Stanford-AIMI/radgraph-XL

Y. Zhu, Y. Ye, M. Li, J. Zhang, and O. Wu, “Investigating annotation noise for named entity recognition,” Neural Computing and Applications, vol. 35, no. 1, pp. 993–1007, 2023, doi: 10.1007/s00521-022-07733-0.

M. Mikulova, M. Straka, J. Stepanek, B. Stepankova, and J. Hajic, “Quality and Efficiency of Manual Annotation: Pre-annotation Bias,” Jun. 2023, [Online]. Available: http://arxiv.org/abs/2306.09307

H. A. Xu, V. Loftsson, B. Kulynych, B. Kaabachi, and J. L. Raisaro, “Accelerating Clinical Text Annotation in Underrepresented Languages: A Case Study on Text De-Identification,” in Studies in Health Technology and Informatics, IOS Press BV, Aug. 2024, pp. 853–857. doi: 10.3233/SHTI240546.

M. Syed et al., “DeIDNER corpus: Annotation of clinical discharge summary notes for named entity recognition using BRAT tool,” in Public Health and Informatics: Proceedings of MIE 2021, IOS Press, 2021, pp. 432–436. doi: 10.3233/SHTI210195.

Z. Bao, Y. Wang, and W. Zhang, “Low-Resource Named Entity Recognition without Human Annotation,” Academy and Industry Research Collaboration Center (AIRCC), Sep. 2021, pp. 327–335. doi: 10.5121/csit.2021.111427.

Q. Zeng, M. Yu, W. Yu, T. Jiang, and M. Jiang, “Validating Label Consistency in NER Data Annotation,” Sep. 2021, [Online]. Available: http://arxiv.org/abs/2101.08698

Unduhan

Telah diserahkan

04-11-2025

Diterima

18-12-2025

Diterbitkan

15-01-2026

Cara Mengutip

[1]
A. Maulia dan D. Wahyu Utomo, “Pra-Anotasi pada Model BioBERT untuk Pengenalan Entitas Bernama Laporan Radiologi Klinis Bahasa Indonesia”, TEKNOSI, vol. 11, no. 3, hlm. 387–397, Jan 2026.

Terbitan

Bagian

Articles

Artikel Serupa

1 2 3 4 5 > >> 

Anda juga bisa Mulai pencarian similarity tingkat lanjut untuk artikel ini.