Peneliti DIKE UGM Kaji Strategi Adaptasi Language Model untuk Bahasa-Bahasa Daerah Indonesia

Kegiatan, Lab Riset Sistem Cerdas
2 Juli 2025, 09.32
Oleh: wimbono
0

Yogyakarta, 30 Juni 2025 – Peneliti Departemen Ilmu Komputer dan Elektronika (DIKE), FMIPA UGM, mengembangkan studi empiris terkait kemampuan adaptasi model bahasa (language model) untuk menghadapi keragaman bahasa daerah di Indonesia. Melalui penelitian berjudul “Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings”, dilakukan pengujian terhadap kemampuan transfer model bahasa pada sepuluh bahasa daerah Indonesia, beberapa di antaranya termasuk pada kategori low-resource language. Penelitian ini dilakukan oleh Rifki Afina Putri, Ph.D., dosen sekaligus peneliti di Laboratorium Riset Sistem Cerdas, DIKE UGM. Penelitian ini berhasil diterima dan akan dipresentasikan pada International Conference on Advanced Machine Learning and Data Science (AMLDS 2025), tanggal 19-21 Juli 2025, di Tokyo, Jepang.

Studi ini mengevaluasi kinerja berbagai language model dalam menyelesaikan tugas analisis sentimen pada bahasa-bahasa daerah yang datanya tidak ada proses pelatihan awal (pre-training) model atau disebut sebagai zero-shot setting. Dengan kondisi Indonesia yang memiliki lebih dari 700 bahasa daerah, dan sebagian besar di antaranya masih belum memiliki sumber data digital maupun teknologi pemrosesan bahasa yang memadai, urgensi pengembangan sistem pemrosesan bahasa alami (NLP) yang inklusif menjadi semakin nyata. Tanpa upaya konkret ke arah ini, terdapat risiko semakin lebarnya kesenjangan digital antar bahasa, serta terpinggirkannya warisan linguistik yang menjadi bagian penting dari identitas budaya Indonesia. Penelitian ini diharapkan dapat menjembatani kesenjangan tersebut.

Gambar 1. Ilustrasi metode transfer learning yang diteliti pada studi ini.

Pendekatan yang digunakan dalam penelitian ini mencakup dua strategi utama, yaitu zero-shot transfer dan adapter-based (MAD-X) transfer. Pada pendekatan zero-shot, model bahasa seperti IndoBERT, mBERT, dan XLM-R dilatih menggunakan data dalam Bahasa Indonesia, lalu langsung diuji pada bahasa-bahasa daerah tanpa pelatihan tambahan. Hasilnya menunjukkan bahwa kinerja terbaik diperoleh pada bahasa yang sudah dikenal saat pelatihan awal (seperti Bahasa Indonesia dan Jawa), menurun pada bahasa yang berkerabat, dan paling rendah pada bahasa yang tidak pernah dikenal oleh model sebelumnya.

Untuk meningkatkan kinerja terutama pada bahasa yang tidak dikenal, digunakan metode adapter-based MAD-X. Dalam pendekatan ini, adapter bahasa dilatih terlebih dahulu menggunakan data Wikipedia unlabeled dari bahasa target, lalu dikombinasikan dengan task adapter yang dilatih menggunakan data Bahasa Indonesia. Pendekatan ini terbukti lebih efektif untuk sebagian besar bahasa lokal, bahkan pada beberapa kasus melampaui full fine-tuning, selama tersedia cukup data untuk pelatihan adapter bahasa.

Analisis tambahan terhadap tokenisasi menunjukkan bahwa tingkat keberhasilan transfer tidak hanya dipengaruhi oleh kesamaan kosakata atau jumlah potongan subword, tetapi lebih ditentukan oleh eksposur awal model terhadap bahasa dan kemampuannya membangun pemahaman kontekstual lintas bahasa.

Penelitian ini menegaskan pentingnya pengembangan strategi adaptasi model bahasa yang efisien dan inklusif, khususnya untuk bahasa-bahasa lokal Indonesia yang selama ini masih belum banyak terjangkau dalam pengembangan teknologi bahasa. Ke depan, pengembangan teknik adapter yang lebih fleksibel, perluasan korpus pre-training, serta eksplorasi metode zero-shot atau few-shot learning diharapkan dapat semakin memperluas jangkauan pengembangan NLP pada bahasa-bahasa minoritas, khususnya bahasa daerah di Indonesia.

Penelitian ini juga berkontribusi pada pencapaian Tujuan Pembangunan Berkelanjutan (SDGs), khususnya pada SDG 4 (Pendidikan Berkualitas), SDG 9 (Industri, Inovasi, dan Infrastruktur), serta SDG 10 (Pengurangan Kesenjangan) melalui pengembangan teknologi bahasa yang inklusif untuk menghadapi keberagaman bahasa di Indonesia.

Author: Lab SC – Rifki

Editor: Marina

#SDGs4 #SDGs9 #SDGs10

UGM Psychology Faculty Student Joins TF-NUS LEaRN Leadership Program in Singapore
Aqila Keisyarani, a 2023 batch student from the Faculty of Psychology, Universitas Gadjah Mada (Psychology UGM), was selected to represent UGM at the TF-NUS LEaRN 2025 (Leadership Enrichment and Regional Networking) program, a leadership development initiative organized by the National University of Singapore (NUS) and fully supported by Temasek Foundation. The TF-NUS LEaRN program seeks […]
UGM Student Finds Javanese Concept of Rasa Rumangsa Eases Family Burden in Schizophrenia Care
The concept of rasa rumangsa, or deep inner self-understanding, encourages individuals to behave in ways that allow them to position themselves appropriately, maintain good relationships, and live in harmony, peace, and social well-being. The process of rasa rumangsa begins internally, starting with physical self-recognition and developing into deeper self-awareness. Rasa rumangsa as bisa rumangsa (the […]
Community Service Team from UGM Holds Waste Sorting Activity with Kadisoro Village Residents in Bantul
To raise public awareness of the importance of maintaining a clean and healthy environment, a KKN-PPM UGM (Universitas Gadjah Mada’s community service program) team organized a joint waste-sorting activity with the residents of Kadisoro Village, Bantul Regency, Yogyakarta Special Region. According to team member Salsa Fathiyah Hanim, the activity was part of their main environmental […]
Is Ampo Safe to Eat? UGM Nutrition Expert Provides Explanation
Ampo is a traditional food originating from East and Central Java, made from thinly sliced clay. For generations, it has been believed that communities use it to reduce bitterness in food ingredients and to cure various ailments, such as absorbing toxins and improving digestion. Since 2024, ampo has been officially recognized as an intangible cultural […]
New UGM Professor Highlights Semiochemical-Based Approach to Reducing Insect Pest Populations
Insects play an important role in human life, particularly in agriculture. They act as herbivores (plant eaters), carnivores, pollinators, decomposers of organic matter, and as food for other living organisms. In fact, around 72% of plant species depend on insects for pollination. It is therefore not an exaggeration to say that without insects, life on […]
UGM Expert Responds to U.S. Recall of Indonesian Shrimp, Urges Better Food Safety Regulations
The recent rejection of Indonesian frozen shrimp by the United States highlights the seriousness of food safety challenges in fisheries exports. The U.S. Food and Drug Administration (FDA) recommended a recall of Great Value-branded frozen shrimp imported from PT Bahari Makmur Sejati (BMS Foods), after one shrimp sample tested positive for the radioactive isotope Cesium-137 […]
Minister Meutya Hafid: Internet Penetration Still a Challenge for Generative AI Development in Rural Indonesia
Minister of Communication and Digital Affairs of the Republic of Indonesia, Meutya Hafid, emphasized the importance of utilizing both artificial intelligence and human intelligence to build an inclusive and just future. With a population of 270 million spread across 17,000 islands, Indonesia is poised to adopt this innovation while safeguarding its citizens from potential risks. […]
UGM and Bukit Asam Launch Potassium Humate to Enhance Fertilizer Efficiency
A research team from Universitas Gadjah Mada (UGM) has developed an innovative breakthrough of Potassium Humate, a novel soil fertility enhancer derived from coal. Through an oxidation process applied to low-calorie coal, humate compounds are released and mixed until the coal’s organic content is increased. The oxidized product is extracted, enriched with potassium, and formed […]
Ali Ghufron Mukti: BPJS Kesehatan Records 2 Million Health Transaction Data Per Day
President Director of state health insurance BPJS Kesehatan, Ali Ghufron Mukti, said that Indonesia’s national health insurance system is built on the value of gotong royong (mutual cooperation), a defining feature of Indonesian society. He emphasized that the success of this health insurance system serves as a concrete example of social solidarity in Indonesia. According […]
Professor Umar Santoso Urges Coconut Downstream to Unlock Greater Export Potential
Global demand for coconut-derived products, including coconut milk and virgin coconut oil (VCO), continues to increase. The export value of processed coconuts is predicted to surge significantly. Currently, the export value of raw coconuts is approximately IDR 26 trillion; however, with proper downstream processing and domestic utilization, the figure could potentially reach up to IDR […]

Peneliti DIKE UGM Kaji Strategi Adaptasi Language Model untuk Bahasa-Bahasa Daerah Indonesia

Programs

Prospective Students, welcome!

Berita UGM

Introduction

Mahasiswa