IslamGPT-ID π
IslamGPT-ID adalah model bahasa Indonesia pertama yang dikhususkan untuk menjawab pertanyaan seputar Islam secara komprehensif. Model ini di-fine-tune secara penuh (full fine-tuning) dari google/gemma-4-E2B menggunakan lebih dari 261.000 pasang instruksi berbahasa Indonesia dan Arab.
Kemampuan Model
| Topik | Detail |
|---|---|
| π Al-Qur'an | Teks Arab + Terjemahan Kemenag RI untuk semua 6.236 ayat |
| π Hadist | Kutubussittah (Bukhari, Muslim, Abu Dawud, Tirmidzi, Nasa'i, Ibnu Majah) |
| βοΈ Fiqih | Hukum Islam multi-madzhab (Syafi'i, Hanafi, Maliki, Hanbali) |
| π Haji & Umrah | Panduan manasik lengkap, doa-doa, tata cara |
| π Sirah Nabawiyah | Kisah Nabi Muhammad ο·Ί dan sejarah Islam |
| π Ibadah Harian | Sholat, puasa, zakat, doa sehari-hari |
| π Wisata Halal | Informasi destinasi wisata ramah Muslim |
Detail Training
| Parameter | Nilai |
|---|---|
| Base model | google/gemma-4-E2B |
| Metode | Full Fine-Tuning (FSDP, bf16) |
| Training pairs | 261.170 (train) + 13.746 (validasi) |
| Epochs | 3 |
| Batch size efektif | 64 (4 GPU Γ 1 Γ grad_accum 16) |
| Learning rate | 1e-5 (warmup 5%) |
| Max sequence length | 1.024 tokens |
| Hardware | 4Γ NVIDIA A100-40GB |
| Durasi training | ~132 jam |
| Eval loss akhir | 1.941 |
Cara Pakai
Dengan Transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "arisridwan/islamgpt-id"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
def tanya_islam(pertanyaan: str, max_new_tokens: int = 512) -> str:
prompt = f"<start_of_turn>user\n{pertanyaan}<end_of_turn>\n<start_of_turn>model\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
**inputs,
max_new_tokens=max_new_tokens,
temperature=0.3,
do_sample=True,
repetition_penalty=1.1,
)
response = tokenizer.decode(output[0], skip_special_tokens=True)
return response.split("<start_of_turn>model\n")[-1].strip()
# Contoh penggunaan
print(tanya_islam("Apa arti Ayat Kursi (QS Al-Baqarah 2:255)?"))
print(tanya_islam("Bagaimana tata cara sholat Tahajud?"))
print(tanya_islam("Sebutkan 5 hadist tentang keutamaan ilmu."))
Dengan GGUF / Ollama / llama.cpp
Versi GGUF tersedia di: arisridwan/islamgpt-id-gguf
# Dengan llama.cpp
./llama-cli -m islamgpt-id-Q4_K_M.gguf -p "<start_of_turn>user\nApa itu rukun Islam?<end_of_turn>\n<start_of_turn>model\n" -n 512
# Dengan Ollama (menggunakan Modelfile)
ollama create islamgpt-id -f Modelfile
ollama run islamgpt-id "Apa itu rukun Islam?"
Contoh Output
Pertanyaan: Apa hukum sholat Jumat?
Jawaban:
Sholat Jumat hukumnya fardhu ain (wajib) bagi setiap Muslim laki-laki yang baligh, berakal, merdeka, dan tidak memiliki uzur syar'i. Dalilnya adalah firman Allah dalam QS Al-Jumu'ah (62:9): "Wahai orang-orang yang beriman! Apabila telah diseru untuk melaksanakan sholat pada hari Jumat, maka segeralah kamu mengingat Allah dan tinggalkanlah jual beli..."
Pertanyaan: Sebutkan hadist tentang keutamaan membaca Al-Qur'an.
Jawaban:
Rasulullah ο·Ί bersabda: "Sebaik-baik kamu adalah orang yang mempelajari Al-Qur'an dan mengajarkannya." (HR. Bukhari no. 5027)
Dataset Pelatihan
Model dilatih menggunakan kombinasi dataset:
- anisafifi/multilingual-quran β Al-Qur'an 30 juz (Arab + terjemahan Indonesia)
- gurgutan/sunnah_ar_en_dataset β Koleksi hadist dari Sunnah.com
- Faiz28/LCQA-Islamic β Dataset QA Islami
Data kemudian dikonversi ke format instruksi Gemma dengan template:
<start_of_turn>user
{pertanyaan}<end_of_turn>
<start_of_turn>model
{jawaban}<end_of_turn>
Evaluasi
| Metrik | Nilai |
|---|---|
| Eval Loss | 1.941 |
| Eval Runtime | ~1.417 detik/batch |
| Eval Samples/sec | 9.697 |
β οΈ Disclaimer
- Model ini dibuat untuk keperluan edukasi dan referensi, bukan pengganti fatwa ulama.
- Untuk pertanyaan fiqih personal atau sensitif, selalu konsultasikan dengan ulama terpercaya.
- Ayat Al-Qur'an diambil dari terjemahan Kemenag RI; hadist dari dataset terverifikasi β tetap cross-check dengan sumber primer.
- Jangan gunakan model ini untuk membuat fatwa atau keputusan hukum Islam secara mandiri.
- Output model bisa mengandung kesalahan β selalu verifikasi dengan ulama atau kitab rujukan.
Lisensi
Model ini mengikuti Gemma Terms of Use. Dataset pelatihan menggunakan sumber dengan lisensi masing-masing (lihat detail di atas).
Citation
@misc{islamgpt-id-2026,
title = {IslamGPT-ID: Indonesian Islamic Language Model},
author = {arisridwan},
year = {2026},
publisher = {Hugging Face},
url = {https://huggingface.co/arisridwan/islamgpt-id}
}
- Downloads last month
- 239
Model tree for arisridwan/islamgpt-id
Base model
google/gemma-4-E2B