IslamGPT-ID πŸ•Œ

IslamGPT-ID adalah model bahasa Indonesia pertama yang dikhususkan untuk menjawab pertanyaan seputar Islam secara komprehensif. Model ini di-fine-tune secara penuh (full fine-tuning) dari google/gemma-4-E2B menggunakan lebih dari 261.000 pasang instruksi berbahasa Indonesia dan Arab.

Kemampuan Model

Topik Detail
πŸ“– Al-Qur'an Teks Arab + Terjemahan Kemenag RI untuk semua 6.236 ayat
πŸ“š Hadist Kutubussittah (Bukhari, Muslim, Abu Dawud, Tirmidzi, Nasa'i, Ibnu Majah)
βš–οΈ Fiqih Hukum Islam multi-madzhab (Syafi'i, Hanafi, Maliki, Hanbali)
πŸ•‹ Haji & Umrah Panduan manasik lengkap, doa-doa, tata cara
πŸ“œ Sirah Nabawiyah Kisah Nabi Muhammad ο·Ί dan sejarah Islam
πŸŒ™ Ibadah Harian Sholat, puasa, zakat, doa sehari-hari
🌍 Wisata Halal Informasi destinasi wisata ramah Muslim

Detail Training

Parameter Nilai
Base model google/gemma-4-E2B
Metode Full Fine-Tuning (FSDP, bf16)
Training pairs 261.170 (train) + 13.746 (validasi)
Epochs 3
Batch size efektif 64 (4 GPU Γ— 1 Γ— grad_accum 16)
Learning rate 1e-5 (warmup 5%)
Max sequence length 1.024 tokens
Hardware 4Γ— NVIDIA A100-40GB
Durasi training ~132 jam
Eval loss akhir 1.941

Cara Pakai

Dengan Transformers

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "arisridwan/islamgpt-id"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

def tanya_islam(pertanyaan: str, max_new_tokens: int = 512) -> str:
    prompt = f"<start_of_turn>user\n{pertanyaan}<end_of_turn>\n<start_of_turn>model\n"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        output = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=0.3,
            do_sample=True,
            repetition_penalty=1.1,
        )
    response = tokenizer.decode(output[0], skip_special_tokens=True)
    return response.split("<start_of_turn>model\n")[-1].strip()

# Contoh penggunaan
print(tanya_islam("Apa arti Ayat Kursi (QS Al-Baqarah 2:255)?"))
print(tanya_islam("Bagaimana tata cara sholat Tahajud?"))
print(tanya_islam("Sebutkan 5 hadist tentang keutamaan ilmu."))

Dengan GGUF / Ollama / llama.cpp

Versi GGUF tersedia di: arisridwan/islamgpt-id-gguf

# Dengan llama.cpp
./llama-cli -m islamgpt-id-Q4_K_M.gguf -p "<start_of_turn>user\nApa itu rukun Islam?<end_of_turn>\n<start_of_turn>model\n" -n 512

# Dengan Ollama (menggunakan Modelfile)
ollama create islamgpt-id -f Modelfile
ollama run islamgpt-id "Apa itu rukun Islam?"

Contoh Output

Pertanyaan: Apa hukum sholat Jumat?

Jawaban:

Sholat Jumat hukumnya fardhu ain (wajib) bagi setiap Muslim laki-laki yang baligh, berakal, merdeka, dan tidak memiliki uzur syar'i. Dalilnya adalah firman Allah dalam QS Al-Jumu'ah (62:9): "Wahai orang-orang yang beriman! Apabila telah diseru untuk melaksanakan sholat pada hari Jumat, maka segeralah kamu mengingat Allah dan tinggalkanlah jual beli..."


Pertanyaan: Sebutkan hadist tentang keutamaan membaca Al-Qur'an.

Jawaban:

Rasulullah ο·Ί bersabda: "Sebaik-baik kamu adalah orang yang mempelajari Al-Qur'an dan mengajarkannya." (HR. Bukhari no. 5027)

Dataset Pelatihan

Model dilatih menggunakan kombinasi dataset:

Data kemudian dikonversi ke format instruksi Gemma dengan template:

<start_of_turn>user
{pertanyaan}<end_of_turn>
<start_of_turn>model
{jawaban}<end_of_turn>

Evaluasi

Metrik Nilai
Eval Loss 1.941
Eval Runtime ~1.417 detik/batch
Eval Samples/sec 9.697

⚠️ Disclaimer

  • Model ini dibuat untuk keperluan edukasi dan referensi, bukan pengganti fatwa ulama.
  • Untuk pertanyaan fiqih personal atau sensitif, selalu konsultasikan dengan ulama terpercaya.
  • Ayat Al-Qur'an diambil dari terjemahan Kemenag RI; hadist dari dataset terverifikasi β€” tetap cross-check dengan sumber primer.
  • Jangan gunakan model ini untuk membuat fatwa atau keputusan hukum Islam secara mandiri.
  • Output model bisa mengandung kesalahan β€” selalu verifikasi dengan ulama atau kitab rujukan.

Lisensi

Model ini mengikuti Gemma Terms of Use. Dataset pelatihan menggunakan sumber dengan lisensi masing-masing (lihat detail di atas).

Citation

@misc{islamgpt-id-2026,
  title        = {IslamGPT-ID: Indonesian Islamic Language Model},
  author       = {arisridwan},
  year         = {2026},
  publisher    = {Hugging Face},
  url          = {https://huggingface.co/arisridwan/islamgpt-id}
}
Downloads last month
239
Safetensors
Model size
5B params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for arisridwan/islamgpt-id

Finetuned
(32)
this model

Datasets used to train arisridwan/islamgpt-id