vngrs-ai/vngrs-web-corpus
Viewer • Updated • 50.3M • 301 • 26
How to use nypgd/ulu-bert-tr-base-v2 with Transformers:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("fill-mask", model="nypgd/ulu-bert-tr-base-v2") # Load model directly
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nypgd/ulu-bert-tr-base-v2")
model = AutoModelForMaskedLM.from_pretrained("nypgd/ulu-bert-tr-base-v2")UluBERT, Bursa Uludağ Üniversitesi'nde geliştirilen, Türkçe morfolojik yapıyı dikkate alan bir BERT modelidir.
UluBERT, Türkçe'nin zengin morfolojik yapısını tokenization aşamasında korumak amacıyla sıfırdan eğitilmiş bir encoder modelidir. Zemberek morfolojik analizörü ile oluşturulmuş morfem tabanlı BPE tokenizer kullanır.
Model, vngrs-ai/vngrs-web-corpus üzerinden elde edilen 150GB Türkçe metin üzerinde eğitilmiştir. Zemberek ile 11.5M unique kelime morfolojik analiz edilerek 160GB morfem corpus oluşturulmuştur.
| Mimari | BERT-base (12 layer, 768 hidden, 12 heads) |
| Parametre | 110M |
| Vocab | 32,000 (MorphBPE) |
| Eğitim | 235K adım, MLM only, BF16 |
| Donanım | NVIDIA DGX Spark (GB10 Grace Blackwell, 128GB) — 4 gün |
| Loss | ~1.9 |
| Kelime | UluBERT | BERTurk | ModernBERT-TR |
|---|---|---|---|
| çocuklar | çocuk lar |
çocuklar |
çocuklar |
| demokratikleştirilemeyen | demokratik leştir ile meyen |
demokratik ##leştir ##ilemeyen |
demokratik ##leştir ##ilemeyen |
| üniversitelerimizden | üniversite lerimiz den |
üniversiteler ##imizden |
üniversiteleri ##miz ##den |
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nypgd/ulu-bert-tr-base-v2")
model = AutoModel.from_pretrained("nypgd/ulu-bert-tr-base-v2")
from transformers import pipeline
fill = pipeline("fill-mask", model="nypgd/ulu-bert-tr-base-v2")
fill("çocuk lar [MASK] a gid iyor", top_k=5)
| Model | Görev | Acc | F1 |
|---|---|---|---|
| UluBERT | Duygu Analizi | 92.50 | 92.15 |
| UluBERT | POS Tagging | 92.86 | 92.83 |
| UluBERT | NER | 95.83 | 95.82 |
| BERTurk | Duygu Analizi | 96.10 | 96.06 |
| BERTurk | POS Tagging | 95.70 | 95.67 |
| BERTurk | NER | 97.11 | 97.11 |
| ModernBERT-TR | Duygu Analizi | 96.30 | 96.23 |
| ModernBERT-TR | POS Tagging | 95.54 | 95.51 |
| ModernBERT-TR | NER | 97.24 | 97.24 |