Kikuyu ASR with Extended Vocabulary (Fine-tuned from Pre-trained Adapters)

This model addresses CTC collapse for double vowels, fine-tuned from pre-trained per-language adapters.

Model Description

Architecture: Hybrid V3 (W2V-BERT 2.0 + MMS-style adapters + Stable Decoder)
Base Model: facebook/w2v-bert-2.0 (frozen)
Pre-trained from: mutisya/w2v-bert-per-language-6lang-25_50-v1
Vocabulary Extension: Added double-vowel tokens ['aa', 'ee', 'ii', 'oo', 'uu', 'ĩĩ', 'ũũ']

Metric	Pre-trained	After Extended Vocab	Improvement
WER	21.37%	14.09%	7.28pp

Safetensors

Model size

0.6B params

Tensor type

F32

Base model

Finetuned

(2)

this model