mlx-community/Irodori-TTS-600M-v3-VoiceDesign-8bit

This model was converted to MLX format from Aratako/Irodori-TTS-600M-v3-VoiceDesign using mlx-audio version 0.4.3.

Quantized to 8-bit (group_size=64). For full precision see mlx-community/Irodori-TTS-600M-v3-VoiceDesign-fp16.

Refer to the original model card for more details on the model.

The v3 VoiceDesign variant supports dual conditioning: a text caption describing the desired voice style, and optionally a reference audio clip. Both can be provided simultaneously.

Use with mlx-audio

pip install -U mlx-audio

Caption only (no reference audio)

python -m mlx_audio.tts.generate \
  --model mlx-community/Irodori-TTS-600M-v3-VoiceDesign-8bit \
  --text "こんにちは、テストです。" \
  --instruct "穏やかで落ち着いた女性の声。ゆっくりと話す。"

Reference audio + caption (dual mode)

python -m mlx_audio.tts.generate \
  --model mlx-community/Irodori-TTS-600M-v3-VoiceDesign-8bit \
  --text "こんにちは、テストです。" \
  --ref_audio path/to/reference.wav \
  --instruct "穏やかで落ち着いた話し方。"

Python Example

from mlx_audio.tts.utils import load

model = load("mlx-community/Irodori-TTS-600M-v3-VoiceDesign-8bit")

# Caption only
results = list(model.generate(
    "こんにちは、テストです。",
    caption="穏やかで落ち着いた女性の声。",
))

# Dual mode (ref audio + caption)
import mlx.core as mx
ref_audio = mx.array(...)  # shape (1, num_samples)
results = list(model.generate(
    "こんにちは、テストです。",
    ref_audio=ref_audio,
    caption="穏やかで落ち着いた話し方。",
))

Downloads last month: 106

Safetensors

Model size

0.3B params

Tensor type

U32

F16

MLX

Hardware compatibility

Quantized