Zenn Dev Karaage0703 Articles 97f8a01cbb9c49

Qwen3-TTSで10秒の音声で自分の声をクローン

URL: https://zenn.dev/karaage0703/articles/97f8a01cbb9c49
日付: 2026-06-26
Tier: Tier 3
要旨: Alibaba Cloud が開発した Qwen3-TTS（1.7B パラメータ、Apache 2.0）を使い、10秒程度のポッドキャスト音声サンプルから自分の声をクローンした実験記録。NVIDIA DGX Spark（Grace CPU / GB10 GPU / 128GB 統合メモリ、Ubuntu 24.04 aarch64）上で CUDA 13.0 / Python 3.12 / uv 環境で動作させた手順を詳しく記載している。自然な口語体の日本語テキストを入力した方が品質が安定し、2〜3文程度の入力が最適だと報告している。

詳細

モデル: Qwen/Qwen3-TTS-12Hz-1.7B-Base、HuggingFace からダウンロード
特徴: 3秒程度の音声サンプルでボイスクローン可能、多言語対応、商用利用可（Apache 2.0）
環境: DGX Spark aarch64 / CUDA 13.0 / Python 3.12 / uv 使用
PyTorch インストール: uv pip install “torch==2.9.1” torchaudio –index-url https://download.pytorch.org/whl/cu130
音声サンプル準備: ffmpeg で 3秒目から10秒間を切り出し、モノラル 24kHz に変換
Whisper（base モデル）で音声の文字起こし（ref_text）を取得
ボイスクローン実行: model.generate_voice_clone(text, language, ref_audio, ref_text) → soundfile で WAV 保存
DGX Spark 固有の CUDA OOM 対策: PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True と max_memory={0: “60GiB”} が必要
品質のコツ: ノイズ少ない単独話者の音声、自然な口語体日本語テキスト、2〜3文程度の入力が安定