Zenn Dev Karaage0703 Articles 97f8a01cbb9c49
Qwen3-TTSで10秒の音声で自分の声をクローン
- URL: https://zenn.dev/karaage0703/articles/97f8a01cbb9c49
- 日付: 2026-06-26
- Tier: Tier 3
- 要旨: Alibaba Cloud が開発した Qwen3-TTS(1.7B パラメータ、Apache 2.0)を使い、10秒程度のポッドキャスト音声サンプルから自分の声をクローンした実験記録。NVIDIA DGX Spark(Grace CPU / GB10 GPU / 128GB 統合メモリ、Ubuntu 24.04 aarch64)上で CUDA 13.0 / Python 3.12 / uv 環境で動作させた手順を詳しく記載している。自然な口語体の日本語テキストを入力した方が品質が安定し、2〜3文程度の入力が最適だと報告している。
詳細
- モデル: Qwen/Qwen3-TTS-12Hz-1.7B-Base、HuggingFace からダウンロード
- 特徴: 3秒程度の音声サンプルでボイスクローン可能、多言語対応、商用利用可(Apache 2.0)
- 環境: DGX Spark aarch64 / CUDA 13.0 / Python 3.12 / uv 使用
- PyTorch インストール: uv pip install “torch==2.9.1” torchaudio –index-url https://download.pytorch.org/whl/cu130
- 音声サンプル準備: ffmpeg で 3秒目から10秒間を切り出し、モノラル 24kHz に変換
- Whisper(base モデル)で音声の文字起こし(ref_text)を取得
- ボイスクローン実行: model.generate_voice_clone(text, language, ref_audio, ref_text) → soundfile で WAV 保存
- DGX Spark 固有の CUDA OOM 対策: PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True と max_memory={0: “60GiB”} が必要
- 品質のコツ: ノイズ少ない単独話者の音声、自然な口語体日本語テキスト、2〜3文程度の入力が安定