コンテンツにスキップ
Zenn Dev Karaage0703 Articles 97f8a01cbb9c49

Qwen3-TTSで10秒の音声で自分の声をクローン

  • URL: https://zenn.dev/karaage0703/articles/97f8a01cbb9c49
  • 日付: 2026-06-26
  • Tier: Tier 3
  • 要旨: Alibaba Cloud が開発した Qwen3-TTS(1.7B パラメータ、Apache 2.0)を使い、10秒程度のポッドキャスト音声サンプルから自分の声をクローンした実験記録。NVIDIA DGX Spark(Grace CPU / GB10 GPU / 128GB 統合メモリ、Ubuntu 24.04 aarch64)上で CUDA 13.0 / Python 3.12 / uv 環境で動作させた手順を詳しく記載している。自然な口語体の日本語テキストを入力した方が品質が安定し、2〜3文程度の入力が最適だと報告している。

詳細

  • モデル: Qwen/Qwen3-TTS-12Hz-1.7B-Base、HuggingFace からダウンロード
  • 特徴: 3秒程度の音声サンプルでボイスクローン可能、多言語対応、商用利用可(Apache 2.0)
  • 環境: DGX Spark aarch64 / CUDA 13.0 / Python 3.12 / uv 使用
  • PyTorch インストール: uv pip install “torch==2.9.1” torchaudio –index-url https://download.pytorch.org/whl/cu130
  • 音声サンプル準備: ffmpeg で 3秒目から10秒間を切り出し、モノラル 24kHz に変換
  • Whisper(base モデル)で音声の文字起こし(ref_text)を取得
  • ボイスクローン実行: model.generate_voice_clone(text, language, ref_audio, ref_text) → soundfile で WAV 保存
  • DGX Spark 固有の CUDA OOM 対策: PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True と max_memory={0: “60GiB”} が必要
  • 品質のコツ: ノイズ少ない単独話者の音声、自然な口語体日本語テキスト、2〜3文程度の入力が安定