Classmethod Mlx Whisper V3 Turbo 8bit
MLX Whisperのv3-turboの8bit量子化モデルを動かしてみる
- URL: https://dev.classmethod.jp/articles/trial-mlx-whisper-v3-turbo-asr-8bit/
- 日付: 2026-06-12
- Tier: Tier 3
- 要旨: mlx-communityのwhisper-large-v3-turbo-asr-8bitモデルをmlx-audioライブラリで動かす手順。ファイル生成を避けるためモデルの
generate()を直接呼ぶ方法と、アプリ組み込み向けのコード例を紹介。
詳細
使用モデル: mlx-community/whisper-large-v3-turbo-asr-8bit(mlx-audio開発者作成版)
基本的な使い方(mlx-audioライブラリ経由):
from mlx_audio.stt import load_model
from mlx_audio.stt.models.whisper.whisper import Model, STTOutput
model: Model = load_model("mlx-community/whisper-large-v3-turbo-asr-8bit")
result: STTOutput = model.generate(
audio="path_to_audio.wav",
language="ja",
word_timestamps=True,
)注意点:
- モデルカード記載の
generate_transcription()はoutput_pathにファイルを強制生成する(format=""で回避可能だが非推奨) - アプリ組み込みにはモデルの
.generate()を直接呼ぶ方法が適切 - 日本語文字起こしに対応、
word_timestamps=Trueで話者識別用のタイムスタンプ取得可能