コンテンツにスキップ
Classmethod Mlx Whisper V3 Turbo 8bit

MLX Whisperのv3-turboの8bit量子化モデルを動かしてみる

詳細

使用モデル: mlx-community/whisper-large-v3-turbo-asr-8bit(mlx-audio開発者作成版)

基本的な使い方mlx-audioライブラリ経由):

from mlx_audio.stt import load_model
from mlx_audio.stt.models.whisper.whisper import Model, STTOutput

model: Model = load_model("mlx-community/whisper-large-v3-turbo-asr-8bit")
result: STTOutput = model.generate(
    audio="path_to_audio.wav",
    language="ja",
    word_timestamps=True,
)

注意点:

  • モデルカード記載のgenerate_transcription()output_pathにファイルを強制生成する(format=""で回避可能だが非推奨)
  • アプリ組み込みにはモデルの.generate()を直接呼ぶ方法が適切
  • 日本語文字起こしに対応、word_timestamps=Trueで話者識別用のタイムスタンプ取得可能