コンテンツにスキップ
Dev Classmethod Jp Articles Dgx Spark Gemma4 12b Allround

Gemma 4 に 12B が追加されたので DGX Spark で日本語性能・音声入力・MTP まで試してみた

  • URL: https://dev.classmethod.jp/articles/dgx-spark-gemma4-12b-allround/
  • 日付: 2026-06-05
  • Tier: Tier 3
  • 要旨: Gemma 4 ファミリーに追加された12B(E4Bと26B-MoEの中間)を DGX Spark で実機評価。日本語常識テストではE4Bとほぼ同等だが、中量級初の音声入力対応とDrafter付属のMTPによる2.8倍高速化が差別化ポイント。

詳細

  • アーキテクチャ: Encoder-free。画像(35M埋め込み層, 48×48pxパッチ)・音声(16kHz→40msフレーム→線形変換)・テキストが同一の重みを共有
  • コンテキスト: 256Kトークン(E4Bより大幅拡大)
  • 日本語常識テスト (JCommonsenseQA, 1116問):
    • E4B: 94.1% / 0.15秒
    • 12B: 94.6% / 0.32秒
    • 31B: 97.7% / 4.84秒
      → E4Bとほぼ同等スコア。常識推論ではE4Bが天井に近いため中量級の差が出にくい
  • 日本語音声 (FLEURS 100件): CER中央値16.1%、平均23.1%。同音異義語で取り違える傾向あり(専用ASRの1桁台CERには及ばない)
  • 画像 (JMMMU 300問): 45.7%。文章主体の分野は得意(CS:75%、心理:75%)、工学系図面は不得意(機械:0%)
  • MTP (vLLM nightly + drafter gemma-4-12B-it-assistant): baseline 7.7 tok/s → MTP(spec=4) 21.5 tok/s(約2.8倍)
  • 動作条件: transformers は GitHub main から取得が必要(gemma4_unified 新アーキ対応のため)。torchvision・ninja 問題あり
  • 評価: テキストのみなら E4B で十分。音声を含むマルチモーダルを1モデルで回す用途・16GBでの手軽な運用に12Bが有利