コンテンツにスキップ
Zenn Dev Satoh Y 0323 Articles 1bb9ddf4f5cf1f

AI専用動画編集ツールにGPU文字起こしを足したら、whisperはCPUでも『GPU使用』と自己申告してきた — clipwright

  • URL: https://zenn.dev/satoh_y_0323/articles/1bb9ddf4f5cf1f
  • 日付: 2026-06-23
  • Tier: Tier 3
  • 要旨: AI 専用動画編集ツール clipwright に GPU 文字起こしを追加。機能コードはほぼ 0 行だが、whisper が CPU 実行でも「use gpu = 1」と自己申告するトラップが最難関。AI が唯一の判断材料とするツール出力の観測サーフェス設計が本質。

詳細

AI エージェント専用の動画編集 MCP サーバー clipwright に 3 機能追加(素材連結・画像オーバーレイ・GPU 文字起こし)。主役は GPU 文字起こし。whisper.cpp の CUDA ビルドを指すだけで GPU 化でき機能コードはほぼ不要だが、「GPU で動いたか」を AI に伝える観測が難関。AI が手にできるのはツールの JSON エンベロープのみで、device: cuda が書かれなければ判断不能。トラップ:whisper は CPU 実行でも use gpu = 1(要求パラメータ)と出力し、本当の結果は数行下の no GPU found。backend 初期化の結果行だけ見る設計に。JSON systeminfo は CPU 命令セット表で device 情報なし。CWE-209 でモデル絶対パスが stderr に漏れるため固定ラベルのみ返しサニタイズ二重化。realtime_factor の式が README で逆向きだったが、AI は docstring を契約として読むため実装バグと同じ実害になり High 扱いで修正。教訓:机上レビュー(シェルを持たない design-critic エージェント)は方向を当てるが、結論は実バイナリ(whisper-cli/ffmpeg)の出力で出す。ffmpeg フェードも「正しそうな書き方」がパースで落ち、回りくどい書き方だけ通る。テスト環境が新コードを黙ってシャドウする罠も効果実測 e2e で検出。