コンテンツにスキップ
Dev Classmethod Jp Foundation Models Multimodal Image Analysis

Foundation Models のマルチモーダル機能で画像解析してみた

  • URL: https://dev.classmethod.jp/articles/foundation-models-multimodal-image-analysis/

  • 日付: 2026-06-14

  • Tier: Tier 2

  • 要旨: WWDC26 で発表された Apple Foundation Models のマルチモーダル機能(画像入力)を実機(iPhone 16e / シミュレータ)で検証。Attachment(cgImage) で画像をプロンプトに組み込め、ペット写真で犬種認識・キャプション生成が動作確認できた。オンデバイス推論でも LLM らしい確率的な出力変動あり。

詳細

  • 動作環境: Apple Intelligence 対応デバイス必須。Xcode 27.0 Beta / iOS 27.0 Beta / macOS Tahoe 26.4.1 で検証。
  • 実装: LanguageModelSession.respond {} のブロック内に文字列と Attachment(cgImage) を並べるだけ。UIImage は .cgImage で変換してから渡す(Attachment は UIImage 直渡し不可)。
  • 構造化出力: @Generable + @Guide マクロで任意の Swift 型として結果を受け取れる。@Generable 型はコンテキストウィンドウを消費するため不要なプロパティは省く。
  • 同一プロンプト4回実行で毎回表現が変わり(「チワワ」判定あり/なし)、処理時間 2,584〜3,841ms とばらつきがあった。