コンテンツにスキップ
Dev Classmethod Jp Articles Llm Extended Thinking Token Prediction Prom 3b260bc0

LLMは「考えて」いない:トークン予測の仕組みから理解するハルシネーション・プロンプトエンジニアリング・セキュリティ

  • URL: https://dev.classmethod.jp/articles/llm-extended-thinking-token-prediction-prompt-engineering-deep-dive
  • 日付: 2026-06-25
  • Tier: Tier 2
  • 要旨: LLMは「考えて」いないというテーゼに基づく詳解。LLMは次のトークンの確率が最も高い単語断片を逐次出力する予測マシンであり、「理解」も「思考」もしていない。トークナイザーはBPEで約10万語彙を構築し、言語によりトークン効率が異なる(日本語は英語の1.5~2倍のコスト)。生成は1トークンずつの自己回帰で、Prefillフェーズ(入力並列処理)とDecodeフェーズ(出力逐次処理)の2段階。Causal Attention(因果マスク)により各トークンは過去のみ参照。ハルシネーションは訓練データ限界・雪だるま効果・「わかりません」回答パターン不足の3つのメカニズムで発生。プロンプトエンジニアリングは確率分布の絞り込みであり、訓練データの特定領域を「呼び起こす」統計的フィルタ。Unicode・ホモグリフ攻撃やゼロ幅文字攻撃はトークナイザー境界ずれを利用した安全ガードレイル突破手法。Extended Thinkingは「考える空間」で雪だるま効果への自己修正を可能にする設計。

詳細

ClassMethod記事による包括的なLLM技術解説。トークナイザー挙動とSelf-Attentionメカニズムから生成プロセス全体を構造化。Prefillフェーズはプロンプト全体を並列処理(GPU行列演算)、Decodeフェーズは因果律制約で1トークンずつ逐次処理(KV Cache活用)。ハルシネーションの実務対策はtemperature調整・RAG・出典明示・ファイアウォール検証ワークフロー。プロンプトエンジニアリングの効果は確率分布絞り込み(Role指定で訓練データ領域を限定)。Few-shot Promptingはパターンマッチング効果が強い。Fable 5セキュリティ事件(120,000文字システムプロンプト漏洩)の手法:①Unicode・ホモグリフ置換(strcpyのcをキリル文字сに置換)②長文コンテキスト密輸③ドキュメント構造フレーミング④フィクションフレーミング⑤分解と再構成。ゼロ幅文字(U+200B)挿入で安全分類器をバイパス。Glitch Token(SolidGoldMagikarp)はトークナイザー語彙と訓練データ不一致による異常。多層防御(入力フィルタ+モデル内安全訓練+出力監査+アプリケーション層)が必須。Extended Thinkingは「思考トークン」を非表示で生成し、最終回答の文脈として蓄積、自己修正を実現。budget_tokens と max_tokens の管理:budget_tokens ≤ max_tokens の制約。