コンテンツにスキップ
Dev Classmethod Jp Articles Llm Birth History Turing Shannon Transformer Gpt3

「失敗の積み重ね」がLLMを生んだ — 別々の問題を解こうとした人々の80年

  • URL: https://dev.classmethod.jp/articles/llm-birth-history-turing-shannon-transformer-gpt3
  • 日付: 2026-06-24
  • Tier: Tier 2
  • 要旨: ChatGPTやClaudeは「LLMを作ろう」という目標から生まれたのではなく、80年にわたる別々の問題解決の副産物が積層されたものです。1936年チューリングは数学の完全性を証明するため「停止問題」を定義し、プログラムをデータとして扱う万能チューリングマシンの概念を生み出しました。1948年シャノンは電話ノイズの問題から「情報とは不確実性の削減」と定義し、情報エントロピーを数式化し、圧縮とデータ通信の理論を確立しました。1950~60年代のパーセプトロンと挫折、1986年バックプロパゲーション、2012年GPUによる革新、2013年Word2Vec、2014年RNNと機械翻訳、2017年Attention is All You Needによるトランスフォーマーへと進化し、それぞれが異なる領域の数学的基礎を提供しています。

詳細

LLMの起源は80年にわたる複数の科学的発見の融合です。1936年のアラン・チューリングは数学のあらゆる命題が機械化可能かを問う「決定問題」に対して、停止問題の不可解性を証明することで、計算可能性に明確な限界があることを示しました。証明過程で「計算とは何か」を定義する必要から生まれたチューリングマシンと万能チューリングマシン(プログラムをデータとして扱う)の概念が、現代のコンピュータアーキテクチャ(ノイマン型)の基盤となっています。1948年のクロード・シャノンは電話回線のノイズ問題から出発し、「情報とは予測不可能性(エントロピー)」と定義し、情報理論を確立しました。この理論はデータ圧縮(JPEG、MP3、BPE符号化)、LLMの訓練損失(クロスエントロピー)、推論時のTemperatureパラメーター制御すべてに適用されています。1958年のパーセプトロンは「機械がデータから自分でルール発見できる」可能性を示しましたが、1969年にミンスキーとペパートがXOR問題で学習の限界を証明、第一次AI冬をもたらしました。1986年のバックプロパゲーション(ルメルハート、ヒントン、ウィリアムズ)がこの「ただし多層ネットワークなら…」の問題を解きましたが、計算速度が実用的ではありませんでした。2012年のAlexNetはGPUの並列処理能力(行列演算の同時実行)によって訓練速度を数週間から数日に圧縮し、深層学習の実用化を実現しました。2010年代の勾配消失問題はReLU活性化関数と残差接続(ResNet)により克服されました。2013年のWord2Vec(Google・ミコロフ)は「単語を意味のあるベクトル座標に変換する」Embeddingを実現し、意味の演算(王様―男性+女性≈女王)を可能にしました。コサイン類似度による意味距離の測定は現在のRAG検索基盤となっています。2014年以降、RNN(再帰型ニューラルネットワーク)は順序依存的な言語処理に対応し、機械翻訳がこの技術的課題の主戦場となりました。2017年のVariswani et al「Attention is All You Need」がトランスフォーマーアーキテクチャを提案し、並列処理能力とAttention機構が言語モデルの大規模化を可能にしました。LLM全体を支配する一つの数学的フレームワーク(Shannonの情報理論)が、電話工学から80年後に「賢さの定義」と「創造性の調整」の両面で機能しています。