Dev Classmethod Jp Articles Llm Birth History Turing Shannon Transformer Gpt3

「失敗の積み重ね」がLLMを生んだ — 別々の問題を解こうとした人々の80年

URL: https://dev.classmethod.jp/articles/llm-birth-history-turing-shannon-transformer-gpt3
日付: 2026-06-24
Tier: Tier 2
要旨: ChatGPTやClaudeは「LLMを作ろう」という目標から生まれたのではなく、80年にわたる別々の問題解決の副産物が積層されたものです。1936年チューリングは数学の完全性を証明するため「停止問題」を定義し、プログラムをデータとして扱う万能チューリングマシンの概念を生み出しました。1948年シャノンは電話ノイズの問題から「情報とは不確実性の削減」と定義し、情報エントロピーを数式化し、圧縮とデータ通信の理論を確立しました。1950～60年代のパーセプトロンと挫折、1986年バックプロパゲーション、2012年GPUによる革新、2013年Word2Vec、2014年RNNと機械翻訳、2017年Attention is All You Needによるトランスフォーマーへと進化し、それぞれが異なる領域の数学的基礎を提供しています。

詳細

LLMの起源は80年にわたる複数の科学的発見の融合です。1936年のアラン・チューリングは数学のあらゆる命題が機械化可能かを問う「決定問題」に対して、停止問題の不可解性を証明することで、計算可能性に明確な限界があることを示しました。証明過程で「計算とは何か」を定義する必要から生まれたチューリングマシンと万能チューリングマシン（プログラムをデータとして扱う）の概念が、現代のコンピュータアーキテクチャ（ノイマン型）の基盤となっています。1948年のクロード・シャノンは電話回線のノイズ問題から出発し、「情報とは予測不可能性（エントロピー）」と定義し、情報理論を確立しました。この理論はデータ圧縮（JPEG、MP3、BPE符号化）、LLMの訓練損失（クロスエントロピー）、推論時のTemperatureパラメーター制御すべてに適用されています。1958年のパーセプトロンは「機械がデータから自分でルール発見できる」可能性を示しましたが、1969年にミンスキーとペパートがXOR問題で学習の限界を証明、第一次AI冬をもたらしました。1986年のバックプロパゲーション（ルメルハート、ヒントン、ウィリアムズ）がこの「ただし多層ネットワークなら…」の問題を解きましたが、計算速度が実用的ではありませんでした。2012年のAlexNetはGPUの並列処理能力（行列演算の同時実行）によって訓練速度を数週間から数日に圧縮し、深層学習の実用化を実現しました。2010年代の勾配消失問題はReLU活性化関数と残差接続（ResNet）により克服されました。2013年のWord2Vec（Google・ミコロフ）は「単語を意味のあるベクトル座標に変換する」Embeddingを実現し、意味の演算（王様―男性＋女性≈女王）を可能にしました。コサイン類似度による意味距離の測定は現在のRAG検索基盤となっています。2014年以降、RNN（再帰型ニューラルネットワーク）は順序依存的な言語処理に対応し、機械翻訳がこの技術的課題の主戦場となりました。2017年のVariswani et al「Attention is All You Need」がトランスフォーマーアーキテクチャを提案し、並列処理能力とAttention機構が言語モデルの大規模化を可能にしました。LLM全体を支配する一つの数学的フレームワーク（Shannonの情報理論）が、電話工学から80年後に「賢さの定義」と「創造性の調整」の両面で機能しています。

Dev Classmethod Jp Articles Lambda Microvms Snapshot Random UUID Duplication Dev Classmethod Jp Articles Nvidia Npn Agentic Ai Bootcamp Report