これまでの「AI開発入門」シリーズでは、ランダムフォレストなどの伝統的な機械学習を用い、AI開発の「作法」とも言える評価基盤やデータ設計を学んできました。
しかし、現代のAI、特に「ゲームの攻略情報を教えてくれるAI」や「自然な対話ができるAI」を実現するためには、もう一段高いステージへ進む必要があります。
それが、ディープラーニング(深層学習)、そしてその中核技術である「トランスフォーマー(Transformer)」の世界です。
「LLM(大規模言語モデル)の開発なんて、個人や小規模なチームでは無理なのでは?」 「GPUという高価な機材が必要で、コストが凄まじいのでは?」
そんな不安を感じる方も多いでしょう。しかし、本シリーズで目指すのは、「個人の手の届く範囲で、最大限の効果を発揮するAI開発」です。
目次
第1章:はじめに ── 本記事で解き明かすこと
本記事は、新しいシリーズ『AI開発実践』の幕開けとして、以下の3つの大きなテーマについて整理していきます。
- 伝統的機械学習とトランスフォーマーの決定的な違い
- なぜ、これまでの決定木モデル(ランダムフォレストなど)ではテキストデータの扱いに限界があったのか。そして、なぜトランスフォーマーが現代AIの主役になったのかを解説します。
- アテンション(Attention)という「革命」
- LLMが文章の「文脈」を理解できるのはなぜか。その心臓部である「注意(Attention)」の仕組みを、数式を使わず直感的に理解することを目指します。
- 個人開発における「無理のない環境」の選び方
- GPUとは何か、そしてなぜそれが必要なのか。高額な機材を揃える前に、まずは「コストゼロ」でどこまで検証できるのか、現実的な開発環境の選択肢を提示します。
本シリーズでの実践は、以下の環境を前提として進めていきます。
- プログラミング言語: Python
- 使用ツール: Antigravity
これまでの「入門シリーズ」から継続されている方はそのままで問題ありませんが、新しく読み始められる方や、まだ開発環境の構築がお済みでない方は、まずは「入門シリーズ 第1回記事」を参照のうえ、環境構築の作業を完了させておいてください。
技術の表面的な変化に惑わされることなく、本質的な仕組みを理解して、自分だけのAIを形にする旅をここから始めましょう。
第2章:伝統的手法と何が違うのか ── 「人間による設計」から「AIによる発見」へ
これまでの連載で扱ってきたランダムフォレストや線形回帰などの手法は、AIの世界では「伝統的な機械学習(Traditional Machine Learning)」と呼ばれます。
これらと、トランスフォーマーに代表されるディープラーニング(深層学習)の最大の違いは、「誰がデータの特徴を見つけ出すか」という点にあります。
2.1. 「特徴量エンジニアリング」の限界
伝統的な機械学習において、最も重要で、かつ最も時間がかかる作業が「特徴量エンジニアリング」でした。
例えば、「あるメールが迷惑メールかどうか」を判定するAIを作る場合、人間が次のような項目(特徴量)を考えてデータ化していました。
- 送信元のアドレスに特定の記号が含まれているか?
- 「当選」「無料」という単語が何回出てくるか?
- メールの本文は何文字か?
このように、「データのどこに注目すべきか」を人間が設計し、それを数値の表にまとめてからAIに渡すのが旧来のスタイルです。
これを「構造化データ」を扱う手法と呼びます。
2.2. 文脈を丸ごと理解する「表現学習」
一方、トランスフォーマーをはじめとするディープラーニングは、テキストという「非構造化データ」をそのまま放り込んでも、AI自身が「どこに注目すべきか」を自動的に学習します。これを表現学習と呼びます。
「ゲームの攻略情報を教える」というタスクで比較してみましょう。
| 項目 | 伝統的な機械学習 (ランダムフォレスト等) | トランスフォーマー (LLM) |
|---|---|---|
| データ形式 | 数値やカテゴリの「表」 | 自由な「文章」そのまま |
| 人間の役割 | 「攻撃力の値」や「属性」を抽出して整理する | 高品質な文章データを用意する |
| AIの役割 | 整理された数値からパターンを見つける | 単語間の複雑な関係(文脈)を理解する |
| 得意なこと | 数値に基づく分類や予測 | 意味の理解、文章の生成、翻訳 |
2.3. なぜテキストにはトランスフォーマーなのか
文章には、単語の組み合わせによって無限の意味が生まれるという特性があります。
「ハズレではない」と「アタリではない」では、使われている単語は似ていても意味は真逆です。
伝統的な手法でこれら全てのパターンを人間が定義(特徴量設計)するのは、事実上不可能です。
トランスフォーマーは、文章を丸ごと読み込み、「どの単語が、どの単語に対して、どのような影響を与えているか」という文脈(コンテキスト)を自ら発見するため、人間のような自然な理解が可能になったのです。
第3章:アテンション(Attention)という革命 ── AIは如何にして「文脈」を読めるようになったのか
トランスフォーマーがこれほどまでに強力なのは、「アテンション(Attention:注意)」という革新的なメカニズムを備えているからです。
この章では、LLMがどのようにして文章の「意味」や「文脈」を捉えているのかを紐解きます。
3.1. 「注意」を向けるということ
私たちは文章を読むとき、すべての単語を均等に重要視しているわけではありませんよね。
例えば、「ルークはおもむろに右手にペンを持つと、紙にオーラベッシュ文字を書きはじめた」という文を考えてみましょう。
この文章を理解しようとするとき、私たちの脳は自然と「誰が」「何で/どのように」「何を」「どうした」という単語に注意を向けます。
「右手に」や「紙に」といった情報は、その次であり、「おもむろに」のような単語にはあまり注意を払わないのではないでしょうか。
「アテンション」とは、AIにこれと同じことをさせる仕組みです。
入力された文章の中で、「どの単語とどの単語が強く結びついているか」を計算し、重要な部分に「重み(注意)」を置くことで、文の構造を把握します。
3.2. 以前の技術が抱えていた「忘却」の壁
トランスフォーマーが登場する前は、RNN(再帰型ニューラルネットワーク)という技術が主流でした。
RNNは、文章を「端から一文字ずつ」順番に処理していく方式です。
しかし、RNNには大きな弱点がありました。
それは「長い文章になると、最初の方の内容を忘れてしまう」ということです。
また、文の冒頭に出てきた主語が、文末の動詞にどう関わっているかを捉えるのが非常に苦手でした。
これは、人間がいちいち一言一句を完璧に記憶しながら長い小説を読むのが難しいのと似ています。
3.3. 全方位を同時に見るトランスフォーマー
トランスフォーマーのアテンションが革命的だったのは、文章を順番に処理するのではなく、「すべての単語を同時に、全方位から見渡す」ことを可能にした点です。
- 並列処理: 文章全体を一気に読み込むため、処理が非常に高速です。
- 長距離の依存関係: 文の最初にある単語と、最後にある単語の関係性を、距離に関係なくダイレクトに計算できます。
- 多角的な理解: 「It(それ)」という単語が出てきたとき、それが前の文のどの名詞を指しているのかを、アテンションによって正確に特定できます。
この「全方位への注意」によって、AIは単なる単語の羅列ではなく、複雑に絡み合った「文脈」を理解できるようになったのです。
第4章:個人開発における「無理のない環境」の選び方 ── GPUの重要性とコストの現実
トランスフォーマーという強力な魔法を操るには、それ相応の「エンジン」が必要です。
ここでは、なぜ普通のパソコンでは厳しいと言われるのか、そして個人が無理なくスタートできる環境はどこにあるのかを整理します。
4.1. なぜAIには「GPU」が必要なのか?
AI開発のニュースで必ずと言っていいほど登場するのがGPU(グラフィックス・プロセッシング・ユニット)です。
もともとは美しい3Dゲームを描画するための部品でしたが、今ではAI計算の心臓部となっています。
CPU(中央演算処理装置)が「少数の天才による、複雑な命令の順番待ち処理」を得意とするのに対し、GPUは「数千人の作業員による、単純な計算の同時並行処理」を得意とします。
トランスフォーマーの中身は、膨大な数の「行列計算(掛け算と足し算の塊)」です。
- CPUで実行した場合: 1つずつ順番に計算するため、終わるまでに数日かかる。
- GPUで実行した場合: 数千のコアで一斉に計算するため、数時間で終わる。
この圧倒的なスピードの差が、AI開発の試行錯誤を可能にしています。
4.2. 「推論」は手元のPCでも可能だが「学習」は別
ここで重要なのは、「推論(モデルを使う)」と「学習(モデルを鍛える)」を分けて考えることです。
- 推論(Inference): すでに賢いAI(学習済みモデル)に質問をして答えをもらう作業です。これなら、最新のノートPCや、少し工夫(量子化という軽量化技術)をした環境であれば、手元のCPUだけでも動かすことができます。
- 学習・ファインチューニング(Training): AIに新しい知識を覚え込ませ、脳そのものを書き換える作業です。これには膨大な計算量と、データを一時的に保存する大量の「ビデオメモリ(VRAM)」が必要なため、一般的なPCではメモリ不足で止まってしまうか、現実的ではない時間がかかります。
4.3. 最初の一歩:コストを抑えた「賢い」環境選び
「じゃあ、数十万円するゲーミングPCを買わなきゃいけないの?」と思われるかもしれませんが、答えは「いいえ」です。
個人開発においては、以下の3段階のステップを推奨します。
- ステップ1:ローカルPC(CPU)で試す【コスト:0円】
- まずは手元のPCで、Antigravityなどを使って小規模なモデルを「動かして(推論して)みる」ところから始めます。速度は遅いですが、仕組みを学ぶには十分です。
- ステップ2:クラウドGPU(Google Colab等)の利用【コスト:月額数千円〜】
- 本格的にAIを鍛えたい(ファインチューニングしたい)時だけ、インターネット越しに強力なGPUをレンタルします。必要な時だけ課金すれば、高価な機材を買うよりも遥かに安上がりです。
- ステップ3:RAG(検索拡張生成)の活用【コスト:ほぼ0円】
- 実は、モデルそのものを鍛え直さなくても、外部の「ベクトルデータベース」と組み合わせることで、AIに最新情報を教えることができます。これなら個人PCのスペックでも十分に実用的なシステムが作れます。
第5章:まとめと次回の予告
本記事では、伝統的な機械学習の時代から、トランスフォーマーという「革命」を経て、LLMがいかにして文脈を理解するようになったかを紐解いてきました。
5.1. 本シリーズで扱う「ステップ3(RAG)」
今後の実践パートでメインに扱うのは、「RAG(Retrieval-Augmented Generation)」という手法です。これには3つの大きな理由があります。
- 圧倒的なコストパフォーマンス: 高価なGPUを長時間回す必要がなく、個人所有のPCスペックでも十分に実用的なシステムが構築可能です。
- 情報の正確性と更新性: モデルそのものを鍛え直す(ファインチューニング)場合、知識を更新するたびに再学習が必要ですが、RAGなら外部の「教科書(データ)」を差し替えるだけで、最新のゲーム攻略情報にも対応できます。
- 現代AI開発の「最適解」: 現在、企業がLLMをビジネス導入する際、最も多く採用されているのがこのRAGという構成です。これを習得することは、最も汎用性の高いスキルを身につけることを意味します。
5.2. 「学習(ファインチューニング)」はどう扱うのか
もちろん、ステップ2である「ファインチューニング」を完全に切り捨てるわけではありません。
- 理論として学ぶ: トランスフォーマーがどのように学習し、どのように賢くなるのかという「原理」を知ることは、RAGを使いこなす上でも不可欠です。
- 「手前」まで実践する: 実際にデータを準備し、学習コードを書くところまでは解説します。その上で、「ここから先を実行するにはGPUコストがかかる」という境界線を明確に示します。
5.3. 次回予告:記憶の保管庫「ベクトルデータベース」
次回の記事では、RAGを実現するための鍵となる「ベクトルデータベース」について解説します。
「言葉を計算可能な数値(ベクトル)に変換し、意味が近いものを瞬時に探し出す」 この魔法のような仕組みを理解することで、AIに特定の知識を授ける具体的な方法が見えてきます。
これまでの連載で培った「データを構造的に捉える視点」を活かし、LLMを「自分専用の専門家」へと進化させる準備を始めていきましょう。


コメント