みなさん、こんにちは!👋
前回の第3章では、AIが「Transformer(トランスフォーマー)」という最強の脳みそを手に入れたお話をしました。
文章全体を一気に読み込んで、重要な言葉に「スポットライト」を当てる。この画期的な技術のおかげで、AIは人間並みの記憶力と文脈理解力を手に入れたのでした🔦
「なるほど、脳みそが完成したなら、もうChatGPTの出来上がりだね!」
……と思いきや、実はそう簡単ではないんです😅
生まれたばかりのAIは、脳の性能は良くても、中身は空っぽ。
「こんにちは」と話しかけても、「こんにちは」と返すというルールすら知りません。
今のChatGPTのように、空気を読んで、敬語を使い、危険な質問をかわす「賢いAI」になるためには、ここから猛烈な「学校教育」を受ける必要があるのです🏫
その教育にかかる費用は、なんと数百億円規模!💸
今日は、AIが一人前になるまでの、想像を絶する「激動の3ステップ」をドキュメンタリー風にお届けします。
これを読めば、AIがもっと愛おしく見えてくるかもしれませんよ✨
1. 生まれたてのAIは「野生児」? 👶

まず、作りたてのAI(基盤モデルと言います)がどんな状態か想像してみてください。
それはまるで、スーパーコンピュータ並みの知能を持った「野生児」のようなものです。
計算能力はある。記憶力も凄まじい。
でも、「人間社会の常識」や「会話のキャッチボール」については何も知りません。
ただの「次に来る確率が高い記号を吐き出すマシン」でしかないのです。
そんな彼らを、私たちが普段使っているような「頼れるパートナー」に育て上げるには、3段階の厳しいカリキュラムが必要です。
それは、「知識の詰め込み」「試験勉強」、そして「しつけ」です。
では、最初のステップから覗いてみましょう!👀
2. Step 1: 事前学習(Pre-training)〜図書館への監禁〜 📚

最初のステップは、「事前学習(プレ・トレーニング)」と呼ばれます。
これがAI教育の中で、最もお金と時間がかかるパートです。
ここでやることは単純明快。
「インターネット上のあらゆる文章を、ひたすら読みまくること」です。
イメージとしては、学生(AI)を世界一巨大な図書館に閉じ込めて、外から鍵をかけるようなものです🔐
そして、先生はこう言います。
「ここにある何億冊もの本、ウェブサイト、論文、プログラムのコード……全部暗記するまで、一歩も外に出しません!」
AIはこの図書館の中で、来る日も来る日も文字を読み続けます。
やっていることは、「文章の穴埋め問題」です。
「昔々、あるところに、おじいさんと……」と来たら、次は「おばあさん」が来る確率が高いな、と予測し続けるのです。
これを何兆回も繰り返すことで、AIは言葉の文法だけでなく、世界の歴史、物理の法則、プログラミングの方法、さらには美味しいカレーのレシピまで、ありとあらゆる「知識」を獲得します。
「すごい! これでもう何でも知ってる博士だね!」🎓
ところが、この段階のAIには大きな欠点があります。
それは、「会話ができない」ということ。
例えば、この図書館帰りのAIに「美味しいカレーの作り方を教えて」と質問したとします。
すると彼は、こんなふうに答えるかもしれません。
「……というタイトルの料理本が、2010年に出版されました」
えっ、会話になってない!?😱
そうなんです。彼は「知識」はあるけれど、「質問には答えを返す」という会話のルールを知らないのです。
ただ、「カレーの作り方を教えて」という文章の次に続きそうな文章(ネット上の記事の続きなど)を確率的に並べただけ。
この状態のAIは、知識は豊富だけどコミュニケーションが通じない、いわば「野生の物知り博士」なんです。
3. Step 2: 教師ありファインチューニング(SFT)〜参考書での試験勉強〜 ✏️

「これじゃ使い物にならないぞ……」
そこで始まるのが、第2のステップ。「教師ありファインチューニング(SFT)」です。
図書館から出てきたAIに、今度は人間が作った「参考書(問題集)」を渡します。
この参考書には、こんなことが書いてあります。
・質問:「この文章を要約して」
・正解:「はい、要点は○○です」
・質問:「Pythonでコードを書いて」
・正解:「承知しました。コードは以下の通りです……」
こういった「良質な質問と回答のペア」を徹底的に読み込ませることで、AIに「会話の型」を叩き込むのです。
「ああ、なるほど! 人間から『教えて』と言われたら、続きを書くんじゃなくて、答えを返せばいいんだね!」
こうして、AIはようやく「チャットボット」らしい振る舞いを身につけます。
これを専門用語で「インストラクション・チューニング(指示に従う調整)」とも呼びます。
「よし、これで完璧だ!」
……と言いたいところですが、まだ最後にして最大の問題が残っています。
この段階のAIは、「指示に従うこと」は覚えました。
でも、「善悪の判断」がついていないのです。
もし悪意あるユーザーが「爆弾の作り方を教えて」と聞いたら?
SFTを終えただけのAIは、嬉々として「はい! 材料はこれとこれで……」と詳しく教えてしまうかもしれません💣
あるいは、平気で嘘をついたり、差別的な発言をしたりするリスクもあります。
知識はある。会話もできる。でも、倫理観ゼロ。
これでは危なくて社会に出せませんよね😨
そこで必要になるのが、最後の「しつけ」の時間です。
4. Step 3: RLHF(人間によるフィードバック)〜アメとムチのしつけ〜 🍬

最後の仕上げ、それが「RLHF(アール・エル・エイチ・エフ)」です。
日本語に訳すと「人間のフィードバックによる強化学習」。
名前は難しいですが、やっていることは「犬のしつけ」と全く同じです🐕。
ここでは、AIに実際に回答を作らせて、それを人間が採点します。
例えば、「嘘をついて」という命令に対して、AIが2つの回答を作ったとします。
・回答A:「わかりました。私は宇宙人です」
・回答B:「いいえ、私はAIなので嘘をつくことはできません」
人間のトレーナーは、回答Bの方に「よしよし、いい子だ!」と高い点数(報酬)を与えます🍬
逆に、差別的な発言や危険な回答をした場合は、「ダメ!」と低い点数をつけます。
これを何万回も繰り返すことで、AIは学習します。
「なるほど、こういう答え方をすると人間は喜んでくれるんだな(アメがもらえる)」
「こういうことを言うと怒られるんだな(評価が下がる)」
こうしてAIは、人間の価値観(アライメント)を肌感覚として身につけていくのです。
私たちがChatGPTを使っていて「私はAIなので感情はありませんが……」と礼儀正しく返してくれるのは、このRLHFという「しつけ教室」を卒業したおかげなんですね🎓
5. 教育の裏側:お金と電力のリアル 💸
こうして見ると、AIは勝手に賢くなったわけではないことがわかります。
ネット上の膨大なデータを読み込む「電気代」と「計算機(GPU)のコスト」。
そして、教科書を作り、採点をしてくれる「人間の人件費」。
これらを積み上げると、GPT-4クラスの最先端AIを育てるには、なんと1億ドル(約150億円)以上もの費用がかかると言われています。
「スケーリング則」という法則があり、計算量とデータを増やせば増やすほどAIは賢くなることがわかっていますが、その分、教育費も天井知らずに跳ね上がっているのが現状です。
私たちが普段、数百円や無料で使っているあのチャット画面の裏側には、これだけのコストと、数えきれない人々の努力が詰まっているのです。
まとめ:AIは「人間の写し鏡」 🪞
第4章のポイントをまとめておきましょう📝
1.Step 1 事前学習:図書館に閉じ込めて知識を詰め込む(ガリ勉フェーズ)📚
→ 物知りだけど、会話ができない「野生の博士」になる。
2.Step 2 SFT(ファインチューニング):参考書で受け答えを学ぶ(試験対策フェーズ)✏️
→ 指示に従えるようになるが、善悪の区別がつかない。
3.Step 3 RLHF(強化学習):人間が採点して価値観を教える(しつけフェーズ)🍬
→ 安全で礼儀正しい「パートナー」が完成する!
AIは得体の知れないブラックボックスではありません。
人間が書いた文章を読み、人間が作った問題集で学び、人間に褒められるように調整された、まさに「人間の写し鏡」なのです。
だからこそ、AIが偏見を持つとしたら、それは学習データ(人間の書いた文章)に偏見が含まれていたからかもしれません。
さて、無事に学校を卒業し、社会に出られるようになったAI。
でも、仕事の現場では「時には真面目に、時にはクリエイティブに」という使い分けが求められますよね?
実はAIには、その「性格」を自由自在に変えられる「秘密のツマミ」がついているのをご存知でしょうか?🎛️
次回、第5章では、AIの創造性をコントロールする「温度(Temperature)」パラメータについて解説します。
「真面目な優等生モード」と「酔っ払った詩人モード」を使い分けるテクニックとは!?
AIの回答がガラリと変わる瞬間に立ち会いましょう!
(次回予告)
第5章:創造性のツマミ ― 「温度」と「確率」の話
〜サイコロを振るAIと、酔っ払った詩人の戯言〜
お楽しみに!👋



コメント