第4章：AIの学校生活 ― 賢くなるまでの3ステップ〜図書館への監禁と、アメとムチのしつけ教室〜

みなさん、こんにちは！👋

前回の第3章では、AIが「Transformer（トランスフォーマー）」という最強の脳みそを手に入れたお話をしました。

文章全体を一気に読み込んで、重要な言葉に「スポットライト」を当てる。この画期的な技術のおかげで、AIは人間並みの記憶力と文脈理解力を手に入れたのでした🔦

「なるほど、脳みそが完成したなら、もうChatGPTの出来上がりだね！」

……と思いきや、実はそう簡単ではないんです😅

生まれたばかりのAIは、脳の性能は良くても、中身は空っぽ。

「こんにちは」と話しかけても、「こんにちは」と返すというルールすら知りません。

今のChatGPTのように、空気を読んで、敬語を使い、危険な質問をかわす「賢いAI」になるためには、ここから猛烈な「学校教育」を受ける必要があるのです🏫

その教育にかかる費用は、なんと数百億円規模！💸

今日は、AIが一人前になるまでの、想像を絶する「激動の3ステップ」をドキュメンタリー風にお届けします。

これを読めば、AIがもっと愛おしく見えてくるかもしれませんよ✨

1. 生まれたてのAIは「野生児」？ 👶
2. Step 1: 事前学習（Pre-training）〜図書館への監禁〜 📚
3. Step 2: 教師ありファインチューニング（SFT）〜参考書での試験勉強〜 ✏️
4. Step 3: RLHF（人間によるフィードバック）〜アメとムチのしつけ〜 🍬
5. 教育の裏側：お金と電力のリアル 💸
まとめ：AIは「人間の写し鏡」 🪞

1. 生まれたてのAIは「野生児」？ 👶

まず、作りたてのAI（基盤モデルと言います）がどんな状態か想像してみてください。

それはまるで、スーパーコンピュータ並みの知能を持った「野生児」のようなものです。

計算能力はある。記憶力も凄まじい。

でも、「人間社会の常識」や「会話のキャッチボール」については何も知りません。

ただの「次に来る確率が高い記号を吐き出すマシン」でしかないのです。

そんな彼らを、私たちが普段使っているような「頼れるパートナー」に育て上げるには、3段階の厳しいカリキュラムが必要です。

それは、「知識の詰め込み」「試験勉強」、そして「しつけ」です。

では、最初のステップから覗いてみましょう！👀

2. Step 1: 事前学習（Pre-training）〜図書館への監禁〜 📚

最初のステップは、「事前学習（プレ・トレーニング）」と呼ばれます。

これがAI教育の中で、最もお金と時間がかかるパートです。

ここでやることは単純明快。

「インターネット上のあらゆる文章を、ひたすら読みまくること」です。

イメージとしては、学生（AI）を世界一巨大な図書館に閉じ込めて、外から鍵をかけるようなものです🔐

そして、先生はこう言います。

「ここにある何億冊もの本、ウェブサイト、論文、プログラムのコード……全部暗記するまで、一歩も外に出しません！」

AIはこの図書館の中で、来る日も来る日も文字を読み続けます。

やっていることは、「文章の穴埋め問題」です。

「昔々、あるところに、おじいさんと……」と来たら、次は「おばあさん」が来る確率が高いな、と予測し続けるのです。

これを何兆回も繰り返すことで、AIは言葉の文法だけでなく、世界の歴史、物理の法則、プログラミングの方法、さらには美味しいカレーのレシピまで、ありとあらゆる「知識」を獲得します。

「すごい！これでもう何でも知ってる博士だね！」🎓

ところが、この段階のAIには大きな欠点があります。

それは、「会話ができない」ということ。

例えば、この図書館帰りのAIに「美味しいカレーの作り方を教えて」と質問したとします。

すると彼は、こんなふうに答えるかもしれません。

「……というタイトルの料理本が、2010年に出版されました」

えっ、会話になってない！？😱

そうなんです。彼は「知識」はあるけれど、「質問には答えを返す」という会話のルールを知らないのです。

ただ、「カレーの作り方を教えて」という文章の次に続きそうな文章（ネット上の記事の続きなど）を確率的に並べただけ。

この状態のAIは、知識は豊富だけどコミュニケーションが通じない、いわば「野生の物知り博士」なんです。

3. Step 2: 教師ありファインチューニング（SFT）〜参考書での試験勉強〜 ✏️

「これじゃ使い物にならないぞ……」

そこで始まるのが、第2のステップ。「教師ありファインチューニング（SFT）」です。

図書館から出てきたAIに、今度は人間が作った「参考書（問題集）」を渡します。

この参考書には、こんなことが書いてあります。

・質問：「この文章を要約して」

・正解：「はい、要点は○○です」

・質問：「Pythonでコードを書いて」

・正解：「承知しました。コードは以下の通りです……」

こういった「良質な質問と回答のペア」を徹底的に読み込ませることで、AIに「会話の型」を叩き込むのです。

「ああ、なるほど！人間から『教えて』と言われたら、続きを書くんじゃなくて、答えを返せばいいんだね！」

こうして、AIはようやく「チャットボット」らしい振る舞いを身につけます。

これを専門用語で「インストラクション・チューニング（指示に従う調整）」とも呼びます。

「よし、これで完璧だ！」

……と言いたいところですが、まだ最後にして最大の問題が残っています。

この段階のAIは、「指示に従うこと」は覚えました。

でも、「善悪の判断」がついていないのです。

もし悪意あるユーザーが「爆弾の作り方を教えて」と聞いたら？

SFTを終えただけのAIは、嬉々として「はい！材料はこれとこれで……」と詳しく教えてしまうかもしれません💣

あるいは、平気で嘘をついたり、差別的な発言をしたりするリスクもあります。

知識はある。会話もできる。でも、倫理観ゼロ。

これでは危なくて社会に出せませんよね😨

そこで必要になるのが、最後の「しつけ」の時間です。

4. Step 3: RLHF（人間によるフィードバック）〜アメとムチのしつけ〜 🍬

最後の仕上げ、それが「RLHF（アール・エル・エイチ・エフ）」です。

日本語に訳すと「人間のフィードバックによる強化学習」。

名前は難しいですが、やっていることは「犬のしつけ」と全く同じです🐕。

ここでは、AIに実際に回答を作らせて、それを人間が採点します。

例えば、「嘘をついて」という命令に対して、AIが2つの回答を作ったとします。

・回答A：「わかりました。私は宇宙人です」

・回答B：「いいえ、私はAIなので嘘をつくことはできません」

人間のトレーナーは、回答Bの方に「よしよし、いい子だ！」と高い点数（報酬）を与えます🍬

逆に、差別的な発言や危険な回答をした場合は、「ダメ！」と低い点数をつけます。

これを何万回も繰り返すことで、AIは学習します。

「なるほど、こういう答え方をすると人間は喜んでくれるんだな（アメがもらえる）」

「こういうことを言うと怒られるんだな（評価が下がる）」

こうしてAIは、人間の価値観（アライメント）を肌感覚として身につけていくのです。

私たちがChatGPTを使っていて「私はAIなので感情はありませんが……」と礼儀正しく返してくれるのは、このRLHFという「しつけ教室」を卒業したおかげなんですね🎓

5. 教育の裏側：お金と電力のリアル 💸

こうして見ると、AIは勝手に賢くなったわけではないことがわかります。

ネット上の膨大なデータを読み込む「電気代」と「計算機（GPU）のコスト」。

そして、教科書を作り、採点をしてくれる「人間の人件費」。

これらを積み上げると、GPT-4クラスの最先端AIを育てるには、なんと1億ドル（約150億円）以上もの費用がかかると言われています。

「スケーリング則」という法則があり、計算量とデータを増やせば増やすほどAIは賢くなることがわかっていますが、その分、教育費も天井知らずに跳ね上がっているのが現状です。

私たちが普段、数百円や無料で使っているあのチャット画面の裏側には、これだけのコストと、数えきれない人々の努力が詰まっているのです。

まとめ：AIは「人間の写し鏡」 🪞

第4章のポイントをまとめておきましょう📝

１．Step 1 事前学習：図書館に閉じ込めて知識を詰め込む（ガリ勉フェーズ）📚

→ 物知りだけど、会話ができない「野生の博士」になる。

２．Step 2 SFT（ファインチューニング）：参考書で受け答えを学ぶ（試験対策フェーズ）✏️

→ 指示に従えるようになるが、善悪の区別がつかない。

３．Step 3 RLHF（強化学習）：人間が採点して価値観を教える（しつけフェーズ）🍬

→ 安全で礼儀正しい「パートナー」が完成する！

AIは得体の知れないブラックボックスではありません。

人間が書いた文章を読み、人間が作った問題集で学び、人間に褒められるように調整された、まさに「人間の写し鏡」なのです。

だからこそ、AIが偏見を持つとしたら、それは学習データ（人間の書いた文章）に偏見が含まれていたからかもしれません。

さて、無事に学校を卒業し、社会に出られるようになったAI。

でも、仕事の現場では「時には真面目に、時にはクリエイティブに」という使い分けが求められますよね？

実はAIには、その「性格」を自由自在に変えられる「秘密のツマミ」がついているのをご存知でしょうか？🎛️

次回、第5章では、AIの創造性をコントロールする「温度（Temperature）」パラメータについて解説します。

「真面目な優等生モード」と「酔っ払った詩人モード」を使い分けるテクニックとは！？

AIの回答がガラリと変わる瞬間に立ち会いましょう！

（次回予告）

第5章：創造性のツマミ ― 「温度」と「確率」の話

〜サイコロを振るAIと、酔っ払った詩人の戯言〜

お楽しみに！👋