フリーキーズ | 独学プログラミング

LLMはどうやって学習されるのか?学習の単位・プロセス・失敗例を初心者向けに徹底解説

リンドくん

リンドくん

たなべ先生、最近ChatGPTとか使ってるんですけど、こういうAIってどうやって賢くなるんですか?普通のプログラムと違って、人間みたいに学習するって聞いたんですが...

たなべ

たなべ

実はLLM(大規模言語モデル)の学習プロセスは、人間の学習とは少し違うんだ。でも、膨大なテキストデータから言葉のパターンを学んでいくという点では、自分たちが言語を身につけるプロセスと似ているかもしれないね。
今日はその仕組みを一緒に見ていこう!

ChatGPTやClaude、Geminiなど、最近のAI技術の進化は目覚ましいものがあります。
これらの大規模言語モデル(LLM: Large Language Model)は、まるで人間のように自然な会話ができますよね。

でも、こうしたAIはどうやって「賢く」なっているのでしょうか?プログラマーが一つ一つ会話パターンを書いているわけではありません。
実は、LLMは膨大なデータから自動的に言語のパターンを学習するという、従来のプログラミングとは全く異なるアプローチで作られているのです。

この記事では、LLMがどのようなプロセスで学習されるのか、その基本的な仕組みから実際の学習手順、さらには学習における失敗例まで、初心者の方にもわかりやすく解説していきます。

プログラミング学習でお悩みの方へ

HackATAは、エンジニアを目指す方のためのプログラミング学習コーチングサービスです。 経験豊富な現役エンジニアがあなたの学習をサポートします。

✓ 質問し放題

✓ β版公開中(2025年内の特別割引)

HackATAの詳細を見る

LLMの学習とは?従来のプログラミングとの違い

リンドくん

リンドくん

先生、普通のプログラムだったら、if文とかで「こう聞かれたらこう答える」って書きますよね?LLMはそれとは違うんですか?

たなべ

たなべ

その通り!従来のプログラミングはルールベースで、プログラマーが明示的に動作を指定するんだ。でもLLMはデータから自動的にパターンを学習するんだよ。
例えば、何億もの文章を読み込んで、「こういう文脈の後にはこういう言葉が来やすい」というパターンを自動的に見つけ出すんだ。

従来のプログラミングとの根本的な違い

従来のプログラミングでは、開発者が明確なルールを書きます。例えば、簡単なチャットボットを作るなら以下のようなコードになります。

# 従来のルールベースのチャットボット
def simple_chatbot(user_input):
    if "天気" in user_input:
        return "今日は晴れですよ!"
    elif "こんにちは" in user_input:
        return "こんにちは!何かお手伝いできますか?"
    else:
        return "申し訳ございません、理解できませんでした。"

# 使用例
print(simple_chatbot("今日の天気は?"))  # "今日は晴れですよ!"

このアプローチの問題点は明確です。すべてのパターンを人間が事前に書かなければならないということです。
ユーザーが「天候教えて」と言ったら?「weather」と英語で聞いたら?無限にあるバリエーションに対応するのは不可能ですよね。

一方、LLMは全く異なるアプローチを取ります。膨大なテキストデータから統計的なパターンを学習することで、見たことのない文章にも柔軟に対応できるようになるのです。

機械学習の基本概念

LLMの学習を理解するには、まず機械学習という概念を知る必要があります。機械学習とは、コンピュータがデータからパターンを自動的に発見する技術のことです。

人間の学習に例えると分かりやすいでしょう。私たちが言語を習得する際、親が「これは『りんご』だよ」と何度も教えてくれます。
最初は分かりませんが、何度も経験するうちに、赤くて丸い果物を見ると「りんご」という言葉が自然に出てくるようになりますよね。

LLMの学習も似ています。大量のテキストを読み込むことで、「このような文脈では、次にこういう言葉が来る確率が高い」というパターンを統計的に学習していくのです。

トークン化 - LLMが言葉を理解する最初のステップ

リンドくん

リンドくん

でもコンピュータって数字しか理解できないですよね?どうやって文章を処理するんですか?

たなべ

たなべ

鋭い質問だね!その通り、コンピュータは直接文字を理解できないんだ。
だからトークン化という処理で、文章を数字に変換するんだよ。これがLLMの学習における最も基本的なステップなんだ。

トークンとは何か

トークンとは、テキストを処理するための最小単位のことです。英語では単語単位、日本語では文字や部分文字列単位で分割されることが多いです。

例えば、「今日は良い天気ですね」という文章は、以下のようにトークン化されるかもしれません。

元の文章: 今日は良い天気ですね
トークン化: ["今日", "は", "良い", "天気", "です", "ね"]
数値化: [1234, 5678, 9012, 3456, 7890, 2345]

このように、各トークンには一意の数字(ID)が割り当てられます。LLMはこの数字の並びを学習するのです。

サブワードトークン化の重要性

最近のLLMでは、サブワードトークン化という手法が使われています。これは単語をさらに細かい部分に分割する方法です。

例えば、「unhappiness(不幸)」という単語を以下のように分割できます。

unhappiness → ["un", "happiness"]

この方法の利点は何でしょうか?新しい単語や造語にも対応できるということです。
たとえ「unhappiness」という単語を学習していなくても、「un」(否定の接頭辞)と「happiness」(幸せ)を知っていれば、意味を推測できるのです。

実際に、簡単なトークン化のイメージを見てみましょう。

# トークン化の簡単な例(概念的なコード)
text = "LLMは素晴らしい技術です"

# 実際のLLMではもっと複雑な処理が行われますが、
# 概念としてはこのようなイメージです
tokens = ["LLM", "は", "素晴らしい", "技術", "です"]

# 各トークンに数値IDを割り当て
token_ids = [15234, 9876, 23456, 34567, 45678]

print(f"元のテキスト: {text}")
print(f"トークン: {tokens}")
print(f"トークンID: {token_ids}")

このトークン化されたデータが、LLMの学習における「入力」となるわけです。

事前学習 - 膨大なデータから言語のパターンを学ぶ

リンドくん

リンドくん

トークン化した後は、どうやって学習するんですか?

たなべ

たなべ

ここからが本番だよ!
事前学習(Pre-training)という段階で、LLMはインターネット上の膨大なテキストデータを読み込んで、言語の基本的なパターンを学習するんだ。この段階で、文法や知識、推論能力の基礎が身につくんだよ。

事前学習の目的と方法

事前学習は、LLMが言語の一般的な構造と知識を獲得する段階です。具体的には、以下のようなタスクを通じて学習します。

次の単語を予測する(Causal Language Modeling)

最も一般的な学習方法は、前の単語から次の単語を予測するというタスクです。

入力: "今日は良い"
予測すべき出力: "天気"

入力: "Pythonは人気のある"
予測すべき出力: "プログラミング言語"

LLMは何十億、何兆もの文章でこの予測タスクを繰り返すことで、言語のパターンを学んでいきます。

学習データの規模

現代のLLMの学習には、想像を絶する量のデータが使用されます。
この膨大なデータから学習することで、LLMは以下のような能力を獲得します。

  • 文法的に正しい文章を生成する能力
  • 様々な分野の知識
  • 文脈を理解する能力
  • ある程度の推論能力

学習のイメージ

事前学習の概念を簡単なPythonコードで表現してみましょう。(実際のLLMははるかに複雑ですが、イメージとして)

# 非常に簡略化した学習のイメージ
class SimpleLLM:
    def __init__(self):
        # 単語の次に来やすい単語の確率を保存
        self.next_word_probability = {}
    
    def train(self, text_data):
        """大量のテキストから学習"""
        for sentence in text_data:
            words = sentence.split()
            for i in range(len(words) - 1):
                current_word = words[i]
                next_word = words[i + 1]
                
                # 「current_word」の次に「next_word」が来た回数を記録
                if current_word not in self.next_word_probability:
                    self.next_word_probability[current_word] = {}
                
                if next_word not in self.next_word_probability[current_word]:
                    self.next_word_probability[current_word][next_word] = 0
                
                self.next_word_probability[current_word][next_word] += 1
    
    def predict_next_word(self, current_word):
        """次の単語を予測"""
        if current_word in self.next_word_probability:
            # 最も頻繁に現れた単語を返す
            next_words = self.next_word_probability[current_word]
            return max(next_words, key=next_words.get)
        return None

# 使用例
model = SimpleLLM()
training_data = [
    "今日は良い天気です",
    "今日は素晴らしい日です",
    "今日は楽しい一日です"
]

model.train(training_data)
print(model.predict_next_word("今日は"))  # "良い"や"素晴らしい"など

実際のLLMはニューラルネットワークという複雑な数学的モデルを使用していますが、基本的な考え方は「大量のデータから次に来る言葉のパターンを学習する」という点で同じです。

ファインチューニング - 特定のタスクに特化させる

リンドくん

リンドくん

事前学習だけで完成なんですか?

たなべ

たなべ

いや、まだ途中なんだ。事前学習で言語の基礎は身についたけど、特定のタスクに特化させるためにファインチューニングという追加の学習を行うんだよ。
これで、質問応答やコード生成など、特定の用途に最適化されるんだ。

ファインチューニングとは

ファインチューニング(Fine-tuning)は、事前学習済みのモデルを特定のタスクやドメインに適応させるプロセスです。

例えば、以下のような用途に特化させることができます。

  • 医療分野: 医学論文や診断記録で追加学習
  • 法律分野: 法律文書や判例で追加学習
  • プログラミング支援: 大量のコードとドキュメントで追加学習
  • 会話AI: 高品質な対話データで追加学習

教師あり学習による特化

ファインチューニングでは、教師あり学習という方法が使われることが多いです。これは「正解」を明示的に与えながら学習する方法です。

# ファインチューニングのデータ例(概念的)
training_examples = [
    {
        "input": "Pythonでリストの要素を2倍にする方法は?",
        "output": "リスト内包表記を使って [x*2 for x in my_list] のように書けます。"
    },
    {
        "input": "機械学習とは何ですか?",
        "output": "機械学習とは、データからパターンを自動的に学習し、予測や判断を行うAI技術の一分野です。"
    }
]

このように、「こういう質問にはこう答える」という正解のペアを大量に用意して学習させます。

RLHF - 人間のフィードバックで賢くする

リンドくん

リンドくん

でも、AIって時々変な答えを返しますよね?それを防ぐ方法はあるんですか?

たなべ

たなべ

素晴らしい疑問だね!そのためにRLHF(人間のフィードバックからの強化学習)という技術が使われるんだ。
これはChatGPTなどの最新AIで採用されている、とても重要な学習プロセスなんだよ。

RLHFとは何か

RLHF(Reinforcement Learning from Human Feedback)は、人間の評価をもとにAIの振る舞いを改善する学習方法です。

プロセスは以下のようになります。

  1. 回答の生成: LLMが複数の回答候補を生成
  2. 人間による評価: 人間の評価者が回答の品質をランク付け
  3. 報酬モデルの学習: 良い回答と悪い回答のパターンを学習
  4. 強化学習: 報酬を最大化するようにLLMを調整

RLHFの具体例

例えば、以下のような質問に対する回答を考えてみましょう。

質問: "プログラミングを学ぶのに最適な言語は?"

回答A: "Pythonが最適です。理由は簡単で読みやすく、初心者に優しい文法を持っているためです。"

回答B: "C++一択です。他の言語は使い物になりません。"

回答C: "あなたの目的によって異なります。Web開発ならJavaScript、データ分析ならPython、システム開発ならC++など、用途に応じて選ぶべきです。"

人間の評価者は、おそらく回答Cを最も高く評価するでしょう。バランスが取れていて、柔軟性があり、決めつけていないからです。

RLHFを通じて、LLMはこのような「良い回答」のパターンを学習していきます。

LLMの学習における失敗例と課題

リンドくん

リンドくん

学習がうまくいかないこともあるんですか?

たなべ

たなべ

もちろんあるよ!実はAIの学習には様々な落とし穴があるんだ。
これらの失敗例を知ることで、AIの限界や注意点を理解できるようになるよ。

過学習(Overfitting)

過学習とは、学習データを覚えすぎてしまい、新しいデータに対応できなくなる現象です。

例えば、こんな状況です。

学習データ: 「Pythonは素晴らしいプログラミング言語です」
学習データ: 「Pythonは初心者に優しい言語です」

過学習したモデル:
質問「Pythonについて教えて」
→ 学習データをそのまま繰り返すだけで、独自の説明ができない

これは、人間で言えば教科書を丸暗記したけど応用問題が解けないという状態に似ています。

バイアスの問題

学習データに偏りがあると、LLMもその偏りを学習してしまいます。

問題のある例
- 「医者」という言葉に対して、常に男性を連想する
- 特定の文化や地域の視点に偏った回答をする
- ステレオタイプに基づいた判断をしてしまう

これは学習データがインターネット上のテキストから取られているため、そこに含まれる社会的なバイアスも一緒に学習してしまうからです。

幻覚(Hallucination)

LLMは時々、もっともらしいが事実ではない情報を生成することがあります。これを幻覚(ハルシネーション)と呼びます。

質問: "2024年のノーベル文学賞受賞者は?"
間違った回答: "2024年のノーベル文学賞は、日本の作家・田中太郎氏が受賞しました。"
(※ 実際には存在しない人物や事実を作り出してしまう)

これは、LLMがパターンに基づいて「もっともらしい」文章を生成しているため、事実かどうかを確認する能力が不十分だからです。

破滅的忘却(Catastrophic Forgetting)

新しいタスクを学習すると、以前学習した内容を忘れてしまう現象です。

段階1: 日本語の会話を学習 → 日本語が上手に話せる
段階2: 英語の会話を追加学習 → 英語は話せるが、日本語の能力が低下

この問題を解決するために、継続学習(Continual Learning)という研究分野が発展しています。

LLMの学習コストと環境への影響

リンドくん

リンドくん

LLMの学習って、お金や電力はどれくらいかかるんですか?

たなべ

たなべ

これは重要な視点だね。実はLLMの学習には莫大なコストがかかるんだ。
技術的な側面だけでなく、経済的・環境的な側面も理解しておくことが大切だよ。

計算リソースの必要性

大規模なLLMの学習には、想像を超える計算資源が必要です。

  • GPT-3の学習コスト: 推定で約約5億円の計算コスト
  • 必要なGPU: 数千台の高性能GPUを数週間から数ヶ月稼働
  • 電力消費: 一般家庭の数千〜数万世帯分の電力を数ヶ月間消費

民主化への取り組み

高額な学習コストは、AI技術の民主化を妨げる要因にもなっています。

しかし、以下のような取り組みも進んでいます。

  • オープンソースモデル: Meta社のLlamaなど、誰でも使えるモデルの公開
  • 効率的な学習手法: より少ないデータと計算量で学習する技術の開発
  • クラウドサービス: OpenAI APIなど、学習済みモデルを手軽に利用できるサービス

まとめ

リンドくん

リンドくん

なるほど!LLMの学習って本当に複雑で奥が深いんですね。

たなべ

たなべ

そうなんだ。でも基本的な考え方は「大量のデータからパターンを学習する」というシンプルなものなんだよ。
これからAI技術はますます発展していくから、今のうちに基礎を理解しておくことが大切だね。

LLMの学習プロセスを理解することは、単なる技術的知識以上の価値があります。
AIの限界や可能性を正しく理解し、適切に活用していくことが、これからのエンジニアには求められます。

AI技術は急速に発展していますが、その根底にある「データからパターンを学習する」という基本原理は変わりません。
この基礎をしっかり理解しておけば、今後どんな新技術が登場しても、その本質を見抜けるようになるはずです。

この記事をシェア

関連するコンテンツ