LLM評価指標を初心者向けに解説！BLEU・ROUGE・Human Eval・Safetyの基本

LLM

生成AI

最終更新2025年10月28日

リンドくん

たなべ先生、最近LLM（大規模言語モデル）がすごく話題になってますけど、その性能ってどうやって測るんですか?

たなべ

LLMの性能を測る方法っていくつかあって、それぞれ見ている観点が違うんだよ。今日はその代表的な評価指標について、ざっくりと全体像を掴んでもらおうと思うんだ。

リンドくん

評価指標...なんだか難しそうです。

たなべ

安心して!例えば、学校のテストでも国語のテストと数学のテストで測る能力が違うように、LLMにもいろんな角度から性能を測る必要があるってことなんだ。一緒に見ていこう!

LLM評価指標が必要な理由

AIモデル、特にLLM（Large Language Model: 大規模言語モデル）の開発が急速に進む中で、「このモデルは本当に優れているのか?」という疑問にどう答えるかは非常に重要な課題です。

人間がテキストを読んで「これは良い文章だ」と判断するのは簡単ですが、数千、数万のテキストを評価するとなると話は別です。
また、複数のモデルを客観的に比較したり、改善の方向性を定めたりするには、定量的な評価指標が不可欠なのです。

LLMの評価指標が必要な理由は主に以下の3つです。

客観的な性能比較 - 異なるモデルやバージョン間で、数値的に比較できる
開発の方向性決定 - どの部分を改善すべきかの指針になる
利用シーンの適合性判断 - 目的に応じた最適なモデル選択ができる

例えば、翻訳タスクが得意なモデルと、コード生成が得意なモデルでは、評価の軸が異なります。だからこそ、様々な評価指標を理解し、適切に使い分けることが重要なのです。

今回紹介するBLEU、ROUGE、Human Eval、Safety評価は、それぞれ異なる観点からLLMの性能を測定します。これらを理解することで、AI開発の現場で「このモデルは何が得意で、何が苦手なのか」を正確に把握できるようになります。

BLEU - 機械翻訳の品質を測る古典的指標

リンドくん

BLEUってなんだか変わった名前ですね。

たなべ

BLEUは「Bilingual Evaluation Understudy」の略で、機械翻訳の評価のために開発された指標なんだ。簡単に言うと、「正解の翻訳とどれくらい似ているか」を数値化するんだよ。

BLEUの基本的な考え方

BLEUスコアは、生成されたテキストと参照テキスト（正解例）との類似度を測定します。0から1（または0%から100%）の範囲で表され、数値が高いほど参照テキストに近いことを示します。

具体的には、以下のような要素を評価しています。

n-gramの一致率 - 単語の組み合わせがどれくらい正解と一致しているか
Brevity Penalty - 生成文が短すぎる場合にペナルティを与える仕組み

例えば、こんなケースを考えてみましょう。

参照テキスト（正解例）: 「今日は良い天気です」

生成テキスト1: 「今日は良い天気です」→ BLEUスコア: 高い

生成テキスト2: 「本日は晴天なり」→ BLEUスコア: 低い

生成テキスト2は意味的には正しいですが、使われている単語が異なるため、BLEUスコアは低くなります。

BLEUのメリットとデメリット

メリット

計算が比較的簡単 - 自動的にスコアを算出できる
再現性が高い - 同じ入力に対して常に同じスコアが得られる
標準的な指標 - 機械翻訳の分野では広く使われている

デメリット

意味の理解を評価できない - 表面的な単語の一致しか見ていない
多様な表現を認めない - 同じ意味でも言い換えがあるとスコアが下がる
文法的な正しさを保証しない - 単語の順序が合っていればスコアが上がる

つまり、BLEUは「形式的な一致度」を測る指標であり、文章の意味や自然さまでは評価できないということです。機械翻訳の初期評価には便利ですが、それだけでモデルの良し悪しを判断するのは危険だと言えます。

ROUGE - 要約タスクに特化した評価指標

リンドくん

ROUGEっていうのも聞いたことあります!BLEUと何が違うんですか?

たなべ

いいところに気づいたね!ROUGEは「Recall-Oriented Understudy for Gisting Evaluation」の略で、主にテキスト要約の評価に使われるんだ。
BLEUとの大きな違いは、再現率（Recall）を重視しているところなんだよ。

ROUGEの特徴と種類

ROUGEは、参照要約に含まれる重要な情報が、生成された要約にどれだけ含まれているかを測定します。ROUGEにはいくつかの種類があります。

ROUGE-N - n-gramの重なりを評価（ROUGE-1、ROUGE-2など）
ROUGE-L - 最長共通部分列（LCS）に基づいて評価
ROUGE-S - スキップバイグラム（単語の順序を少し柔軟に）で評価

特にROUGE-1（単語単位）とROUGE-2（2単語の組み合わせ）がよく使われます。

BLEUとROUGEの違い

では、BLEUとROUGEの違いを具体的に見てみましょう。

参照要約: 「新しいiPhoneが発売され、多くの人が購入しました」

生成要約A: 「新しいiPhoneが発売されました」

生成要約B: 「新型スマートフォンが販売開始され、大勢が買いました」

BLEUは精度（Precision）を重視するため、生成要約Aの方が高いスコアになります。
一方、ROUGEは再現率（Recall）を重視するため、より多くの情報を含む生成要約Bの方が評価される可能性があります。

ROUGEが活躍する場面

ROUGEは以下のようなタスクで特に有効です。

ニュース記事の要約 - 重要な情報が漏れていないかチェック
文書の要約生成 - 長い文章を短くまとめる性能の評価
対話システムの応答 - 必要な情報を含んでいるか確認

ただし、ROUGEもBLEU同様に表面的な単語の一致を見ているため、意味的な正しさや文章の流暢さは保証されません。これが、次に紹介するHuman Evalのような指標が必要とされる理由でもあります。

Human Eval - コード生成能力を測る実践的指標

リンドくん

Human Evalって、人間が評価するってことですか?

たなべ

少し違うんだ!Human Evalは、LLMが生成したコードが実際に動くかをテストするための指標なんだよ。
特に、プログラミングコードを生成するLLMの評価に使われているんだ。

Human Evalの仕組み

Human Evalは、OpenAIが開発したコード生成タスク専用の評価指標です。BLEUやROUGEと大きく異なり、生成されたコードが実際に正しく動作するかを評価します。

評価の流れは以下の通りです。

問題が与えられる - 「この関数を完成させてください」という形式
LLMがコードを生成 - モデルが関数を補完する
テストケースで検証 - 生成されたコードが正しい出力を返すか確認
成功率を計算 - 何%の問題が正しく解けたかを算出

具体的な評価例

例えば、以下のような問題が与えられたとします。

def has_close_elements(numbers: List[float], threshold: float) -> bool:
    """
    リスト内の2つの数値の差がthreshold未満のものがあるか確認する
    >>> has_close_elements([1.0, 2.0, 3.0], 0.5)
    False
    >>> has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)
    True
    """
    # ここにコードを生成

LLMが正しく関数を補完し、すべてのテストケースをパスすれば、その問題は「成功」とカウントされます。

Human Evalの重要性

Human Evalが重要視される理由は以下の通りです。

実用性の評価 - 実際のプログラミングタスクでの使い勝手がわかる
客観的な判定 - テストケースによる自動評価で人間の主観を排除
多様な難易度 - 簡単な問題から複雑なアルゴリズムまで幅広くカバー

特に、GitHub CopilotやCodexといったコード生成AIの性能比較に広く使われており、AI開発者にとって重要な指標となっています。

ただし、Human Evalにも限界があります。テストケースでカバーされていないエッジケースや、コードの可読性や効率性は評価できません。
そのため、実際のコード品質を総合的に判断するには、他の評価方法と組み合わせる必要があります。

Safety評価 - AIの安全性と倫理性を測る

リンドくん

性能が良ければそれでいいんじゃないですか?

たなべ

それが問題なんだ。どれだけ高性能でも、有害なコンテンツを生成したり、偏見を持った回答をするAIは使えないよね。だから、Safety評価がとても重要になってくるんだ。

Safety評価とは何か

Safety評価は、LLMが安全で倫理的な回答を生成できるかを測定する指標です。具体的には、以下のような観点で評価されます。

有害コンテンツの生成防止 - 暴力的、差別的な内容を出力しないか
バイアスの検出 - 性別、人種、宗教などへの偏見がないか
プライバシー保護 - 個人情報を不適切に扱わないか
誤情報の拡散防止 - 事実と異なる情報を出力しないか

これらは、BLEU、ROUGE、Human Evalのようなパフォーマンス指標とは全く異なる軸での評価です。

Safety評価の具体的な手法

Safety評価には、いくつかの代表的なアプローチがあります。

Red Teaming（レッドチーム評価）

人間の評価者が意図的に有害な回答を引き出そうと試みるテスト手法です。攻撃者の視点でモデルの弱点を探ります。

Benchmark Datasets（ベンチマークデータセット）

ToxiGen - 有害な発言の生成傾向を測定
BBQ (Bias Benchmark for QA) - 質問応答タスクでのバイアスを測定
TruthfulQA - 事実に基づいた正確な回答ができるか評価

自動評価ツール

Perspective API - テキストの有害性をスコア化
Detoxify - 毒性のある言葉遣いを検出

なぜSafety評価が重要なのか

AIが社会に広く普及する中で、Safety評価の重要性はますます高まっています。

例えば、以下のような実際の問題が報告されています。

採用AIの性別バイアス - 女性応募者を不当に低く評価
チャットボットの有害発言 - ユーザーとの対話で差別的な発言を生成
医療AIの誤診 - 誤った医療情報を提供してしまう

これらの問題を防ぐため、企業はSafety評価を重視し、モデルのリリース前に厳しいテストを実施しています。
性能だけでなく、倫理性や安全性を担保することが、AI開発における責任ある姿勢として求められているのです。

まとめ

リンドくん

いろんな評価指標があるんですね!どれが一番大事なんですか?

たなべ

「どれが一番」というのはないんだ。それぞれが違う側面を見ているから、用途に応じて使い分けることが大事なんだよ。

リンドくん

なるほど...じゃあ、結局どうやって選べばいいんですか?

たなべ

目的によって選ぶのがポイントなんだ。最後に整理してみよう!

各評価指標のまとめ

今回紹介した4つの評価指標を改めて整理すると、以下のようになります。

評価指標	主な用途	測定内容	メリット	デメリット
BLEU	機械翻訳	参照テキストとの単語一致度	計算が簡単、再現性が高い	意味や自然さは評価できない
ROUGE	テキスト要約	重要情報の再現率	情報の網羅性を評価できる	表面的な一致しか見ない
Human Eval	コード生成	生成コードの実行可能性	実用性を直接評価できる	テストケース外は評価できない
Safety評価	全般	安全性と倫理性	社会的リスクを検出できる	基準が曖昧な場合がある