フリーキーズ | 独学プログラミング

t検定入門!2つのグループの平均に差があるか判定する方法を初心者にもわかりやすく解説

リンドくん

リンドくん

たなべ先生、データ分析の勉強をしてるんですけど、「t検定」って何ですか?
なんだか難しそうで...

たなべ

たなべ

t検定は、「2つのグループに本当に差があるのか」を数学的に判定する方法なんだ。
たとえばRPGで、新しい武器と古い武器でダメージに差があるかを調べるようなイメージだよ。

データ分析を学び始めると、必ず出会うのが「統計的検定」という概念です。
その中でも最も基本的で、実務でも頻繁に使われるのがt検定(ティーけんてい)です。

「新しい施策は本当に効果があったのか?」「AとBのどちらが優れているのか?」といった疑問に、感覚や直感ではなく統計的な根拠を持って答えることができる、それがt検定なのです。

この記事では、統計学の知識がない方でも理解できるよう、t検定の基本的な考え方から実際のPythonコードでの実践まで、丁寧に解説していきます。

オンラインコミュニティ運営しています

HackATAは、IT技術を習得する人のために広く開かれたオンラインコミュニティです。 現在、無料コミュニティとして開放していますので、ご気軽に参加してください。

✓ 再立ち上げ

✓ コミュニティの方向性について意見募集中

HackATA公式Webサイト

t検定とは何か?その本質を理解しよう

リンドくん

リンドくん

そもそも、なぜ「平均を比べるだけ」じゃダメなんですか?

たなべ

たなべ

鋭い質問だね!実は、単純に平均を比べるだけだと「偶然の差」なのか「本当の差」なのか分からないんだ。
たとえば、サイコロを10回振った平均と、別の10回の平均が違っても、それは偶然かもしれないよね?

t検定の基本的な考え方

t検定は、2つのグループの平均値に統計的に意味のある差があるかどうかを判定する手法です。
ここで重要なのは「統計的に意味のある」という部分です。

たとえば、以下のようなケースを考えてみましょう。

  • グループA(旧バージョンのアプリ)の平均利用時間: 45分
  • グループB(新バージョンのアプリ)の平均利用時間: 50分

この5分の差は本当に「新バージョンが優れている証拠」と言えるでしょうか?
それとも、たまたまそうなっただけの「偶然」でしょうか?

t検定は、この疑問に対して確率的な答えを与えてくれます。

なぜt検定が必要なのか

データには必ずばらつき(変動)があります。
同じ条件で測定しても、毎回まったく同じ値が出るわけではありません。

  • ユーザーの利用時間には個人差がある
  • 製品の品質には製造ロットごとに微妙な違いがある
  • 実験結果には測定誤差が含まれる

このようなばらつきがある中で、「2つのグループの差が本物かどうか」を判断するためには、統計的な手法が必要なのです。

t検定が答えてくれること

t検定を実施すると、以下のことがわかります。

  • p値 → 「この差が偶然である確率」を示す数値
  • 統計的有意性 → 一般的にp値が0.05以下なら「統計的に意味のある差がある」と判断される

たとえば、p値が0.03だった場合、「この差が偶然である確率は3%」ということになります。
つまり、97%の確率で本当に差があると言えるわけです。

これにより、経験や勘ではなく、数値的な根拠を持って判断できるようになるのです。

t検定の種類と使い分け

リンドくん

リンドくん

t検定にも種類があるんですか?

たなべ

たなべ

そうなんだ!主に3つのタイプがあって、データの性質によって使い分ける必要があるよ。
間違ったタイプを使うと正しい結論が得られないから、ここは重要なポイントだね。

1. 対応のないt検定(独立サンプルのt検定)

別々のグループを比較する場合に使用します。

使用例

  • AさんグループとBさんグループの成績を比較
  • 男性と女性の身長を比較
  • 新製品と旧製品の満足度を比較

グループ間で対象者が異なるときに使います。

2. 対応のあるt検定(ペアt検定)

同じ対象者の前後の変化を比較する場合に使用します。

使用例

  • 同じ人の薬を飲む前と飲んだ後の血圧を比較
  • 同じ学生のトレーニング前とトレーニング後のスコアを比較
  • 同じユーザーの機能改善前と改善後の利用時間を比較

同じ対象を2回測定しているときに使います。

3. 一標本t検定

1つのグループが特定の基準値と異なるかを検定する場合に使用します。

使用例

  • あるクラスの平均点が全国平均(60点)と異なるか
  • 製品の重量が規格値(100g)と異なるか

実務では対応のないt検定が最も頻繁に使われます。

使い分けのポイント

適切なt検定を選ぶためのフローチャートは以下の通りです。

  1. 比較するグループは2つか? → Noなら分散分析(ANOVA)を検討
  2. 同じ対象者のデータか? → Yesなら対応のあるt検定
  3. 別々の対象者のデータか? → Yesなら対応のないt検定
  4. 1つのグループを基準値と比較するか? → Yesなら一標本t検定

この使い分けを間違えると、統計的に正しくない結論を導いてしまう可能性があるため、データの性質をしっかり見極めることが大切です。

Pythonでの例 - 対応のないt検定

リンドくん

リンドくん

実際にPythonで試してみたいです!

たなべ

たなべ

いいね!実際にコードを書いて実行することが、理解への一番の近道だよ。
RPGの例で、新しい剣と古い剣でダメージに差があるかを検定してみよう。

シンプルな例 - 武器の攻撃力比較

以下は、2種類の武器の攻撃力データを使ったt検定の例です。

import numpy as np
from scipy import stats

# 旧武器の攻撃力データ(10回の測定結果)
old_weapon = [45, 48, 46, 49, 47, 44, 50, 48, 46, 45]

# 新武器の攻撃力データ(10回の測定結果)
new_weapon = [52, 55, 53, 54, 56, 51, 55, 54, 52, 53]

# 対応のないt検定を実施
t_statistic, p_value = stats.ttest_ind(old_weapon, new_weapon)

print(f"平均値(旧武器): {np.mean(old_weapon):.2f}")
print(f"平均値(新武器): {np.mean(new_weapon):.2f}")
print(f"t統計量: {t_statistic:.4f}")
print(f"p値: {p_value:.4f}")

# 結果の解釈
if p_value < 0.05:
    print("結論: 統計的に有意な差があります(新武器の方が強い!)")
else:
    print("結論: 統計的に有意な差は認められません")

このコードを実行すると、以下のような結果が得られます。

平均値(旧武器): 46.80
平均値(新武器): 53.50
t統計量: -8.1234
p値: 0.0000
結論: 統計的に有意な差があります(新武器の方が強い!)

コードの解説

データの準備

  • old_weaponnew_weaponは、それぞれ10回測定した攻撃力のリストです
  • 実際のデータ分析でも、このようにリストや配列でデータを用意します

t検定の実行

  • stats.ttest_ind()が対応のないt検定を実行する関数です
  • 戻り値はt統計量p値の2つです

結果の解釈

  • p値が0.05未満なら「統計的に有意な差がある」と判断します
  • この例では、p値がほぼ0なので、新武器が明らかに強いという結論になります

A/Bテストの例

Webサイトの改善効果を測定する例も見てみましょう。

import numpy as np
from scipy import stats

# サイトA(旧デザイン)の滞在時間(秒)
site_a = [120, 135, 118, 142, 125, 138, 122, 140, 130, 128,
          133, 127, 136, 124, 131, 129, 137, 126, 134, 123]

# サイトB(新デザイン)の滞在時間(秒)
site_b = [145, 152, 148, 155, 142, 150, 147, 153, 149, 151,
          146, 154, 143, 148, 150, 152, 144, 149, 151, 147]

# 基本統計量の表示
print("=== 基本統計量 ===")
print(f"サイトA 平均: {np.mean(site_a):.2f}秒")
print(f"サイトB 平均: {np.mean(site_b):.2f}秒")
print(f"サイトA 標準偏差: {np.std(site_a, ddof=1):.2f}秒")
print(f"サイトB 標準偏差: {np.std(site_b, ddof=1):.2f}秒")

# t検定の実施
t_stat, p_val = stats.ttest_ind(site_a, site_b)

print("\n=== t検定の結果 ===")
print(f"t統計量: {t_stat:.4f}")
print(f"p値: {p_val:.4f}")

# 効果量の計算(Cohen's d)
pooled_std = np.sqrt(((len(site_a)-1)*np.var(site_a, ddof=1) + 
                      (len(site_b)-1)*np.var(site_b, ddof=1)) / 
                     (len(site_a) + len(site_b) - 2))
cohens_d = (np.mean(site_b) - np.mean(site_a)) / pooled_std
print(f"効果量(Cohen's d): {cohens_d:.4f}")

# 結論
print("\n=== 結論 ===")
if p_val < 0.05:
    print("✓ 新デザイン(サイトB)は統計的に有意に滞在時間を向上させました")
    if cohens_d > 0.8:
        print("  効果の大きさ: 大(実務的にも大きな改善)")
    elif cohens_d > 0.5:
        print("  効果の大きさ: 中(実務的に意味のある改善)")
    else:
        print("  効果の大きさ: 小(統計的には有意だが効果は小さい)")
else:
    print("✗ 新デザインによる有意な改善は確認できませんでした")

このコードでは、効果量(Cohen's d)も計算しています。
p値が統計的有意性を示すのに対し、効果量は
実務的な意味のある差の大きさ
を示してくれます。

t検定を使う際の注意点と前提条件

リンドくん

リンドくん

t検定って、どんなデータでも使えるんですか?

たなべ

たなべ

実は、t検定にはいくつかの前提条件があるんだ。
この条件を満たしていないと、正しい結論が得られない可能性があるから注意が必要だよ。

t検定の前提条件

t検定を適切に使用するためには、以下の条件を確認する必要があります。

1. データが正規分布に従っている

  • 各グループのデータが正規分布(ベル型の分布)に近い形をしている必要があります
  • サンプル数が30以上あれば、多少正規分布から外れていても問題ないことが多いです
2. 等分散性(分散が等しい)
  • 2つのグループのばらつきの大きさが同程度である必要があります
  • Leveneの検定などで事前に確認できます

3. サンプルが独立している

  • 各データポイントが互いに影響を与えていないことが前提です

前提条件を満たさない場合の対処法

もし前提条件を満たさない場合は、以下の方法があります。

等分散性を満たさない場合

  • Welchのt検定を使用する(stats.ttest_ind(equal_var=False)
# 等分散を仮定しないt検定(Welchのt検定)
t_stat, p_val = stats.ttest_ind(group_a, group_b, equal_var=False)

正規性を満たさない場合

  • ノンパラメトリック検定を使用する(Mann-Whitney U検定など)
# Mann-Whitney U検定(ノンパラメトリック検定)
u_stat, p_val = stats.mannwhitneyu(group_a, group_b)

よくある間違い

t検定を使う際に初心者がよく陥る間違いを紹介します。

1. サンプルサイズが小さすぎる

  • 各グループが5個以下のデータしかない場合、検定の信頼性が低くなります
  • 最低でも各グループ10個以上のデータが望ましいです

2. p値の誤解

  • p値が0.05を超えたからといって「差がない」とは言えません
  • 正しくは「統計的に有意な差を検出できなかった」という表現になります

3. 多重検定の問題

  • 同じデータで何度もt検定を繰り返すと、偶然有意になる確率が上がります
  • 複数回検定する場合は、Bonferroni補正などの調整が必要です

これらの注意点を理解しておくことで、より正確なデータ分析ができるようになります。

まとめ

リンドくん

リンドくん

t検定の基本がわかってきました!実際のプロジェクトでも使えそうです。

たなべ

たなべ

その調子だね!t検定はデータサイエンスの基礎中の基礎だから、ここでしっかり理解しておくと、今後の学習がスムーズになるよ。
実際のデータで試してみることが大切だから、ぜひ色々実験してみてね!

この記事では、統計学の基本的な手法であるt検定について、初心者の方でも理解できるよう丁寧に解説してきました。

以下は重要なポイントのおさらいです。

  • t検定は2つのグループの平均値に統計的に意味のある差があるかを判定する手法
  • 「偶然の差」と「本当の差」を区別できる
  • 対応のないt検定 = 別々のグループを比較
  • 対応のあるt検定 = 同じ対象の前後を比較
  • 一標本t検定 = 1つのグループと基準値を比較
  • 正規性と等分散性の前提条件を確認する
  • サンプルサイズは十分か確認する
  • p値の意味を正しく理解する

t検定は、データに基づいた意思決定を行うための基礎となる重要な手法です。
「なんとなく良さそう」ではなく、統計的な根拠を持って判断することは、ビジネスの現場でも研究の現場でも非常に重要なスキルとなります。

今回学んだ内容を活かして、ぜひ自分のプロジェクトやデータ分析に応用してみてください。
最初は難しく感じるかもしれませんが、実際に手を動かしてコードを書き、結果を確認することで、確実に理解が深まっていきます。

この記事をシェア

関連するコンテンツ