区間推定とは？信頼区間の考え方とPythonでの算出方法を初心者向けに解説

データサイエンス

最終更新2026年1月28日

リンドくん

先生、データ分析の勉強をしていたら「信頼区間」って言葉が出てきたんですけど、これって何ですか？

たなべ

信頼区間は、データサイエンスでとても重要な概念なんだ。
簡単に言うと、「真の値がこの範囲にある可能性が高い」ということを数値で示す方法なんだよ。

リンドくん

真の値がある「範囲」ですか？一つの値じゃないんですね。

たなべ

そう！そこがポイントなんだ。今日は区間推定と信頼区間について、初心者でもわかるようにしっかり解説していくね。

データサイエンスや統計学を学び始めると、必ず出会うのが「区間推定」と「信頼区間」という概念です。
しかし、初めてこの言葉に触れる方にとっては、なぜ一つの値ではなく「範囲」で推定するのか、信頼区間の「95%」という数字が何を意味するのか、理解するのが難しいのではないでしょうか。

この記事では、区間推定の基本的な考え方から、信頼区間の意味、そしてPythonを使った実際の計算方法まで、データサイエンス初心者の方でも理解できるよう、段階的に解説していきます。

そもそも区間推定とは何か

リンドくん

「推定」という言葉は聞いたことがありますけど、「区間」推定というのは普通の推定と何が違うんですか？

たなべ

実は推定には点推定と区間推定の2種類があるんだ。
点推定は「平均は50点です」のように一つの値で推定するけど、区間推定は「平均は48点から52点の範囲にあります」のように幅を持たせて推定するんだよ。

点推定と区間推定の違い

統計的推測には、大きく分けて2つのアプローチがあります。

点推定は、母集団のパラメータ（平均や比率など）を一つの値で推定する方法です。
例えば、クラスの生徒30人のテストの点数から「全校生徒の平均点は75点である」と推定するようなケースです。

一方、区間推定は、パラメータが含まれると考えられる範囲を推定する方法です。
同じ例で言えば「全校生徒の平均点は73点から77点の範囲にある」と推定します。

なぜ区間で推定する必要があるのでしょうか？
それは、サンプルデータから母集団全体を推測する際には、必ず誤差が生じるからです。

点推定だけでは、その推定値がどれほど信頼できるのか、どの程度の誤差が含まれているのかがわかりません。
区間推定を使うことで、推定の不確実性を数値として表現でき、より現実的で信頼性の高い分析が可能になるのです。

区間推定が必要な場面

実際のデータ分析では、以下のような場面で区間推定が活用されています。

製品の品質管理 - 製品の不良率がどの範囲にあるかを推定する
医療統計 - 新薬の効果がどの程度の範囲で期待できるかを推定する
マーケティング調査 - 顧客満足度の真の値がどの範囲にあるかを推定する
世論調査 - 支持率の実際の値がどの範囲にあるかを推定する

これらの場面では、単一の値を示すよりも、「この範囲にある可能性が高い」という情報の方が、意思決定に役立つのです。

信頼区間の意味を正しく理解しよう

リンドくん

よく「95%信頼区間」という言葉を見るんですけど、この95%って何の確率なんですか？

たなべ

これは多くの人が誤解しやすいポイントなんだ。
実は「真の値が95%の確率でこの区間に入っている」という意味ではないんだよ。

リンドくん

えっ、違うんですか！？

信頼区間の正確な定義

信頼区間は、統計学の中でも特に誤解されやすい概念の一つです。
正確な意味を理解しておきましょう。

95%信頼区間の正しい解釈は、「同じ方法で何度もサンプリングして信頼区間を計算した場合、そのうち95%の区間が真の母数を含む」という意味です。

具体的な例で説明します。

全国の高校生の平均身長を知りたいとします。100校からランダムに生徒を抽出してそれぞれ信頼区間を計算すると、そのうち約95校で計算された信頼区間が、真の平均身長を含んでいる、ということです。

つまり、信頼区間は「区間の信頼性」を示す指標であり、「真の値がその区間に入る確率」ではないのです。

信頼水準の選び方

信頼区間を計算する際、信頼水準（よく使われるのは90%, 95%, 99%）を選択する必要があります。

95%信頼区間 - 最も一般的に使用される水準で、バランスが取れている
99%信頼区間 - より確実性を求める場合に使用するが、区間は広くなる
90%信頼区間 - より狭い区間が欲しい場合に使用するが、信頼性は下がる

信頼水準を高くすると、区間は広くなり、逆に低くすると狭くなります。
これは精度と信頼性のトレードオフと言えます。

研究分野や目的によって適切な信頼水準を選択することが重要です。
医療や安全性に関わる分野では99%が使われることもありますし、探索的な分析では90%が使われることもあります。

Pythonで信頼区間を計算してみよう

リンドくん

実際にPythonで信頼区間を計算するのは難しいんですか？

たなべ

いや、実はとてもシンプルなんだ！
必要なライブラリさえインストールしておけば、数行のコードで計算できるよ。やってみようか。

必要なライブラリのインストール

まず、必要なライブラリをインストールしましょう。

# 必要なライブラリのインポート
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

# 日本語フォントの設定（グラフ表示用）
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'Hiragino Sans']

基本的な信頼区間の計算

それでは、実際にサンプルデータから信頼区間を計算してみましょう。

# サンプルデータの作成
# 例: あるクラスの生徒30人のテストの点数
test_scores = np.array([
    72, 85, 68, 91, 77, 82, 74, 89, 76, 83,
    79, 88, 71, 86, 80, 75, 84, 78, 87, 73,
    81, 90, 69, 85, 77, 82, 76, 88, 74, 79
])

# 基本統計量の計算
sample_mean = np.mean(test_scores)  # サンプル平均
sample_std = np.std(test_scores, ddof=1)  # 標本標準偏差
sample_size = len(test_scores)  # サンプルサイズ

print(f"サンプル平均: {sample_mean:.2f}点")
print(f"標本標準偏差: {sample_std:.2f}")
print(f"サンプルサイズ: {sample_size}人")

95%信頼区間の計算

次に、このデータから母平均の95%信頼区間を計算します。

# 信頼水準の設定
confidence_level = 0.95

# t分布を使用した信頼区間の計算
# サンプルサイズが小さい場合はt分布を使用するのが一般的
confidence_interval = stats.t.interval(
    confidence=confidence_level,
    df=sample_size - 1,  # 自由度
    loc=sample_mean,  # 平均
    scale=sample_std / np.sqrt(sample_size)  # 標準誤差
)

print(f"\n95%信頼区間: [{confidence_interval[0]:.2f}点, {confidence_interval[1]:.2f}点]")
print(f"解釈: 真の平均点は{confidence_interval[0]:.2f}点から{confidence_interval[1]:.2f}点の範囲にあると95%の信頼度で推定できます")

このコードを実行すると、サンプルデータから計算された平均点と、その95%信頼区間が表示されます。

信頼水準を変えて比較してみる

異なる信頼水準での信頼区間を比較してみましょう。

# 複数の信頼水準で信頼区間を計算
confidence_levels = [0.90, 0.95, 0.99]

print("\n信頼水準ごとの信頼区間の比較:")
print("-" * 60)

for conf_level in confidence_levels:
    ci = stats.t.interval(
        confidence=conf_level,
        df=sample_size - 1,
        loc=sample_mean,
        scale=sample_std / np.sqrt(sample_size)
    )
    
    width = ci[1] - ci[0]  # 信頼区間の幅
    
    print(f"{int(conf_level * 100)}%信頼区間: [{ci[0]:.2f}, {ci[1]:.2f}]")
    print(f"  → 区間の幅: {width:.2f}点")
    print()

このコードを実行すると、信頼水準が高くなるほど信頼区間が広くなることが確認できます。

視覚的に理解する: 信頼区間のグラフ化

リンドくん

数字だけだとイメージしにくいですね...グラフにするとわかりやすくなりますか？

たなべ

その通り！視覚化すると信頼区間の意味がもっとはっきりするんだ。
実際にグラフを描いてみよう。

データ分布と信頼区間の可視化

データの分布と信頼区間を一緒にグラフにしてみましょう。

# グラフの作成
fig, ax = plt.subplots(figsize=(10, 6))

# ヒストグラム（データの分布）
ax.hist(test_scores, bins=10, alpha=0.7, color='skyblue', edgecolor='black')

# 平均値の線
ax.axvline(sample_mean, color='red', linestyle='--', linewidth=2, label=f'平均値: {sample_mean:.2f}点')

# 95%信頼区間の範囲
ax.axvspan(confidence_interval[0], confidence_interval[1], alpha=0.3, color='yellow', 
           label=f'95%信頼区間: [{confidence_interval[0]:.2f}, {confidence_interval[1]:.2f}]')

# グラフの装飾
ax.set_xlabel('テストの点数', fontsize=12)
ax.set_ylabel('人数', fontsize=12)
ax.set_title('テスト点数の分布と95%信頼区間', fontsize=14, fontweight='bold')
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

複数サンプルでの信頼区間の比較

信頼区間の意味をより深く理解するために、複数のサンプリングを行って信頼区間を比較してみます。

# シミュレーション: 複数回サンプリングして信頼区間を計算
np.random.seed(42)  # 再現性のため
true_mean = 80  # 真の母平均（仮定）
true_std = 10  # 真の母標準偏差（仮定）

num_samples = 20  # サンプリング回数
sample_size = 30  # 各サンプルのサイズ

# 各サンプルの信頼区間を記録
results = []

for i in range(num_samples):
    # サンプルデータの生成
    sample = np.random.normal(true_mean, true_std, sample_size)
    
    # 信頼区間の計算
    mean = np.mean(sample)
    std = np.std(sample, ddof=1)
    ci = stats.t.interval(0.95, sample_size - 1, mean, std / np.sqrt(sample_size))
    
    # 真の平均が信頼区間に含まれているかチェック
    contains_true_mean = ci[0] <= true_mean <= ci[1]
    
    results.append({
        'sample_id': i + 1,
        'mean': mean,
        'ci_lower': ci[0],
        'ci_upper': ci[1],
        'contains_true': contains_true_mean
    })

# 結果の可視化
fig, ax = plt.subplots(figsize=(12, 8))

for i, result in enumerate(results):
    color = 'blue' if result['contains_true'] else 'red'
    ax.plot([result['ci_lower'], result['ci_upper']], [i, i], 
            color=color, linewidth=2, alpha=0.7)
    ax.plot(result['mean'], i, 'o', color=color, markersize=8)

# 真の平均の線
ax.axvline(true_mean, color='green', linestyle='--', linewidth=2, 
           label=f'真の母平均: {true_mean}点')

# グラフの装飾
ax.set_xlabel('点数', fontsize=12)
ax.set_ylabel('サンプル番号', fontsize=12)
ax.set_title('20回のサンプリングによる95%信頼区間の比較', fontsize=14, fontweight='bold')
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3, axis='x')

# 含まれなかった信頼区間の数を表示
num_not_contains = sum(1 for r in results if not r['contains_true'])
ax.text(0.02, 0.98, f'真の平均を含まない信頼区間: {num_not_contains}/{num_samples}',
        transform=ax.transAxes, fontsize=11, verticalalignment='top',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

plt.tight_layout()
plt.show()

このグラフを見ると、約95%の信頼区間が真の母平均を含んでいることが視覚的に確認できます。
青い線は真の平均を含む信頼区間、赤い線は含まない信頼区間を表しています。