最終更新
リンドくん
先生、データ分析を始めたいんですけど、「平均」「中央値」「最頻値」って何が違うんですか?全部似たようなものですよね?
たなべ
確かに似ているけど、それぞれ違う視点でデータの「真ん中」を表しているんだ。
例えば、RPGで5人のパーティーのレベルが「5, 10, 10, 15, 100」だったとしよう。平均レベルは28だけど、実際にレベル28の人はいないよね?
リンドくん
あ、本当だ!なんか変ですね...
たなべ
そうなんだ。だから状況に応じて適切な指標を選ぶことが大切なんだよ。
今日は、この3つの基本統計量をPythonで実際に計算しながら、その違いと使い分けを学んでいこう!
データ分析を始めるとき、最初に覚えるべきなのが基本統計量です。
中でも「平均値」「中央値」「最頻値」は、データの中心傾向を把握するための3大指標として知られています。
これらの指標は一見似ていますが、実はそれぞれ異なる視点でデータの特徴を教えてくれる重要なツールなのです。
例えば、年収データを分析する際、平均年収だけを見ると一部の高額所得者に引っ張られて実態とかけ離れた数値になることがあります。こうした場合、中央値の方がより実態に近い値を示してくれます。
本記事では、Pythonを使ってこれら3つの基本統計量を実際に計算する方法を、初心者の方でも理解できるよう丁寧に解説していきます。
HackATAは、IT技術を習得する人のために広く開かれたオンラインコミュニティです。 現在、無料コミュニティとして開放していますので、ご気軽に参加してください。
✓ 再立ち上げ
✓ コミュニティの方向性について意見募集中
リンドくん
そもそも「基本統計量」って何ですか?難しそうな名前ですね...
たなべ
難しく聞こえるけど、実は「データの特徴を数値で表したもの」という意味なんだ。
RPGで例えるなら、パーティー全体の「平均レベル」や「最も多い職業」みたいなものだよ。
基本統計量とは、大量のデータを要約し、その特徴を少数の数値で表現したものです。
データ分析では、何百、何千というデータを全部見ることは現実的ではありません。そこで、データ全体の傾向を掴むために基本統計量を使います。
基本統計量には様々な種類がありますが、最も基本的なのが以下の3つです。
「真ん中を知りたいなら平均だけでいいのでは?」と思われるかもしれません。しかし、データの性質によって適切な指標は変わるのです。
例えば、以下のようなRPGパーティーのレベルデータがあったとします。
このデータで平均を計算すると:
平均レベルは19.2ですが、実際には4人が10-13レベル、1人だけが50レベルという状況です。平均値は極端な値(ここでは50)に引っ張られてしまうため、実態を正しく表していません。
このように、データの分布によって適切な指標を選ぶ必要があるのです。それぞれの特徴を理解して使い分けることが、データ分析の第一歩となります。
リンドくん
平均値って、学校のテストの平均点みたいなものですよね?
たなべ
その通り!平均値は最も直感的でわかりやすい指標なんだ。
ただし、極端な値に影響されやすいという特徴があるから、注意が必要だよ。
平均値は、全データの合計をデータ数で割った値です。数式で表すと以下のようになります。
Pythonで計算する方法はいくつかあります。
方法① 基本的な計算
方法② statisticsモジュールを使用
平均値には以下のような特徴があります。
特に最後の「外れ値に弱い」という点は重要です。
このように、1つの極端な値が平均を大きく変えてしまうことがあります。そのため、データに外れ値が含まれる可能性がある場合は、次に紹介する中央値の方が適切なことが多いのです。
リンドくん
中央値って、平均値とどう違うんですか?
たなべ
中央値はデータを小さい順に並べたときの真ん中の値なんだ。
平均値と違って、極端な値に影響されにくいのが最大の特徴だよ。
中央値は、データを小さい順(または大きい順)に並べ替えたときの真ん中の値です。データ数が奇数の場合と偶数の場合で計算方法が少し異なります。
データ数が奇数の場合
データ数が偶数の場合
中央値には以下のような特徴があります。
実際の比較例を見てみましょう。
外れ値(100)が加わっても、中央値は変わらないことがわかります。このため、年収データや不動産価格など、極端な値が含まれやすいデータでは、中央値の方が実態を正しく表すことが多いのです。
リンドくん
最頻値って、あまり聞いたことがないんですが...
たなべ
最頻値は「最も多く現れる値」のことだよ。
RPGで言えば「パーティーで最も多い職業」みたいなものだね。カテゴリデータを分析するときに特に役立つんだ。
最頻値は、データの中で最も頻繁に現れる値のことです。平均値や中央値と違い、数値データだけでなく、文字列などのカテゴリデータにも使えるのが特徴です。
数値データの場合
カテゴリデータの場合
最頻値には以下のような特徴があります。
最頻値が特に役立つのは、以下のようなシーンです。
このように、「最も一般的な値は何か?」を知りたいときに最頻値は非常に有用です。特に、商品企画やマーケティングの分野で頻繁に使われる指標なのです。
リンドくん
結局、どの統計量を使えばいいのか迷ってしまいます...
たなべ
それは大事なポイントだね。実はデータの性質と分析の目的によって使い分けるんだ。
判断基準を整理してみよう。
数値データの場合
正規分布に近いデータ → 平均値が最適
外れ値が含まれるデータ → 中央値が適切
離散的な数値データ → 最頻値も有用
カテゴリデータの場合
実際のデータ分析では、1つの統計量だけでなく、複数を比較することが重要です。
このように、複数の指標を見比べることで、データの偏りや外れ値の存在を発見できるのです。
リンドくん
平均・中央値・最頻値の違いと使い分けがよくわかりました!
たなべ
素晴らしいね!この3つの統計量はデータ分析の基礎中の基礎なんだ。
これをマスターすれば、より高度な統計分析への道が開けるよ。まずは実際のデータで試してみることが大切だね!
本記事では、データ分析の基本となる平均値・中央値・最頻値について、Pythonでの計算方法を含めて詳しく解説してきました。
重要ポイントをおさらいしましょう。
平均値(Mean)データ分析は実践が何より大切です。ぜひ身近なデータ(成績、売上、アクセス数など)を使って、今日学んだ基本統計量を計算してみてください。
実際に手を動かすことで、理解が一層深まるはずです。