最終更新
リンドくん
たなべ先生、データサイエンスの勉強を始めたんですけど、「質的変数」と「量的変数」って何が違うんですか?
たなべ
これはデータ分析の基礎中の基礎なんだ。
簡単に言うと、数字で計算できるかどうかの違いなんだよ。例えば「身長」と「性別」、どちらが計算できると思う?
リンドくん
えっと...身長は平均とか出せそうですけど、性別は...できないですよね?
たなべ
その通り!それがまさに量的変数と質的変数の違いなんだ。
今日はこの大事な概念をしっかり理解していこうね。
データサイエンスを学び始めると、必ず最初に出会うのが「変数の種類」という概念です。
データを正しく分析するためには、そのデータがどんな性質を持っているかを理解することが不可欠なんです。
なぜなら、データの種類によって使える分析手法や統計処理が全く異なるからです。
例えば、平均値を計算できるデータもあれば、それが意味をなさないデータもあります。
本記事では、データサイエンスの基礎となる「質的変数」と「量的変数」について、初心者の方でも理解できるよう、具体例とPythonコードを交えながら詳しく解説していきます。
HackATAは、IT技術を習得する人のために広く開かれたオンラインコミュニティです。 現在、無料コミュニティとして開放していますので、ご気軽に参加してください。
✓ 再立ち上げ
✓ コミュニティの方向性について意見募集中
リンドくん
そもそも「変数」って何なんですか?プログラミングの変数とは違うんですか?
たなべ
プログラミングの変数と考え方は似ているけど、データサイエンスでは観測や測定の対象となる特性や属性のことを指すんだ。
例えば、学生のデータなら「年齢」「性別」「テストの点数」などが変数になるよ。
データサイエンスにおける変数(variable)とは、観測対象の特性や属性を表すものです。
例えば、ある学校の生徒データを考えてみましょう。
これらすべてが「変数」です。
データ分析では、これらの変数がどんな性質を持っているかを理解することが、正しい分析への第一歩となります。
変数の種類を理解することは、以下の理由から非常に重要です。
例えば、「性別」という変数の平均値を計算しても意味がありませんよね。
これは「性別」が質的変数だからです。このように、変数の種類を正しく理解することで、意味のある分析ができるようになるのです。
リンドくん
質的変数って、具体的にどういうものなんですか?
たなべ
質的変数はカテゴリーや種類を表す変数なんだ。
「男性/女性」「都道府県名」「好きな色」みたいに、数値で計算できないデータだよ。別名「カテゴリカル変数」とも呼ばれるんだ。
質的変数(qualitative variable)は、以下のような特徴を持っています。
具体的な例を見てみましょう。
この例では、「性別」「血液型」「好きな科目」「居住地」がすべて質的変数です。
これらはカテゴリーを表しており、数値計算はできません。
質的変数は、さらに2つのタイプに分類されます。
順序に意味がないカテゴリーデータです。
例:
カテゴリーに順序や序列があるデータです。
例:
順序尺度は「大小関係」はわかりますが、その差の大きさは測定できません。
例えば、「優」と「良」の差が、「良」と「可」の差と同じかどうかはわからないのです。
リンドくん
じゃあ量的変数は、数字で計算できるデータってことですか?
たなべ
その通り!量的変数は数値で測定され、計算に意味があるデータなんだ。
身長、体重、テストの点数、年齢...これらは全部量的変数だよ。平均値や標準偏差といった統計量が計算できるんだ。
量的変数(quantitative variable)は、以下のような特徴があります。
具体例を見てみましょう。
この例では、「年齢」「身長」「数学の点数」「英語の点数」がすべて量的変数です。
これらは平均値や標準偏差などの統計量を計算することに意味があります。
量的変数も、さらに2つのタイプに分類されます。
等間隔の目盛りがあるが、絶対的なゼロ点がないデータです。
例)間隔尺度では、差は意味がありますが、比は意味を持ちません。
例えば、20℃と10℃の差は10℃ですが、「20℃は10℃の2倍暖かい」とは言えないのです。
等間隔の目盛りがあり、絶対的なゼロ点があるデータです。
例)比率尺度は最も情報量が多い尺度で、すべての数学的操作が意味を持ちます。
「身長が2倍」「速度が3倍」といった比較ができるのは、絶対的なゼロ点があるからです。
リンドくん
実際にデータを見たとき、どうやって判断すればいいんですか?
たなべ
いくつかの判断基準を覚えておくと便利だよ。
特に「計算に意味があるか」「ゼロ点があるか」を考えると分かりやすいんだ。
データの種類を見分けるには、以下の質問を順番に考えてみましょう。
数値で表現されているか?
数値計算(平均など)に意味があるか?
絶対的なゼロ点があるか?(量的変数の場合)
カテゴリー間に順序があるか?(質的変数の場合)
初心者がよく間違えるパターンを見てみましょう。
これらは見た目は数字ですが、「平均を計算する」「足し算する」といった操作には意味がありません。
そのため、質的変数として扱う必要があるのです。
リンドくん
実際のデータで変数の種類を判定する練習がしたいです!
たなべ
それじゃあ、実際のデータセットを使って、変数の種類を判定してみようか。
Pythonのコードで自動判定する方法も教えるよ。
まず、様々な種類の変数を含むデータセットを作成しましょう。
Pythonを使って、データの種類を判定するコードを書いてみましょう。
それぞれの変数の種類に適した分析を実行してみましょう。
変数の種類に応じた適切なグラフを作成しましょう。
このように、変数の種類によって適切な分析手法や可視化方法が変わってきます。
質的変数には度数分布や棒グラフ、量的変数には平均値や箱ひげ図といった具合です。
リンドくん
なるほど!データの種類を正しく理解することが、正しい分析の第一歩なんですね!
たなべ
その通り!変数の種類を見極める力は、データサイエンティストとして必須のスキルなんだ。
今日学んだことを実際のデータで練習してみてね。きっと分析がもっと楽しくなるはずだよ!
この記事では、データサイエンスの基礎となる「質的変数」と「量的変数」について詳しく解説してきました。
重要なポイントを改めて整理しましょう。
判断のポイント
データサイエンスの学習は、基礎をしっかり固めることが何より重要です。
今日学んだ変数の種類は、これからのすべての分析の土台となる知識ですので、ぜひ何度も復習して身につけてください。