フリーキーズ | 独学プログラミング

Python環境構築入門!データサイエンスを始めるための基礎知識と手順

リンドくん

リンドくん

たなべ先生、データサイエンスを勉強したいんですけど、Pythonの環境構築って難しそうで...何から始めればいいんですか?

たなべ

たなべ

確かに環境構築は最初の壁になりがちだよね。
でも安心して。データサイエンス用のPython環境は、Anacondaというツールを使えば驚くほど簡単に整えられるんだ。今日は一緒に、ゼロから環境を作っていこう!

プログラミングを学び始めた方がデータサイエンスに挑戦しようとすると、最初に立ちはだかるのが「環境構築」という壁です。

「Pythonをインストールしたけど、次に何をすればいいの?」
「ライブラリって何?どうやって入れるの?」
「仮想環境って必要なの?」

こうした疑問を抱えている方も多いのではないでしょうか。
実際、自分も講師として多くの学習者を見てきましたが、環境構築でつまずいて学習を諦めてしまう方は少なくありません。

しかし、ここで朗報です。データサイエンス向けのPython環境構築は、適切な手順とツールを使えば、初心者でも30分程度で完了できます

この記事では、データサイエンスに必要なPython環境の構築方法を、プログラミング初心者の方でも理解できるよう、一つ一つ丁寧に解説していきます。

オンラインコミュニティ運営しています

HackATAは、IT技術を習得する人のために広く開かれたオンラインコミュニティです。 現在、無料コミュニティとして開放していますので、ご気軽に参加してください。

✓ 再立ち上げ

✓ コミュニティの方向性について意見募集中

HackATA公式Webサイト

なぜAnacondaがデータサイエンスに最適なのか

リンドくん

リンドくん

Pythonの環境構築って、公式サイトからPythonをダウンロードするだけじゃダメなんですか?

たなべ

たなべ

もちろんそれでもPythonは使えるよ。でもデータサイエンスの場合は、必要なライブラリが最初から揃っているAnacondaを使う方が圧倒的に楽なんだ。

Anacondaとは何か

Anacondaは、データサイエンスや機械学習に必要なPython環境をパッケージ化したディストリビューション(配布パッケージ)です。
簡単に言えば、データサイエンスに必要なものが全部入りのツールセットだと考えてください。

通常のPythonインストールとAnacondaの大きな違いは以下の点にあります。

  • 必要なライブラリが最初から含まれている → pandas、NumPy、matplotlibなど、データ分析に必須のライブラリがプリインストール済み
  • 仮想環境管理が簡単 → プロジェクトごとに独立した環境を作成・管理しやすい
  • Jupyter Notebookが付属 → データサイエンスの標準的な開発環境が使える
  • パッケージ管理が容易 → condaコマンドで簡単にライブラリを追加・更新できる

データサイエンスに必要なツールが揃っている

Anacondaには、データサイエンスの学習や実務で使用する主要なライブラリがあらかじめインストールされています。

  • NumPy - 数値計算のための基本ライブラリ
  • pandas - データ分析・加工のための必須ツール
  • matplotlib / seaborn - データの可視化ライブラリ
  • scikit-learn - 機械学習の基本ライブラリ
  • Jupyter Notebook - インタラクティブな開発環境

これらを個別にインストールしようとすると、バージョンの互換性問題などで初心者がつまずくことが多いのです。
しかしAnacondaなら、これらが最初から動作確認済みの状態で提供されます。

初心者にとっての大きなメリット

データサイエンス学習を始めたばかりの方にとって、Anacondaは以下のような利点があります。

まず、環境構築のトラブルを最小限に抑えられるという点です。
ライブラリのインストールで発生しがちなエラーに悩まされることなく、すぐに学習を始められます。

次に、標準的な環境を使えるということ。
オンライン教材や書籍の多くがAnaconda環境を前提にしているため、学習リソースと環境が一致します。

そして、プロジェクト管理が楽になること。
複数のデータサイエンスプロジェクトを進める際、それぞれ独立した環境で管理できるため、ライブラリのバージョン競合を避けられます。

Anacondaのインストール手順

リンドくん

リンドくん

じゃあ早速Anacondaをインストールしてみたいです!手順を教えてください。

たなべ

たなべ

OK!OSごとに少し手順が違うから、自分の環境に合わせて進めていこうね。基本的にはダウンロードしてインストーラーを実行するだけだから安心して。

インストーラのダウンロード

まず、Anacondaの公式サイト(https://www.anaconda.com/download)にアクセスします。
ページ上部に"Get Started"ボタンが表示されますので、それをクリックしてまずはAnacondaに登録します。

それが済んだらインストーラをダウンロードしましょう。
OSや環境に合わせてインストーラの一覧が表示されているため、自分に合ったものをダウンロードしてインストールします。

なお、Graphical Installerを選べばアプリケーションを立ち上げて、インストールウィザードに従うだけでインストールが進められます。

インストールが終わったらコマンドプロンプトやターミナルで以下のコマンドを実行しましょう。

# CLIインストールでは.zshrcや.bashrcを更新する必要があるため以下を実行してください
# source .bashrc(または.zshrc)
conda --version

バージョン情報が表示されれば成功です。

インストール後の確認

インストールが正常に完了したかを確認するため、以下のコマンドを実行してみましょう。

# Anacondaのバージョン確認
conda --version

# Pythonのバージョン確認
python --version

# インストール済みパッケージの一覧表示
conda list

これらのコマンドが正常に動作すれば、Anacondaのインストールは成功です!

Jupyter Notebookを使ってみよう

リンドくん

リンドくん

Jupyter Notebookって名前はよく聞くんですけど、普通のPythonファイルと何が違うんですか?

たなべ

たなべ

Jupyter Notebookはコードと結果を一緒に確認できるインタラクティブな環境なんだ。
データ分析では、試行錯誤しながら進めることが多いから、すごく便利なんだよ。

Jupyter Notebookとは

Jupyter Notebookは、ブラウザ上で動作する対話型のPython開発環境です。特にデータサイエンスの分野では事実上の標準ツールとなっています。

通常の.pyファイルとの大きな違いは以下の点です。

  • コードをセル単位で実行できる → 一部分だけ実行して結果を確認しながら進められる
  • 実行結果が保存される → グラフや表などの出力結果がノートブック内に保存される
  • マークダウンで説明を追加できる → コードの説明やメモを見やすく記述できる
  • 共有が簡単 → .ipynbファイル一つで、コードと結果を含めて共有できる

Jupyter Notebookの起動方法

Anaconda Promptまたはターミナルで以下のコマンドを実行します。

jupyter notebook

すると、ブラウザが自動的に開き、Jupyter Notebookのホーム画面が表示されます。ここから新しいノートブックを作成したり、既存のノートブックを開いたりできます。

簡単な使い方

新しいノートブックを作成して、データサイエンスの基本的なコードを試してみましょう。
NewからPython3を選びます。

新規ノートブック作成

新規ノートブック作成

表示されたノートブックに以下のコードを貼り付けてみましょう。

# NumPyとpandasのインポート
import numpy as np
import pandas as pd

# シンプルなデータフレームの作成
data = {
    '名前': ['田中', '佐藤', '鈴木'],
    '年齢': [25, 30, 28],
    '都市': ['東京', '大阪', '名古屋']
}

df = pd.DataFrame(data)
print(df)

このコードを実行すると、以下のような表形式のデータが表示されます。

名前  年齢    都市
0  田中  25    東京
1  佐藤  30    大阪
2  鈴木  28  名古屋
実行結果

実行結果

Jupyter Notebookでは、このようにコードと実行結果が一体となって表示されるため、データの確認や試行錯誤がとてもスムーズに行えます。

ショートカットキーを覚えよう

Jupyter Notebookを効率的に使うための基本的なショートカットです。

  • Shift + Enter - セルを実行して次のセルへ移動
  • Ctrl + Enter - セルを実行(移動しない)
  • A - 上に新しいセルを追加(コマンドモード時)
  • B - 下に新しいセルを追加(コマンドモード時)
  • M - マークダウンセルに変更
  • Y - コードセルに変更

これらを覚えるだけで、作業効率が大幅に向上します。

仮想環境の作成と管理

リンドくん

リンドくん

仮想環境って何ですか?なんだか難しそうな響きですが...

たなべ

たなべ

心配しないで!仮想環境はプロジェクトごとに独立した作業スペースを作る仕組みなんだ。例えるなら、机の上を整理整頓するようなものだよ。

なぜ仮想環境が必要なのか

データサイエンスのプロジェクトを複数扱うようになると、以下のような問題が発生することがあります。

  • プロジェクトAでは古いバージョンのライブラリが必要
  • プロジェクトBでは最新バージョンが必要
  • 両方を同じ環境で動かそうとすると衝突が起きる

仮想環境を使うことで、プロジェクトごとに独立したPython環境を作成し、これらの問題を回避できます。

conda環境の作成

新しいプロジェクト用の仮想環境を作成してみましょう。

# 新しい環境の作成(Python 3.14を指定)
conda create -n my_test_proj python=3.14

# 環境の有効化
conda activate my_test_proj

-nオプションの後に環境名を指定します。ここではmy_test_projという名前にしていますが、プロジェクトに合わせて自由に命名できます。

環境の管理コマンド

仮想環境を効率的に管理するための基本コマンドです。

# 環境の一覧表示
conda env list

# 環境の有効化
conda activate 環境名

# 環境の無効化(base環境に戻る)
conda deactivate

# 環境の削除
conda remove -n 環境名 --all

環境にライブラリをインストール

特定の環境に必要なライブラリをインストールしてみましょう。

# まず環境を有効化
conda activate my_test_proj

# ライブラリのインストール
conda install pandas numpy matplotlib scikit-learn

このように、プロジェクトごとに必要なライブラリだけをインストールすることで、環境をクリーンに保つことができます。

データサイエンスで必須のライブラリ

リンドくん

リンドくん

データサイエンスを始めるには、どんなライブラリを入れておけばいいんですか?

たなべ

たなべ

基本的にはNumPy、pandas、matplotlibの3つが最重要だよ。これらがあれば、かなりのことができるんだ。

必須ライブラリトップ5

データサイエンス初心者が最初に学ぶべき5つのライブラリを紹介します。

NumPy(ナンパイ)

  • 役割: 数値計算の基盤ライブラリ
  • 用途: 配列操作、数学関数、線形代数など
import numpy as np

# 配列の作成
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2)  # [2 4 6 8 10]

pandas(パンダス)

  • 役割: データ分析・加工のためのライブラリ
  • 用途: CSVファイルの読み込み、データのフィルタリング、集計など
import pandas as pd

# CSVファイルの読み込み
df = pd.read_csv('data.csv')

# データの基本統計量表示
print(df.describe())

matplotlib(マットプロットリブ)

  • 役割: データ可視化のための基本ライブラリ
  • 用途: グラフやチャートの作成
import matplotlib.pyplot as plt

# 簡単なグラフの作成
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y)
plt.show()

scikit-learn(サイキットラーン)

  • 役割: 機械学習のためのライブラリ
  • 用途: 分類、回帰、クラスタリングなど
from sklearn.linear_model import LinearRegression

# 簡単な線形回帰
model = LinearRegression()
# モデルの学習と予測...

seaborn(シーボーン)

  • 役割: 統計的データ可視化ライブラリ
  • 用途: より美しく、統計的なグラフの作成
import seaborn as sns

# データセットの可視化
sns.scatterplot(data=df, x='x列', y='y列')

ライブラリのインポート方法

Pythonでライブラリを使用する際の一般的な書き方を理解しておきましょう。

# 標準的なインポート方法
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 特定の関数だけインポート
from sklearn.model_selection import train_test_split

# 複数の関数をまとめてインポート
from sklearn.metrics import accuracy_score, precision_score, recall_score

asキーワードを使って短い別名を付けるのは、コードの可読性を高めるための一般的な慣習です。特にnumpynppandaspdは業界標準と言えます。

まとめ

リンドくん

リンドくん

なるほど!思ったより簡単に環境が整いました。これでデータサイエンスの勉強を始められますね!

たなべ

たなべ

その通り!環境構築は最初のハードルだけど、ここを乗り越えれば本当に楽しいデータサイエンスの世界が待っているよ。ぜひ色々試してみてね。

この記事では、データサイエンスのためのPython環境構築について、基礎から実践まで解説してきました。

重要なポイントをおさらいすると、以下の通りです。

  • Anacondaを使えば必要なツールが一度に揃う - 個別インストールの手間とトラブルを回避できます
  • Jupyter Notebookはデータサイエンスの標準ツール - コードと結果を一緒に確認できる強力な環境です
  • 仮想環境でプロジェクトを管理 - 複数のプロジェクトを安全に扱えます
  • 主要ライブラリ(NumPy、pandas、matplotlib)を理解する - これらがデータサイエンスの基盤となります

環境構築は、プログラミング学習における最初の関門と言えます。しかし、適切な手順とツールを使えば、初心者でも確実にクリアできるものです。

ここまで環境が整えば、あとは実際にデータを触って、分析の楽しさを体験するだけです。
最初は簡単なデータセットから始めて、徐々に複雑な分析に挑戦していきましょう。

この記事をシェア

関連するコンテンツ