Pythonの便利な点の一つは、多くのパッケージを利用できることです。パッケージとは、よく使われる分析手法や処理をまとめて、簡単に使えるようにしたモジュールの集合です。
ここで用語を整理しましょう:
- モジュール(module):関数やクラスなどの処理を1つのファイルにまとめたものです。たとえば
math
モジュールには数学関数が含まれています。 - パッケージ(package):複数のモジュールをまとめたものです。通常、フォルダ構成になっていて、その中に複数の
.py
ファイル(モジュール)が含まれます。 - ライブラリ(library)という言葉もよく使われますが、これはパッケージやモジュールの集まりを指すことが多く、厳密な定義はなく慣習的に使われる用語です。
たとえば、データ分析でよく使われる pandas はパッケージで、その中に複数のモジュールが含まれています。これを「pandasライブラリ」と呼ぶこともあります。

パッケージを使うには
Pythonでパッケージを使うには、「インポート(import)」して使います。ただし、すぐに使えるパッケージと、インストールが必要なパッケージがあります。
■ 標準ライブラリと事前インストール済みパッケージ
Pythonには最初から使える「標準ライブラリ」がいくつかあります。また、Anaconda や Google Colab のような環境では、あらかじめよく使うパッケージ(例:pandas
や numpy
)がインストール済みです。
こういったパッケージは、次のように import
文 を使うだけで使えます:
import pandas
もしくは、略称を付けることもあります:
import pandas as pd
■ インストールが必要なパッケージ
一方で、geopandas
のように新たに追加されたパッケージは、自分でインストールする必要があります。Colab や Jupyter Notebook では、以下のように pip
コマンドを使ってインストールできます:
!pip install geopandas
※ !
は、ColabやJupyter上で「Python以外のシステムコマンド」を実行するために使います。
モジュールのimport
Pythonには、さまざまな便利なモジュールがあります。
mathというモジュールを使う場合は以下のようになります。
import math
パッケージの中のモジュールのimport
ただ、多くのモジュールはパッケージに属しています。その場合はモジュール名だけではなく、パッケージ名も書く必要があります。以下ではその書き方の基本です。
import パッケージ名.モジュール名
基本的にはモジュールを呼び出すにはパッケージ名とモジュール名が必要です。
import
パッケージ名
ただし、Pandasのような主要なパッケージでは、パッケージをimportすれば、内部のモジュールの主要な関数やクラスが同時にimportされます。つまりパッケージ名だけimportすれば、主要な関数やクラスは使えます。
from パッケージ名 import モジュール名
import パッケージ名.モジュール名の代わりに、fromを使うと、指定したモジュール名だけをimportする形にもできます。
import パッケージ名 as
別名
別名を指定すると、それ以降は、別名をパッケージ名の代わりに使えます。
モジュールの中にある関数など
モジュールの使い方を示します。関数の形で使う場合が多いですが、クラスやメソッドも使えます。pndasのパッケージの下にあるモジュールでの使い方を示します。モジュールはそれぞれ違いますが、主要なものはパッケージをimportすれば指定せずに使えます。
名前 | 説明 | モジュール | 名前 | 使い方 | 備考 |
関数(function) | 処理をひとまとめにしたもの。呼び出すと何かを計算・実行する。 | pandas.io.parsers.readers | read_csv() | pd.read_csv(“data.csv”) | CSVファイルを読み込む関数 |
クラス(class) | オブジェクトをつくるための設計図。 | pandas.core.frame | DataFrame | df = pd.DataFrame(data) | 表形式データを扱うクラス |
メソッド(method) | クラスの中で定義された関数。オブジェクトに対して使う。 | pandas.core.frame | head() | df.head() | 先頭の数行を表示 |
定数(constant) | 変わらない値。 | pandas._libs.tslibs.np_datetime | NAT | pd.Timestamp(pd.NaT) | 日時型の欠損地を表す定数 |
パッケージ一覧
パッケージ | 内容 |
Numpy | 数値計算や配列の処理 |
pandas | データ分析 |
matplotlib.pyplot | 可視化、グラフ |
sklearn | 機械学習 |
statmodels | 最小二乗法など |
torch | 深層学習 |
google.colab | グーグルコラボ特有のパッケージ |
google.colabのモジュール
import goole.colab.drive でも使えますが、from google.colab import drive といった書き方の方が簡潔なので、使われます。
モジュール | 内容 |
drive | mount()関数を使って、グーグルドライブを使えるようにする。 |
file | download()関数を使って、ファイルをグーグルドライブのcontentディレクトリーにダウンロードする。 |
Pandasのモジュール
モジュール | 内容 |
DataFrame(クラス) | pd.DataFrame()でオブジェクトを作成する。 オブジェクト.to_csvメソッドを使ってcsvファイルにする。 オブジェクト.columnsは属性で、列名がわかる。 オブジェクト.pivotはメソッドで、縦長のデータを横長にする。 |
core.reshape | pd.melt()で、ロング形式(縦長形式)に変形する。 concat()で、データフレームを結合する。 merge()で、共通の列を用いてデータフレームを結合する。 get_dummies()でダミー変数が作成 core.reshapeは省略で可。 |
pandas.io.parsers | pd.read_csv() で、csvファイルを読み込む。 io.paresersは省略可。 |
statsmodelsのモジュール
モジュール | 内容 |
statsmodels.tools.tools | add_constant () 定数項をデータに追加するために使用する。 |
statsmodels.regression.linear_model | OLS() 最小二乗法による推定を行う。 |
.fit() | モデルに対するメソッドで、推定値を計算する。 |