経済統計の使い方
統計初心者の社会人向けに、経済データの解説をしています。「まとめページ」をご覧くだされば、全体的な内容がわかると思います。
python

【python】パッケージとモジュール

Pythonの便利な点の一つは、多くのパッケージを利用できることです。パッケージとは、よく使われる分析手法や処理をまとめて、簡単に使えるようにしたモジュールの集合です。

ここで用語を整理しましょう:

  • モジュール(module):関数やクラスなどの処理を1つのファイルにまとめたものです。たとえば math モジュールには数学関数が含まれています。
  • パッケージ(package):複数のモジュールをまとめたものです。通常、フォルダ構成になっていて、その中に複数の .py ファイル(モジュール)が含まれます。
  • ライブラリ(library)という言葉もよく使われますが、これはパッケージやモジュールの集まりを指すことが多く、厳密な定義はなく慣習的に使われる用語です。

たとえば、データ分析でよく使われる pandas はパッケージで、その中に複数のモジュールが含まれています。これを「pandasライブラリ」と呼ぶこともあります。

【python】pythonのまとめ 経済統計の使い方では、統計データの入手法から分析法まで解説しています。 https://officekaisuiyoku.com...

パッケージを使うには

Pythonでパッケージを使うには、「インポート(import)」して使います。ただし、すぐに使えるパッケージと、インストールが必要なパッケージがあります。

■ 標準ライブラリと事前インストール済みパッケージ

Pythonには最初から使える「標準ライブラリ」がいくつかあります。また、AnacondaGoogle Colab のような環境では、あらかじめよく使うパッケージ(例:pandasnumpy)がインストール済みです。

こういったパッケージは、次のように import を使うだけで使えます:

import pandas




もしくは、略称を付けることもあります:

import pandas as pd




■ インストールが必要なパッケージ

一方で、geopandas のように新たに追加されたパッケージは、自分でインストールする必要があります。Colab や Jupyter Notebook では、以下のように pip コマンドを使ってインストールできます:

!pip install geopandas

! は、ColabやJupyter上で「Python以外のシステムコマンド」を実行するために使います。

モジュールのimport

Pythonには、さまざまな便利なモジュールがあります。

mathというモジュールを使う場合は以下のようになります。

import math

パッケージの中のモジュールのimport

ただ、多くのモジュールはパッケージに属しています。その場合はモジュール名だけではなく、パッケージ名も書く必要があります。以下ではその書き方の基本です。

import パッケージ名.モジュール名

基本的にはモジュールを呼び出すにはパッケージ名モジュール名が必要です。

import パッケージ名

ただし、Pandasのような主要なパッケージでは、パッケージをimportすれば、内部のモジュールの主要な関数やクラスが同時にimportされます。つまりパッケージ名だけimportすれば、主要な関数やクラスは使えます。

from パッケージ名 import モジュール名

import パッケージ名.モジュール名の代わりに、fromを使うと、指定したモジュール名だけをimportする形にもできます。

import パッケージ名 as 別名 

別名を指定すると、それ以降は、別名をパッケージ名の代わりに使えます。

モジュールの中にある関数など

モジュールの使い方を示します。関数の形で使う場合が多いですが、クラスやメソッドも使えます。pndasのパッケージの下にあるモジュールでの使い方を示します。モジュールはそれぞれ違いますが、主要なものはパッケージをimportすれば指定せずに使えます。

名前説明モジュール名前使い方備考
関数(function)処理をひとまとめにしたもの。呼び出すと何かを計算・実行する。pandas.io.parsers.readersread_csv()pd.read_csv(“data.csv”)CSVファイルを読み込む関数
クラス(class)オブジェクトをつくるための設計図。pandas.core.frameDataFramedf = pd.DataFrame(data)表形式データを扱うクラス
メソッド(method)クラスの中で定義された関数。オブジェクトに対して使う。pandas.core.framehead()df.head()先頭の数行を表示
定数(constant)変わらない値。pandas._libs.tslibs.np_datetimeNATpd.Timestamp(pd.NaT)日時型の欠損地を表す定数

パッケージ一覧

パッケージ内容
Numpy数値計算や配列の処理
pandasデータ分析
matplotlib.pyplot可視化、グラフ
sklearn機械学習
statmodels最小二乗法など
torch深層学習
google.colabグーグルコラボ特有のパッケージ

google.colabのモジュール

import goole.colab.drive でも使えますが、from google.colab import drive といった書き方の方が簡潔なので、使われます。

モジュール内容
drivemount()関数を使って、グーグルドライブを使えるようにする。
filedownload()関数を使って、ファイルをグーグルドライブのcontentディレクトリーにダウンロードする。

Pandasのモジュール

モジュール内容
DataFrame(クラス)pd.DataFrame()でオブジェクトを作成する。
オブジェクト.to_csvメソッドを使ってcsvファイルにする。
オブジェクト.columnsは属性で、列名がわかる。
オブジェクト.pivotはメソッドで、縦長のデータを横長にする。
core.reshapepd.melt()で、ロング形式(縦長形式)に変形する。
concat()で、データフレームを結合する。
merge()で、共通の列を用いてデータフレームを結合する。
get_dummies()でダミー変数が作成
core.reshapeは省略で可。
pandas.io.parserspd.read_csv() で、csvファイルを読み込む。
io.paresersは省略可。

statsmodelsのモジュール

モジュール内容
statsmodels.tools.toolsadd_constant() 定数項をデータに追加するために使用する。
statsmodels.regression.linear_modelOLS() 最小二乗法による推定を行う。
.fit()モデルに対するメソッドで、推定値を計算する。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA