【python】決定木の分析｜機械学習の中では解釈が容易

ここでは、pythonを使った決定木の分析を説明します。機械学習に分類されますが、手法自体は古くからあり、解釈がしやすいのが特徴です。

決定木の分析をする前に、データをあらかじめ加工しておく必要があります。

経済統計の使い方では、統計データの入手法から分析法まで解説しています。

【python】pythonのまとめ経済統計の使い方では、統計データの入手法から分析法まで解説しています。 https://officekaisuiyoku.com...

Contents

カテゴリー変数の数値化
データの正規化
決定木の作成
決定木の描画

カテゴリー変数の数値化

カテゴリー変数とは、「良い」「悪い」とか、「A型」、「B型」、「AB型」、「O型」など、いくつかのカテゴリー（種類）に分けられるデータです。

これを計算に使うには0や1などに数値化する必要があり、それをエンコーディングと呼びます。

scikit-learnのproprocessingモジュールのLabelEncoderを使います。

le.transform()で数値に変換します。そのままだとarrayになるので、pandasのSeriesの形にするため、pd.Series()を使います。fit()は、データに基づいて変換のためのパラメータを学習します。transform()は学習したパラメータを用いてデータを変換します。

from sklearn.preprocessing import LabelEncoder
le=LabelEncoder()
le.fit(y)
y=pd.Series(le.transform(y))

データの正規化

データの大きさをそろえるために、正規化します。ここでは、最小最大正規化を行いました。データの最大値と最小値を使って、最小値が０、最大値が１となるようにします。

$ x’=　\frac{x-最小値}{　最大値－最小値　} $

scikit-learnのproprocessingモジュールのMinMaxScalerを使います。fitとtransformを使うのはLabelEncoderと同じです。

from sklearn.preprocessing import MinMaxScaler
mmsc=MinMaxScaler()
mmsc.fit(X)
X=pd.DataFrame(mmsc.transform(X))

結果は以下のようになります。

X.columns=[“IIP”,”SeisanZai”,”TaikyuSyohizai”,”RoudouTounyuRyou”,”Toushizai”,”Kouri”,”Orosiuri”,”EigyoRieki”,”YuukouKyujin”,”Yusyutusuuryou”]

決定木の作成

決定木を作成します。データは、景気の状態を説明変数、景気動向指数の10個の指標を説明変数として、決定木による分析をしてみます。景気動向指数の各指数は、最大値と最小値を使って正規化しています。

DecisionTreeClassifierを使います。ここで使うモデルは、treeという名前です。枝の数は3としています。

from sklearn.tree import DecisionTreeClassifier
tree=DecisionTreeClassifier(max_depth=3)
tree.fit(X_train,y_train)

決定木の描画

上のモデルを使って、木を描いてみます。plot_tree関数を使います。

from sklearn.tree import plot_tree
plot_tree(tree,feature_names=X_train.columns,filled=True )

python

【python】決定木の分析｜機械学習の中では解釈が容易

カテゴリー変数の数値化

データの正規化

決定木の作成

決定木の描画

【R】パッケージの利用｜インストール後はlibraryコマンド

【python】Trutleの基本

【python】グラフの描き方｜matplotlib

COMMENT コメントをキャンセル

Recent Posts

【python】pythonのまとめ

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【R】　table関数

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【計量経済学】シグマ（和記法）の公式のまとめ｜知っておくと便利

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

カテゴリー変数の数値化

データの正規化

決定木の作成

決定木の描画

【R】パッケージの利用｜インストール後はlibraryコマンド

【python】Trutleの基本

【python】グラフの描き方｜matplotlib

COMMENT コメントをキャンセル

Recent Posts

【python】pythonのまとめ

【統計学】【エクセル】相関係数、相関係数行列の計算法 ｜CORREL関数と分析ツール

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【R】 table関数

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【計量経済学】シグマ（和記法）の公式のまとめ｜知っておくと便利

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【R】　table関数