【python】最小二乗法の計算｜statsmodelsとscikit-learn

pythonで最小二乗法の計算をしてみます。statsmodelsというパッケージを使い、以下の式で計算できます。

sm.OLS(被説明変数,説明変数）

scikit-learnというパッケージでも最小二乗法は計算できます。まずモデルを指定して、fit関数で説明変数と被説明変数を指定します。

LinearRegression()

fit（説明変数,被説明変数）

経済統計の使い方では、経済統計の入手法から分析法まで解説しています。

【python】pythonのまとめ経済統計の使い方では、統計データの入手法から分析法まで解説しています。 https://officekaisuiyoku.com...

データは、以下のデータを使います。GDP（国内総生産）と消費のデータです。

import pandas as pd
df=pd.read_csv("cp.csv")

df.head()

消費関数のデータダウンロード

GDP15は実質GDP、CP15は実質民間最終消費で単位は10億円です。データの概要は以下の通りです。０列目は日付（年）のデータが入っています。

satatmodelsを使う場合（結果がわかりやすい）

最小二乗法で消費関数を分析する場合について説明します。定数項をa,GDP95の係数をbとして以下の式を推計します。

$𝐶 𝑃 15 = 𝑎 + 𝑏 𝐺 𝐷 𝑃 15$

statsmodelsを使うと結果がわかりやすいです。最小二乗法の核となる式は以下です。

sm.OLS(被説明変数,説明変数）

sm.add_constantを使うことにより、定数項が付加されます。

import statsmodels.api as sm

y=df["CP15"]
X=df["GDP15"]
X=sm.add_constant(X)

model= sm.OLS(y,X)
results=model.fit()
print(results.summary())

sm.OLS関数は数式を作りますが、実際の計算は、fitメソッドで行います。fitメソッドを使うと、回帰係数や残差の系列、様々な統計量が計算されます。

推計結果をresultsという変数に入れ、その概要をsummaryメソッドで作り、printコマンドで出力しています。

scikit-learnを使う場合（応用範囲が広い）

scikit-learnパッケージを使う場合です。結果の表示はstatmodelsの方がわかりやすいですが、機械学習などのほかの手法への応用範囲が広いです。

$𝐶 𝑃 15 = 𝑎 + 𝑏 𝐺 𝐷 𝑃 15$

被説明変数はpandasのシリーズですが、被説明変数はデータフレーム（2次元）にする必要があります。df[“GDP15”]だとシリーズとして取り出すことになるので、データフレームとして取り出すためには、列名のリスト（一つだけのリスト）を指定するという意味で、df[[“GDP15”]]とします。

推定するモデルが最小二乗法の場合はLinearRegression()のクラス（設計図）を使います。回帰係数などの計算をするのが、fit()メソッドです。カッコ内に（説明変数、被説明変数）を入れます。statmodelsと説明変数と被説明変数の順番が逆で、説明変数、被説明変数の順です。statsmodelsパッケージでは定数項を付加する必要がありますが、scikit-learnパッケージでは定数項は自動的に付加されます。

LinearRegression()

fit（説明変数,被説明変数）

推定値を計算するのがpredictメソッドになります。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

y=df["CP15"]
X=df[["GDP15"]]

model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

print("回帰係数（weights）:", model.coef_)       
print("切片（intercept）:", model.intercept_)    
print("決定係数（R²）:", model.score(X, y))       

print("平均二乗誤差 (MSE):", mean_squared_error(y, y_pred))

出力

回帰係数（weights）: [0.49716147]
切片（intercept）: 30482.215282431105
決定係数（R²）: 0.8859338333346064
平均二乗誤差 (MSE): 27134718.252458863

統計学・計量経済学のまとめ統計学に関するまとめのサイトです。教科書「回帰分析から学ぶ計量経済学－Excelで読み解く経済の仕組み」回帰分...

python

【python】最小二乗法の計算｜statsmodelsとscikit-learn

satatmodelsを使う場合（結果がわかりやすい）

scikit-learnを使う場合（応用範囲が広い）

出力

【R】　table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

【R】　table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

【R】　table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

COMMENT コメントをキャンセル

Recent Posts

経済統計チャットボット　マホナ

【python】pythonのまとめ

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【R】　table関数

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【計量経済学】シグマ（和記法）の公式のまとめ｜知っておくと便利

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

satatmodelsを使う場合（結果がわかりやすい）

scikit-learnを使う場合（応用範囲が広い）

出力

【R】 table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

【R】 table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

【R】 table関数

【python】条件分岐と繰り返し

【python】グラフの描き方｜matplotlib

COMMENT コメントをキャンセル

Recent Posts

経済統計チャットボット マホナ

【python】pythonのまとめ

【統計学】【エクセル】相関係数、相関係数行列の計算法 ｜CORREL関数と分析ツール

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【R】 table関数

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【計量経済学】シグマ（和記法）の公式のまとめ｜知っておくと便利

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

【R】　table関数

【R】　table関数

【R】　table関数

経済統計チャットボット　マホナ

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【R】　table関数