【計量経済学】過学習の回避｜リッジ回帰とLASSOをわかりやすく解説

機械学習では特定のデータだけに当てはまりがよくなり、汎用性がなくなってしまう過学習という問題があります。

それを回避するために考えられたのが正則化回帰です。LASSOとリッジ回帰とが代表的です。

経済統計の使い方では、統計データの入手法から分析法まで解説しています。

統計学・計量経済学のまとめ統計学に関するまとめのサイトです。回帰分析の基本記述統計記述統計の説明動画（エクセル）平均分...

Contents

複雑さを回避する正則化回帰
- L2正則化（リッジ回帰）
- L1正則化（LASSO)
計算例
まとめ

複雑さを回避する正則化回帰

回帰分析は機械学習でも使われています。最小二乗法の延長線上にある分析として正則化回帰があります。

機械学習の問題点として、過学習があります。特定のデータについて当てはまりのよいモデルを作ると、そのデータについては当てはまりが良くても、他のデータについては予測がうまくできないという問題です。

その解決法として、モデルの複雑さを表す指標を作り、複雑さが大きくならないようにする方法が考えられ、正則化回帰と呼ばれています。

通常の最小二乗法では、残差の二乗和を最小にしますが、そこに複雑さを表す正則化項を付けます。

残差の二乗和に正則化項を加えた以下の目的関数を最小にします。

$目的関数＝損失関数（残差の二乗和）\text{＋} \color{red} 正則化項（複雑さ）\color{black}　$

L2正則化（リッジ回帰）

説明変数が2つの場合を考えると、以下の目的関数を最小化するのがリッジ回帰です。

$ \Sigma_{i=1}^n ( y_i- (\alpha- \beta_1 x_i – \beta_2 x_i)) ^2 + \lambda (\beta_1^2+\beta_2^2) $

βに制約がある中で、残差二乗和の最小化するということです。βが動ける領域の中で、残差二乗和が最小になる場所を探すことになります。２変数で考えた場合、リッジ回帰では制約する領域が円になるので、βがゼロになることはありませんが、βの大きさに制約がかかるので、係数が小さくなります。

L1正則化（LASSO)

説明変数が2つの場合を考えると、以下の目的関数を最小化するのがLASSO(least absolute shrinkage and selection operator)です。

$ \Sigma_{i=1}^n ( y_i- (\alpha- \beta_1 x_i – \beta_2 x_i)) ^2 + \lambda (|\beta_1|+|\beta_2|) $

βに制約がある中で、残差二乗和の最小化するということです。βが動ける領域の中で、残差二乗和が最小になる場所を探すことになります。２変数で考えた場合、LASSOの場合は制約領域が正方形になるので、最小値が軸上になります。一つの変数はゼロになるということで、説明変数を減らす効果があります。

計算例

３つの推計による推計結果を比べたものです。実質GDP（対数階差）を被説明変数、説明変数に定数項と、景気動向指数一致指数の構成項目（C1からC10まで）の対数階差または階差をとったものです。表とグラフで示しています。

最も左の列が通常の最小二乗法（OLS）です。左から２番目がリッジ回帰で、係数が全体的に小さくなっていることがわかります。最も右がLASSOです。LASSOでは係数がゼロになっているものが増えていることがわかります。

まとめ

回帰分析の応用である正則化回帰を解説しました
過学習を防ぐため、複雑さも考慮して推定します
リッジ回帰では係数の大きさが抑えられます
LASSOでは係数がゼロの説明変数が増えます

【計量経済学】過学習の回避｜リッジ回帰とLASSOをわかりやすく解説

複雑さを回避する正則化回帰

L2正則化（リッジ回帰）

L1正則化（LASSO)

計算例

まとめ

【エクセル】確率分布に関するエクセル関数｜NORM.DISTなど

【計量経済学】対数線形｜対数に関する推定法を徹底解説

【エクセル】エクセルのまとめ

COMMENT コメントをキャンセル

Recent Posts

【経済統計】経済統計一覧

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【R】　table関数

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】【EViews】不均一分散｜有意なものを有意でないとしてしまう

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

複雑さを回避する正則化回帰

L2正則化（リッジ回帰）

L1正則化（LASSO)

計算例

まとめ

【エクセル】確率分布に関するエクセル関数｜NORM.DISTなど

【計量経済学】対数線形｜対数に関する推定法を徹底解説

【エクセル】エクセルのまとめ

COMMENT コメントをキャンセル

Recent Posts

【経済統計】経済統計一覧

【統計学】【エクセル】相関係数、相関係数行列の計算法 ｜CORREL関数と分析ツール

【R】 table関数

【経済学】長期費用曲線と短期費用曲線の違いのまとめ－総費用、平均費用と限界費用

【gretl】gretlのまとめ｜インストールから回帰分析まで

【R】データフレームの中身を確かめる｜class ,head ,tail,dim ,str

【計量経済学】最小二乗法の推定誤差|標準誤差とｔ値

【計量経済学】【EViews】不均一分散｜有意なものを有意でないとしてしまう

【計量経済学】説明変数の内生性と操作変数｜説明変数が誤差項の影響を受ける場合

【R】ディレクトリーの確認、移動｜getwdとsetwd

【計量経済学】BLUEとは｜最良線形不偏推定量について徹底解説

【統計学】【エクセル】相関係数、相関係数行列の計算法　｜CORREL関数と分析ツール

【R】　table関数