経済統計の使い方
統計初心者の社会人向けに、経済データの解説をしています。「まとめページ」をご覧くだされば、全体的な内容がわかると思います。
統計学・計量経済学

【計量経済学】ダミー変数|1と0の変数だけど意外に便利

ダミー変数とは擬似変数とも呼ばれ、1とゼロからなる変数です。

大きく分けると

  • 1時点の異常値を処理する異常値ダミー
  • 定数項を調整する定数項ダミー
  • 係数を調整する係数ダミー

があります。

経済統計の使い方では、統計データの入手法から分析法まで解説しています。

統計学・計量経済学のまとめ 統計学に関するまとめのサイトです。 回帰分析の基本 記述統計 記述統計の説明動画(エクセル) 平均 分...

異常値ダミー

最小二乗法は、異常値に弱い推計法でもあります。たとえば、以下のデータを仮想例として使ってみましょう。

$X_i$と$Y_i$はだいたい相関していますが、第4期のx=4、Y=15のデータは異常値になっています。散布図で描くとよくわかります。

異常値は、戦争やストライキ、天候不順、政策変更などが原因で発生します。

このまま最小二乗法を適用すると以下の式になります。自由度修正済み決定係数は0.59です。

$ Y_i=-1.0+2.8X_i$

第4期の$Y_i$の値が異常値と考え、第4期であるX=4の時1,それ以外は0のダミー変数$D_i$を説明変数に加えます。そうすると、本来の係数が推定できます。

$X_i$にかかる係数が2.8から2.1へと減少し、決定係数は0.97に上がりました。ダミー変数にかかる係数は6.9なので、第4期は理論値より6.9だけ上に上がったことがわかります。

$ Y_i=-0.3+2.1X_i+6.9D_i$

このように、ダミー変数を利用することにより、適切な推定が行われます。

定数項ダミー

最小二乗法の定数項や係数にもダミー変数を使うことができます。まず、定数項ダミーです。

二つのカテゴリーがあって、傾きは同じだけれど水準が違う場合に使えるものです。ここでは、男女の身長を並べたデータを使ってみましょう。1年間の身長の伸びは同じと考え、男女の身長差をダミー変数で測るとします。

$X_i$は年齢、$Y_i$は身長です。$D_i$はダミー変数で男子の場合は0、女子の場合は1にしています。最小二乗法で係数を推定すると以下の式となります。

$Y=156.4+0.79 X-12.0D $

男女とも年間0.79cm身長が伸び、男女の差は12.0cmあることがわかります。

係数ダミー

係数ダミーは、カテゴリーによって傾きが変わる場合です。サラリーマンの昇給ペースは、一般職と総合職、正規職員と非正規職員など職種によって違います。こうした例では係数ダミーを使って両者を統合して分析することができます。以下の仮想的なデータを使います。

散布図で表すと以下のデータです。

$X_i$は年齢、$Y_i$は年収を表しているとします。ダミー変数$D_i$は一般職は0、総合職は1とします。両方とも、年齢とともに収入が増えますが、増え方が違うモデルで、以下の式になります。

$Y_i=\alpha+\beta_1 X_i+\beta_2 D_i X_i+e_i$

ダミー変数が0の時、傾きは$\beta_1$、ダミー変数が1の時傾きは$\beta_1+\beta_2$ということです。

実際の推計結果は以下になります。一般職は年間10万円収入が増え、総合職では年間20万円収入が増えるという結果になっています。

$Y_i=72.0+10.8X_i+10.0 D_i*X_i $

仮説検定に利用できる

ダミー変数を用いた推定は、さまざまな仮説検定に利用できます。

たとえば、定数項ダミーのケースでは、

男女の身長に差があるかどうか

の検定ができ、係数ダミーのケースでは、

一般職と総合職の昇給ペースに違いはあるか

という検定ができます。ダミー変数の係数のt値を調べればよいです。

t値は、「係数がゼロ」の対する仮説検定なので、t値が有意だということは、「ダミー変数の係数がゼロ」という帰無仮説を棄却できることを表します。「男女の身長に差がある」という帰無仮説を棄却でき、男女の身長に差があると結論づけられます。

被説明変数の場合は質的従属変数に

被説明変数に1,0の変数を使う場合があります。就職している=1、就職していない=0といった変数を使う場合です。この場合は、質的従属変数と呼び、特有の推定法が考案されています。

EViewsで異常値ダミーを使う

EViewsで、一時点ダミーを使って例を説明します。使うのは、農林水産省の「作物統計」です。2000年から水稲の作付面積と収穫量を使いました。

近似曲線を引くと、一つだけ大きく外れた点があります。2003年で、記録的な冷夏だったため、作付面積に比べて、収穫量が大きく落ち込んでいます。

作付面積から収穫量を予測する場合、2003年の異常値に引きずられる可能性があるため、ダミー変数を使って処理することにします。

【計量経済学】ロジスティック曲線|普及率の予測に使える。 ロジスティック曲線は、家電の普及率など徐々に増え方が小さくなって、ある飽和点がある曲線です。 ロジスティック回帰は、普及率や成...

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA