経済統計の使い方
統計初心者の社会人向けに、経済データの解説をしています。「まとめページ」をご覧くだされば、全体的な内容がわかると思います。
統計学・計量経済学

【計量経済学】決定係数|当てはまりを表すものさし

経済統計の使い方では、統計データの入手法から分析法まで解説しています。

統計学・計量経済学のまとめ 統計学に関するまとめのサイトです。 記述統計 記述統計の説明動画(エクセル) 平均 分散 確率変数と...

どの程度当てはまっているかを表す

決定係数は、回帰式を推定したときに、どの程度データに当てはまっているのかを示します。決定係数を説明する場合、全変動というあまり使わない用語が出てきますが、まずは、

実績値と理論値の相関を表すもの

と考えるのが良いのではないかと思います。詳しく言うと、「実績値と理論値の相関係数を二乗したもの」です。相関係数に関してはこちらを参考にしてください。

このため、0が全く当てはまってない場合、1は実績と理論値が残差なくぴったり会ったものを表します。決定係数が0.10、0.50、0.90、0.99のばらつき具合は以下の図の通りです。決定係数が0.10の場合は直線は当てはまっているように見えますが、Xが動いてもYはほとんど変化せず、ほとんど定数項だけで説明していることになっています。

実績値($Y_i$)と理論値($\hat{Y_i}$)と残差($u_i$)は以下の関係にあります。

$ Y_i=\hat{Y_i} + u_i $

実績値が理論値とどのくらい合っているかを考えるわけですが、両者の平均をとっても意味がありません。最小二乗法では実績値と理論値の平均は同じで、誤差の平均はゼロになるためです。

そこで、実績値と理論値の相関を考えます。以下の式は、実績値と理論値の相関係数の二乗を表しています。$\bar{Y}$は$Y_i$の平均です。

$ 実績値と理論値の相関係数の二乗$

$=\frac{\large{実績値と理論値の共分散の二乗}}{\large{実績値の分散×理論値の分散}}$

$ \cfrac{( \Sigma (Y_i-\bar{Y_i})(\hat{Y_i}-\bar{Y}))^2}{\Sigma (Y_i-\bar{Y})^2 \Sigma (\hat{Y_i}-\bar{Y})^2} $

これを変形すると以下の式になります。これが決定係数の定義として使われるものです。

$決定係数=\dfrac{ \Sigma(\hat{Y_i}-\bar{Y} )^2}{\Sigma(Y_i-\bar{Y} )^2}$

分母の$\Sigma (Y_i-\bar{Y} )^2$は実績値の平均からの偏差の二乗和で全変動と呼ばれます。実績値の分散を計算する際の分子です。分子の$\Sigma(\hat{Y_i}-\bar{Y} )^2$は回帰変動と呼ばれ、回帰式によって説明された部分になります。回帰変動によって説明できなかった部分が残差変動になり、以下の式が成り立ちます。

$ 全変動=回帰変動 \text{+} 残差変動$

全変動回帰変動残差変動をまとめると以下になります。

$全変動=\Sigma (Y_i-\bar{Y})^2 $

$回帰変動=\Sigma (\hat{Y_i}-\bar{Y})^2 $

$残差変動=\Sigma ( Y_i-\hat{Y_i} )^2 $

決定係数は以下のようにも書き換えられます。

$決定係数= \dfrac{回帰変動}{全変動}=1- \dfrac{残差変動}{全変動}$

自由度修正済み決定係数

決定係数は、当てはまりを示す指標なので、説明変数を増やせば増やすほど、多かれ少なかれ決定係数は上昇します。説明変数が増えることで、係数の数値を低めるようにしたものが自由度修正済み決定係数です。残差二乗和をRSS、全変動をTSS、サンプル数をn、定数項を含む説明変数の数をKとすると以下の式になります。

$ 自由度決定済み決定係数=1-\dfrac{RSS/(n-K)}{TSS/(n-1)}$

RSSの関数ととらえる

残差変動は、残差二乗和(RSS:Residual Sum of Squares)と同じです。

当てはまりの指標という意味では、RSSがどの程度小さいか、という方向から考えることもできます。AICなどそのほかの当てはまり指標も基本的にはRSSの関数です。TSSを全変動、nをサンプル数、Kを定数項を含めた説明変数の数とすると、以下の式となります。

決定係数

$R^2=1-\dfrac{RSS}{TSS}$

対数尤度

$lnL=- \dfrac{n}{2}(1+\log 2 \pi + \dfrac{\log{RSS}}{n} )$

赤池情報規準(AIC)

$AIC=\log( \dfrac{RSS}{n})を+\dfrac{2K}{n}$

シュワルツベイズ情報規準(SBIC)

$ SBIC= \log(\dfrac{RSS}{n}) + \log n \dfrac{K}{n}$

8種類算出法がある!

決定係数には8種類の算出法があり、統計ソフトによって異なる方法を使っている場合があります。Kvalseth(1985)には、8種類の決定係数の計算法が紹介されています。基本的には1式や2式で計算するわけですが、定数項が無い場合の回帰非線形回帰の場合にほかの計算法が使われます。

ただ、線形回帰で、定数項がある場合は(1)式(2)式で問題ないので、通常はそれほど気にしなくてもよいでしょう。この記事で最初に紹介したのは(6)式です。

Tarald O. Kvalseth(1985)”Cautionary Note about R2“,
The American Statistician,Vol. 39, No. 4, Part 1 (Nov., 1985), pp. 279-285 (7 pages)

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA