前回は、相関分析を説明しました。今回は、回帰分析について解説します。皆さんはノートPCを購入する時、予算を見積もることがあるでしょう。必要なハードディスク容量、画面サイズ、バッテリー容量などの仕様で決めているのではないでしょうか。複数の要因で結果が左右されるデータを用いて、定量的に予測する方法を学びましょう。
1. 回帰分析とは
回帰分析とは、ある変数が他の変数とどのような相関関係にあるのかを推定する統計学的手法の一つです。関数をデータに当てはめることによって、ある変数yの変動を別の変数xの変動により説明・予測・影響関係を検討することができます。図1は、6才から17歳までの男子の年齢別平均体重と平均身長のデータです。横軸に体重、縦軸に身長を取り、散布図を作成しました。この散布図に書き込まれている直線でデータを分析する方法を単回帰分析といいます。
単回帰分析は、2変数の散布具合を近似式ŷ=ax+bで表します。ŷ(yハット)は元の変数yとは異なり、実際に得られる値yと区別するために用いられます。この単回帰分析の目的は、体重xと身長yを1次式でうまく説明することです。この体重xのように説明する変数のことを説明変数、身長yのように説明される変数のことを目的変数といいます。
図2のグラフは、体重xと身長yの散布図に2通りの直線を引いたものです。ここで皆さんに質問です。どちらが体重xと身長yを1次式でうまく表現できているでしょうか。見た目ではよく分かりませんね。うまく表現できているかを数値化する方法に、最小二乗法があります。
図3は、体重と身長の散布図に仮想的な直線を引き、拡大したものです。εは、イプシロンと呼びます。ここに示したε13才、ε14才、ε15才は、身長の実際値y13才、y14才、y15才と回帰方程式から得られる予測値ŷ13才、ŷ14才、ŷ15才との差を示しています。これを残差と呼びます。13才の残差は、ε13才=y13才-ŷ13才=y13才-(ax13才+b)と表します。
ここで、y13才は13才の身長を、x13才は13才の体重を表します。つまり、残差は予測値と実測値との誤差となります。具体的な数字を代入してみましょう。ε13才=y13才-(ax13才+b) =160.0-(a×50.4+b) =160.0-(50.4a-b)
回帰方程式が散布図をうまく表現するには、これらの残差を全体として最小にする必要があります。残差は正負バラバラの値を取るので、残差を2乗した値の合計(残差平方和)を最小にすることが必要となります。残差平方和Q =ε6才2+ε7才2+…+ε17才2
残差平方和を記号Qで表すと、Qを最小にするように直線を引けば、全体として回帰方程式が目的変数yをうまく説明していることになります。この考え方が最小二乗法の基本的な考え方です。
2. 複数の要因を扱う重回帰分析
ここまで説明してきた単回帰分析では、変動要因が1つで体重のみでした。しかし、実務においては、変動要因が2つ以上の場合の方が多いというのが実態です。変動要因が2個以上の場合は、重回帰分析という統計手法を利用します。すなわち、Y=a・X1+a・bX2+a・bX3+dのような近似式になります。この式は、変動要因がX1~X3までの3つの場合の例です。
重回帰分析の近似式は、Microsoft Excelを使用すると簡単に算出することができます。図4は、デジタルカメラの購入価格と変動要因をMicrosoft Excelに入力したものです。デジタルカメラの購入価格を有効画素数、光学ズーム、内蔵メモリという変動要因から分析してみましょう。
Microsoft Excelでの重回帰分析の手順を説明します。まず、エクセルにデジタルカメラの購入価格と変動要因を入力し、データタブからデータ分析を選択します。次に、分析ツールから回帰分析を選択して、入力範囲Yに購入価格を、Xに変動要因を設定します。図5は、以上のステップを手順通り進めた回帰分析の結果です。
この分析結果から、分析結果の信頼度、変動要因、分析結果の数式を確認します。この3つについて説明します。
1:分析結果の信頼度を確認する
まず、分析結果の信頼度を調べるために、図5のaの補正R2をチェックします。この値は、最小が0で最高が1の範囲であり、1に近いほど信頼度が高く、0に近いほど信頼度は低くなります。補正R2は変動要因が違っていると数値が下がる判定基準となるので、この数値により信頼度を判定します。概算レベルとしての信頼度は80~85%、基本レベルでの信頼度は85~90%程度をめざしてください。例題のデジタルカメラは0.844で、信頼度は84%です。
2:変動要因が正しいかを判定する
補正R2の値が小さい場合は、正しい変動要因を選択しているかを判定します。変動要因が購入価格に対してどの程度影響するかは、cのtとP-値で判断します。tの絶対値が大きな変動要因ほど、購入価格に対する貢献度が高くなります。貢献度を表すtを検定統計量といいます。また、P-値によって変動要因の有意性を判断します。P-値は小さいほど有意性が高くなります。デジタルカメラでは、3つの変動要因の中で内蔵メモリが貢献度、有意性ともに重要であることが分かります。貢献度、有意性が低い変動要因は再検討し、新しい変動要因に置き換えて再度数式を作ります。この手順を繰り返して精度を向上させます。
3:分析結果の数式を確認する
精度を確認したら、次に少し下の行のbの係数を見てください。これがデータを分析し、数式にした結果になります。この結果から次のデジタルカメラ購入価格の予測式が作れます。この式に、変動要因の値を代入すれば、デジタルカメラ購入価格を見積もることができます。デジタルカメラ購入価格=20.61×有効画素数+1282.84×光学ズーム+523.81×内蔵メモリ-20960.21
<演習問題1>
ここまでの内容を理解できたか、問題を解いて確認してみましょう。表1は、ノートPCの仕様と最安価格です。デジタルカメラの購入価格と同じ要領で最安価格を見積もる算式を導き出してください。解答は、ダウンロード資料を確認してください。</
>
続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。
3. 重回帰分析の実務への活用
保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。