前回は、正規分布曲線と管理図を説明しました。今回は、相関分析について解説します。降水量と傘の売上や品質のばらつきとコストなど、2つのデータの関係性の強さを数値で把握することで、予測や分析ができるようになります。具体的に、どのように調べ、関係性を判断したらよいのかを述べていきます。
1. 相関分析とは
相関分析とは、外気温と飲料水の売上や、身長と体重など、2つの特性値(原因と結果)の関係性の強さを分析することです。まずは、関係性の有無を調べるために、2つのデータで散布図を作ります。図1は、ある設備における穴径と送り速度の実測データです。要因系を横軸に、結果系を縦軸に取り、点をプロットします。この例では、穴径を横軸に、送り速度を縦軸に取っています。プロットした点は右下がりの傾向です。これは、穴径が大きくなると、送り速度は遅くなる傾向を示しています。
散布図データには、正の相関、負の相関、無相関の3つのパターンがあります(図2)。正の相関は、xの増加に伴い、yも増加する分布データで、負の相関は、xの増加に伴い、yも減少する分布データです。正の相関と負の相関は、相関があるとxの特性値からyの特性値を推定できます。無相関は、xの増加に伴い、yが増加も減少もしない分布データです。X以外でyと相関のありそうな特性を見つけ出すことが必要です。
2. 相関係数
相関係数とは、2種類のデータの相関性の強さを数値化したもので、rという記号で表します。相関係数は、-1から1の間の値(-1≦r≦1)を取ります。1に近いほど正の相関が強く、-1に近いほど負の相関が強くなります。また、0 に近いほど相関がありません。
図3は、4種類の散布図と相関係数を示したものです。相関係数rが、0.0~0.2のときは相関がほとんどないことを表し、0.2~0.4のときはやや相関があることを表します。0.4~0.7になるとかなり相関があり、0.7~1.7は強い相関があると判断します。
<演習問題1>
図4は、昭和20年から平成15年までのビール大瓶1本、コーヒー1杯、はがき代、整髪料、映画館入場料、JR(国鉄)最低乗車料の価格の推移です。この6項目から2項目を選ぶ組み合わせは、全部で15通りあります。その中で1番相関係数の大きい組み合わせはどれでしょうか。解答は、ダウンロード資料を確認してください。
<p">
相関係数を求めるときは、Microsoft Excelを使うと便利です。相関係数を求めるCORREL関数使って求めます。相関係数=CORREL(配列1、配列2)で表します。配列1、配列2は、CORRELの引数で、配列1はデータが入力されたセル範囲、配列2はもう一方のデータが入力されたセル範囲です。CORREL関数を使って求めたビール大瓶1本とコーヒー1杯の相関係数は、0.9694になります。同様にビール大瓶1本とはがき代の相関係数は0.9426、コーヒー1杯とはがき代は0.9730になります。同じ要領で1番相関係数の大きな組み合わせを求めてみてください。
<演習問題2>
図5は、ある会社のモータの購入価格と、変動要因の一覧です。重量と容量の相関係数をそれぞれ求めてみましょう。解答は、ダウンロード資料を確認してください。
続きは、保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。
3. 相関係数の実務への活用
保管用PDFに掲載中。ぜひ、下記よりダウンロードして、ご覧ください。