【関数一覧表付き】品質管理に役立つエクセル統計入門:標準偏差から回帰分析まで

【関数一覧表付き】品質管理に役立つエクセル統計入門:標準偏差から回帰分析まで

モノづくりと統計は、切り離せません。開発や生産において、製品の出来栄えやバラつきを知る重要な指標となるからです。統計というと難しく思えるかもしれません。しかし、実際に現場で使う統計手法はそれほど多くありませんし、エクセルという強力なツールもあります。今回は、モノづくりエンジニアが知っておきたい、エクセルを使った統計を紹介します。

1. まずは平均と標準偏差をしっかり押さえよう

データ解析の基本は平均と標準偏差です。これをしっかりマスターしておけば、実務のデータ解析のほとんどはカバーできます。また工程能力指数などの少し高度な概念も理解することができます。

具体例を見てみましょう。今回は「金属板の研磨工程における研磨後の厚さのデータ」を例に、データ解析を進めます。図1では厚さの測定結果300個のデータをエクセルで解析しています。図で求めている統計量は平均値、中央値、最大値、最小値、標準偏差(とその3倍の値)と工程能力です。規格値は工程で定められた良品判定の規格値になります。

図1:研削後の金属板厚さの統計データ

図1:研削後の金属板厚さの統計データ

平均値、最大値、最小値は、説明不要なので割愛します。中央値というのは、値を順番に並べたときの真ん中の値(つまり、9個のデータであれば5番目の値)を指します。データがきれいに分布(正規分布)していれば、平均値と中央値はほぼ同じになります。平均値と中央値が大きく離れている場合は、分布がきれいな正規分布ではないので、注意が必要です。図1の例では平均値が10.011mm、中央値が10.025mmとほとんど同一で、問題ないことが分かります。

次に、今回一番重要な標準偏差です。これは偏差の二乗平和の平方根で定義され、バラつきの指標として最も一般的です。データがきれいな正規分布であれば、平均値±σ(標準偏差)の中に約68.2%の製品、平均値±3σ(標準偏差の3倍)の中に約99.7%の製品が含まれます。

当然、標準偏差が小さい方がバラつきは少なく、製造ラインの実力が高いということを示します。図1の例は標準偏差が0.5mm程度ですから、±3σ(10±1.5mm)の中に99.7%程度の製品が含まれる(外れる製品は0.3%程度)ということを示しています。

標準偏差はエクセルで簡単に求めることができますが、1つ注意があります。標準偏差は与えられたデータが全ての製品のデータであるか、一部を抜き取ったデータであるかによって計算式が異なる点です。それは、抜き取りのデータの場合は、母集団(全てのデータ)に対して、抜き取ったデータ自身のバラつきを考えないといけないからです。

エクセルで標準偏差を求めるときには、stdev.s() とstdev.p() という2つの関数があります。与えられたデータが母集団(全てのデータ)ならばstdev.p()を、抜き取りデータならstdev.s()を使います。

今回は300個のサンプルの抜き取りデータなのでstdev.s()を使っています。なお、この2つの関数の差は標本(抜き取りデータの数)が大きいほど小さくなり、データ数が100個であれば0.5%ほどの差なので、ラフな解析であれば、それほど気にしなくてもいいかもしれません。

標準偏差を理解すれば、工場の品質管理でよく使われる、工程能力指数(Cp、Cpk)も理解できます。まず、Cpとは規格幅(上限規格値-下限規格値)を6σ(標準偏差の6倍)で割った値です。つまり規格幅が実際のバラつきに対して十分かどうかを判定する指数というわけです。

次に、Cpkという値は(上限規格値-平均値 か 平均値-下限規格値 の小さい方)を3σ(標準偏差の3倍)で割ったもので、規格幅だけでなく、狙い値と実際の平均値のずれも考慮された値になります。つまり、平均値が狙い値から離れているほどCpkは低くなります。

図の例では、規格幅が2mm、3σが1.567mmなのでCpは1.276となります。Cpkについては、この場合平均値がほぼ狙い値でできているのでCpとほとんど同じ1.273となっています。

Cp、Cpkは一般には1.33以上あれば、工程のバラつきは十分小さいとされます。ただし、非常に厳しい管理が必要な工程(シックスシグマと呼ばれる水準が必要)では2.0以上と、厳しい基準が求められることもあります。

モノづくりエンジニアとしては、工程能力指数の意味を理解し、使いこなせるようになれば、統計初心者のレベルは卒業といえるでしょう。ページ下部では、エクセルでこれらの値を求める方法(関数)や、少し高度な統計量についてまとめた一覧表をダウンロードできます。ぜひ活用してください。

2. 回帰分析を学べば仕事の質が上がる

さて、次の話題の回帰分析は、先ほどの平均や標準偏差に比べると少し難しいかもしれません。しかしエンジニアの仕事でよく使うので、身に付けておきましょう。回帰分析は、例えば製品の値段と販売個数の関係、気温とプールの来客者数など、関連のある2つの数字の関係を分析する方法です。

回帰分析は目的変数(注目する変数、上の例では販売個数や来客者数)をY軸、説明変数(目的変数を説明するための変数、上の例では値段や気温)をX軸にして、散布図を描くことから始めます。すると、目的変数と説明変数によって、相関が強いものや弱いものが存在します。その相関の強さを表す数値が相関係数です。相関係数はエクセルでも求めることができます。

図2: データ分布と相関係数の関係

図2: データ分布と相関係数の関係

図2を見てください。一番左のグラフは最も関係性が強く(つまり、目的変数と相関変数の式が右肩上がりに並んでいる)、相関係数は1となります。そして相関が弱くなるにつれて相関係数は下がっていきます。2番目のグラフは相関係数が0.7のときの分布で、どんどん相関が弱くなって、3番目のグラフのように完全に関係性がなくなると、相関係数は0になります。

さらに、相関の方向が逆、つまり右肩上がりから右肩下がりに変わると、相関係数は負になります。負の相関関係が強くなればなるほど、相関係数は小さく(負なので絶対値は大きく)なっていき、完全な右肩下がりの関係(4番目のグラフ)になると、相関係数は-1になります。

回帰分析をエクセルで行う例を紹介しましょう。エクセルで散布図を描くと、回帰式(データが一番フィットする式)やR2値(回帰式の精度を表す指標)を簡単に求めることができ、とても便利です。今回は「金属板の研磨工程における、研磨機の回転速度と研磨量」を例にしてみましょう。

研磨機をある回転速度にしたときの研磨量(研磨した厚さ)を散布図にプロットして、エクセルにグラフを描かせると、下のような図3が得られます。具体的な手順は、ページ下部よりダウンロードできる一覧表に記載しています。

図3:研磨機の回転速度と研削量の関係

図3:研磨機の回転速度と研削量の関係

この図では、研磨機の回転速度が横軸、そのときの研磨量が縦軸になっています。エクセルで散布図を描くと、赤字で示している回帰式(データが一番フィットする式)やR2値(回帰式の精度を表す指標)が求められます。この場合、R2値は先に説明した相関係数の二乗に等しくなります。

相関係数でなくR2値を使う理由は、エクセルでは回帰式を直線(1次関数)だけでなく、高次の関数や指数関数などにすることもできるからです。とはいえ、R2値も1に近ければ近いほど回帰式の精度が高い(よく合っている)という指標であることには変わりがありません。ざっくりというとR2値が0.5以上であれば高い相関があるといえます。一方、0.2以下になると、相関は弱いと考えてよいでしょう。

回帰分析は、生産や開発の現場でデータ解析をするときによく使われます。例えば研磨時の加重や研磨剤の粒径など、研磨速度以外にも研磨量に関係のあるパラメータがたくさんあります。それらのパラメータの感度や相関を判断する際に、回帰分析が有効なのです。

3. まとめ

ここまで、エクセルを使った統計の初歩を紹介してきました。ただし、統計分析には注意しなければならない落とし穴もあります。それは数字上で現れた相関が、必ずしも因果関係を表すものではないということです。

例えば、小学校低学年では背の高さと学力の相関が強いといわれています。だからといって背を伸ばす努力をしても、学力が上がるわけではありません。実は背が高い子どもは、同1学年でも誕生日が早い場合が多いのです。つまり、誕生日が遅い子どもから見れば年上のようなもので、それが、高い学力に結び付いているわけです。

このように、統計分析だけでは正しい因果関係が得られるとは限りません。エンジニアとしては、単に数字をこねくり回すだけではなく、仮説を立てて真の原因に迫ることが重要です。

エンジニアが、真の原因を考える仕事に集中するために、エクセルの統計は、非常に有効なツールです。今回は、エクセルの統計を利用する際、初心者が引っかかりそうな関数の微妙な使い分けや、回帰分析の方法を、一覧表にまとめています。これを活用して、ぜひ統計分析をマスターしてください!