一元配置法:実験計画法の基礎知識2

実験計画法の基礎知識

更新日:2021年8月17日(初回投稿)
著者:大阪大学 大学院 情報科学研究科 教授 森田 浩

前回は、実験計画法の考え方を紹介しました。今回は、一元配置法を解説します。実験計画法の中で最も基本となるのが、一元配置法における分散分析の考え方です。これは、1つの因子を取り上げて、特性に及ぼす影響を調べるものです。今回は、初めに統計的推測の考え方を取り上げます。また、一元配置実験の仕組みと、最適水準における推定や予測の方法を説明します。本連載ではExcelを使用した計算例を示します。読者の皆さんは、実際に解析しながら読み進めてください。

1. 統計的推測の基礎

統計的推測とは、母集団からその一部を無作為に抽出し、それらを測定し、結果を分析することにより母集団の持つ傾向を推し測ることです。ここでは、統計的推測の基礎から説明します。

ある樹脂の粘着性には、処理温度が影響していると考えられています。130℃で加熱して試作品を5個作り、粘着力を測定したところ、次のデータが得られました。この樹脂の粘着力の母平均はいくらと推測されるでしょう。

45 41 43 40 42

まず、基本的な統計量である平均x1(数値の合計を個数で割った値)と平方和S1(個々のデータと平均との差の2乗の合計の値)、および分散V1(平方和を、データの個数-1で割った値)を求めます。これらは、データ(標本)から求めているため、標本平均、標本分散と呼ばれます。

また、樹脂の粘着力の真の平均や分散を、母平均、母分散といいます。粘着力の母平均の信頼区間(信頼率95%)は以下のように計算され、39.8から44.6となります。μは母平均、tはt分布の両側5%点、nは母集団から得たデータの数を示します。

次に、120℃で加熱した試作品の粘着力を測定しました。

43 38 38 42 40

同様の計算を行うと、平均x2=40.2、平方和S2=20.8、分散V2=5.20となり、母平均の信頼区間は37.4から43.0となります。

2通りの加熱温度を比較したとき、130℃の方が粘着力は高いといえるでしょうか。2つの信頼区間には重なりがあり、必ずしも130℃の方が高いとはいえないかもしれません。このとき、母平均に違いがあるかどうかの検定を行います。全体のばらつきを表す分散Vを求めて、検定統計量t0を計算します。検定統計量は、サンプルデータから計算し、仮説検定(ある仮説に対して、それが正しいか否かを統計的に検証すること)で使用する統計量です。

この検定統計量は、t分布に従います。t分布には自由度とよばれるパラメータがあります。ここでは、自由度はn1+n2-2となります。検定統計量の値は両側5%点であるt(8,0.05)=2.306より小さいことから、両者に差があるとはいえません。従って、120℃と130℃では粘着力に違いがあるとはいえません。分散は4.45です。分散の平方根をとった標準偏差は平均と単位をそろえることができます。標準偏差は2.11で、平均の差が2.0程度なので、誤差と見なされ、統計的に有意な差とはいえません。

ここで用いた統計の考え方で、重要なものをまとめておきます。データが得られたら平均、平方和、分散は基本的な統計量として求めておきましょう。母平均の信頼区間は、一般に以下の式で与えられます。

VEは誤差分散、rは繰り返し数です。誤差分散は、誤差のばらつきの大きさを表します。t(ΦE,α)は、誤差自由度ΦEのt分布の両側α%点を表しています。誤差自由度は、誤差分散の自由度をいいます。本連載で紹介する実験計画法のさまざまな方法においても、母平均の信頼区間はこの式で計算します。それぞれの方法に応じて、平均x、誤差自由度ΦE、誤差分散VE、繰り返し数rを適切に求めるようにします。

2. 一元配置実験のしくみ

1つの因子だけを変化させ、他の全てを固定して実験して特性を計測し、その因子の影響を解析することを一元配置実験といいます。処理温度に140℃を追加して、3通りの処理温度で粘着力に違いがあるかを調べます。この場合、因子が処理温度、特性が粘着力です。設定する処理温度を水準といい、ここでは3つの水準が設定されています。各水準で5個の試作品を作って粘着力を測定しました。その結果を表1に示します。このとき、140℃のときに誤って1つの試作品を壊してしまいました。

表1:3通りの処理温度における5個の試作品の粘着力
処理温度 粘着力 ni 合計 平均
A1 (120℃) 43 41 44 40 43 n1=5 T1=211 x1=42.2
A2 (130℃) 42 39 38 42 39 n2=5 T2=200 x2=40.0
A3 (140℃) 38 41 39 38 n3=4 T3=156 x3=39.0
  N=14 T=567 >x=40.5

ここでは15個の試作品を作ります。そのとき、注意しなければならないのが、無作為化の原則です。3通りの温度設定で15回実験をするので、それぞれの温度で5回ずつまとめて実験をすると効率的です。しかし、それでは無作為化ができていません。15回の実験の順序は、ランダムに決める必要があります。その場合、例えば、120℃→140℃→130℃→140℃のように、毎回温度設定を変えなければならないこともあります。ただし、仮に同じ温度を続けて実験するときでも、いったん温度をリセットして設定するのが正しいやり方なので、手間としては同じです。

2つを比べる場合、差を取ります。しかし、3つ以上を同時に比較する場合、差を考えることはできません。差を取るということは、2つの違い、すなわちばらつきを見ていることになります。そこで、3つ以上を比べるときも、それらのばらつきを考えます。ばらつきには、温度を変化させたことによるばらつきと、誤差のばらつきがあります。従って、ばらつきを2つに分解する必要があります。これを平方和によって考えます。

まず、全部のデータを用いて総平方和STを計算します。これを温度によるばらつきを表す要因平方和SAと、誤差平方和SEに分解します。水準内におけるばらつきは誤差と見なせるので、水準ごとに平方和を計算し、それらの合計が誤差平方和SEとなります。このとき、総平方和STは以下の式のように要因平方和と誤差平方和に分解されます。

実際の計算では、平方和は以下の式で簡単に求めることができます。

総平方和STはデータの2乗の合計からT2/Nを引いて求めます。要因平方和SAは各水準の合計の2乗をデータ数で割ったものの合計からT2/Nを引いて求めます。そして、誤差平方和SEは総平方和から要因平方和を引いて求めます。

各水準の平方和を前節の要領で計算すると、S1=10.8、S2=14.0、S3=6.0なので、SE=S1+S2+S3=30.8となり、上の結果と一致します。

要因効果があるかどうかは、誤差の大きさと比較します。SAとSEを比べるのではなく、平方和を自由度で割った分散を用います。総自由度はΦT=N-1、要因自由度は水準数aから1を引いてΦA=a-1です。誤差自由度はΦETAから求めます。誤差分散より大きければ統計的に有意となり、その要因効果があるといえます。これらの計算結果をまとめたのが分散分析表です(表2)。

表2:分散分析表
要因 平方和 自由度 平均平方 F値 P値 F境界値
A 24.7 2 12.35 4.41 0.039 3.98
E 30.8 11 2.80      
T 55.5 13 4.27      

平方和を自由度で割ったものを、平均平方といいます。誤差の平均平方は、誤差分散を意味します。ただし、要因に対するものは分散ではないので、このような表現を使っています。

F値は誤差分散との比を表しています。つまり、誤差と比べて何倍の大きさがあるかを示しています。この統計量は自由度(ΦAE)のF分布に従います。P値は、有意となる確率を表し、5%以下であれば有意と見なします。またF境界値は上側5%点を表し、F値がこれより大きければ有意と見なします。この例では、処理温度は有意となり、粘着力に影響を及ぼしていることが分かります。

ここまでの計算をExcelでやってみましょう(図1)。Excelには分析ツールが用意されています。初めて使うときには、ファイル > オプション > アドインから「Excelアドイン」の「設定」をクリックし、「分析ツール」にチェックを入れます。

「データ」タブから「分析ツール」を選択し、「分散分析:一元配置」を選びます。入力範囲でデータを指定します。ラベルを付けていたら、「先頭行をラベルとして使用」にチェックを入れます。出力先を指定して「OK」をクリックすれば完了です。

図1:MicrosoftExcelによる一元配置の分散分析

図1:MicrosoftExcelによる一元配置の分散分析

ここでは、A1:C1にラベル、A2:C6にデータを入れています。概要には、各温度でのデータ数、合計、平均、分散が計算されています。また、分散分析表も得られます。用語が少し異なっていることに注意してください。グループ間は、水準間のことで温度を指します。グループ内は誤差です。変動は平方和、分散は平均平方、観測された分散比はF値のことです。

3. 最適水準における推定と予測

続きは、保管用PDFに掲載中。演習問題もご用意。
ぜひ、下記よりダウンロードして、ご覧ください。