※記事の最後に、Excelの統計関数をまとめたスプレッドシートへのリンクを用意しました。
なんらかの母集団を定量的に表現しようとする際、算術平均を求めるだけでは不十分です。その平均値にどれくらいの偏りがあるか?や、平均から個々のデータがどれくらい離れているか?が分かりません。そのために、異常値などによる偏りの影響を考慮する必要性があります。例えば、年収に関する調査結果では、平均値と中央値の双方が示されるケースがあります。
母集団を形成するデータの分布傾向が正規分布に近ければ、平均値も中央値にも差異は少なく、何ら問題はありません。
しかしデータの分布状態が、中央が高く狭い範囲に集中しているか、もしくは低くなだらかに広範囲に分布しているかでは、その母集団の持つ性質は変わってきます。
範囲が広いほど、データはばらついていると言え、その範囲のどこに集中しているかで偏りが分かります。この「データがどの程度ばらついているのか?」を把握する指標と、算出方法について見ていきましょう。
1. 最大値 / 最小値
まず基本となるのが、最大値と最小値です。n個あるデータの中における、最も大きな値が「最大値」、最も小さな値が「最小値」となります。
最大値:MAX(数値 1, [数値 2], …) Officeヘルプ
最小値:MIN(数値 1, [数値 2], …) Officeヘルプ
2. レンジ(範囲)
最大値 − 最小値で求められるのが、「レンジ(範囲)」です。いくつかの母集団がある場合(広告別で登録者の年齢分布を見る場合とか)、他の母集団と比べてレンジが広いほうが、ばらつき度合いが高いことになります。
また、最大値と最小値それぞれに対し、平均値からの距離(偏差)を出した時、偏差が大きく異なるようであれば、どちらかが異常値の影響を受けている可能性があるので注意が必要です。
3. 分散
n個からなるデータ群において平均値を求めた場合、そのデータ群の平均値からのばらつき(偏差)を、さらに平均にしたのが「分散」です。値が大きいほど、ばらつきが大きいことになります。
分散の算出方法の前に、分散を求めるデータが、「母集団」か「標本」かで、求め方が異なることを知りましょう。
「とあるクラスにおける、国語の点数の状況を調べる」等であれば、データは全数調査の結果として扱えます。しかし、全国の平均年収のような「一定のルールに沿って対象を抽出し、調査結果から全体を推測する」場合であれば、そのデータは標本調査の結果となります。
標本データを用いる場合、そこから算出される平均値も分散もあくまで推定であり、その推定による影響を考慮することで、算出方法が異なります。
標本分散であれば、下記のような数式で求められます。
nはデータの個数です。普通に平均で考えるとnで割りますが、標本調査の場合は「自由度」という概念のもと、「n-1」で割ります。この時のエクセル関数がVAR.S関数です。
VAR.S(数値 1,[数値 2],…) Ofiiceヘルプ
もし全数調査であれば、n個そのもので割ることとなり、VAR.P関数を用います。
VAR.P(数値 1,[数値 2],…) Ofiiceヘルプ
「標本」であれば「.S」、「全数」であれば「.P」と、使い分けが必要になります。
標準偏差
分散は偏差を二乗して求めたものなので、これを平方根(√)にしたものが標準偏差です。
上記は、標本調査の場合の算出式です。全数の場合であれば、nで割ります。
単にばらつきを見るだけの場合、分散を見れば充分とも言えます。ただ、データの確率分布が正規分布に従う場合、この標準偏差を算出することで、
- 平均 ± 標準偏差の中に、約68%のデータが含まれる
- 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
- 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる
事になります。下2つが「信頼区間」というもののベースとなっています。
標準偏差をエクセルで出すには、標本調査の場合はSTDEV.S関数を使います。
STDEV.S(数値 1,[数値 2],…) Officeヘルプ
全数調査の場合は、STDEV.P関数を使います。
STDEV.P(数値 1,[数値 2],…) Officeヘルプ
4. 四分位数
「中央値」とは、n個のデータ群において1/2番目となる値をとったもの。データの中でちょうど中央に値するものになりますが、他にも1/4番目、3/4番目の値を「四分位数」として、データの幅を見ます。
エクセルでは、QUARTILE関数で各四分位数を求めることができます。
QUARTILE(配列,戻り値) Officeヘルプ
戻り値で、第◯四分位数を求めるかを指定します。こうして求めた数値を、最大値や最小値と併せてグラフ化したものが、「箱ひげ図」になります。
上記の箱ひげ図の場合、中央値はデータ群の中でも上側に位置しているのが見て取れます。
データのばらつきを知るにも、様々な種類があることが分かりました。異常値の発見やデータの集中具合など、知りたい内容に併せて、ばらつきの指標も使い分けましょう。
Excel関数 – 統計関数一覧リンク
Excel関数の中でも、統計関数の説明や構文をスプレッドシートにまとめました。Excel 2010以降、統計関数は特により制度の高い関数へと変更になっていますのでご注意ください。
下記フォームにメールアドレスをご記入いただくと、スプレッドシートのURLへの遷移と記載したメールの送付をいたします。よろしければご利用ください。