「平均年齢」「平均日数」「平均得点」など、わたしたちの周囲では数値分布の傾向を知る参考として「平均値」がよく用いられます。
ところがこの 平均値、データを見る人に思わぬ バイアス*を与えてしまうことがあります。
こんな時に役に立つもう一つの指標が「中央値」です。
今回は、平均値と中央値の違い から、もう一つの指標「最頻値」まで、それら求める関数についてピックアップします。
*バイアス (BIAS):「偏り」を意味する言葉で、「先入観」「偏見」など無意識に判断を誘導されてしまう(してしまう)こと。
平均値と中央値の違い
平均値の落とし穴
平均値は 誰にとっても分かりやすい指標ではありますが、落とし穴となる場合もあります。
極端な例をひとつ。
25歳、50歳、55歳の三人の顧客がいます。
顧客の平均年齢は;
となります。
ところが、43歳前後には顧客は存在しません。
▲平均値周辺に顧客の実体はない。。。
このように平均値は、極端に高い値や極端に低い値が存在すると、それらに引っ張られてしまうのが短所です。
上のサンプルでは、43歳前後の人をターゲットにしたキャンペーンを展開しても失敗する可能性があります。
中央値とは
中央値とは、データを小さい順に並べたとき 中央に位置する値。
つまり5人の人がいるとき、その5人の年齢を順にならべて3番目の人の年齢となります。
平均年齢が43.3歳だった先ほどのサンプルの場合;
25歳、50歳、55歳の三人の顧客のうち、中央値は真ん中の「50歳」となります。
▲中央値の考え方
平均値と中央値を求める関数
AVERAGE関数
AVERAGE関数とは、文字どおり引数の平均値を返す関数です。
書式は;
のように表されます。
引数の部分はセル範囲でも問題ありません。
MEDIAN関数
MEDIAN関数とは、引数リストに含まれる数値の中央値を返す関数です。
書式は;
のように表されます。
引数の部分は、AVERAGE関数と同様にセル範囲でも問題ありません。
最頻値を求める関数
複数の数値データの中心を計る指標には、平均値・中央値のほかに「最頻値」というものがあります。
最頻値は中央値と同様に、平均値に比べて極端なデータの影響を受けにくい 特徴があります。
MODE関数とMODE.SNGL関数
MODE関数とは、指定されたデータの中で最も頻繁に出現する値(最頻値)を返す関数です。
MODE関数は Excel2007以前のバージョンに対応しており、最近のExcelでは MODE.SNGL関数 を使うのが一般的です。
書式は;
のように表されます。
『エクセルで平均値・中央値・最頻値を求める』は以上です。
他の関連記事と合わせて仕事や趣味に役立ててください。
関連記事・広告