「データで語る」など、ビジネスおいてはデータで裏付けられた「ファクト」を基に、現状を認識し、対策を考えていくことは重要です。
コンサルティングの基本姿勢として「データ実証主義」を掲げるなど、当社としましても、データで認識して考えることは重視しています。
そこで今回は、データ分析を行う際、案外と見過ごされてしまう「データの落とし穴」についてお話しします。
基本統計量で概要を掴む
データ分析を始める前に、事前準備として基本統計量を使ってデータの特性を掴むようにしています。
基本統計量とはデータの基本的な特性を表すもので、お客様の年齢データで例えると、
・最大値=最高齢の年齢
- 最小値=最年少の年齢
- 平均値=会員全体の平均年齢
- 中央値=最年少または最高齢から順に並べたときの会員数の真ん中にくる年齢
- 最頻値=一番会員数が多い年齢
と言ったように、データの分布(年齢)特性を1つの値(代表値)で表すことができます。
ビジネスの現場では、この代表値の中でも「平均値」がよく使われています。
・先月の1人あたりの会員売上はいくらだったか。
・この商品をたくさん買ってくれるお客様の年齢層はどこか。
・1日のWeb訪問者数は何人なのか。
実は、この「平均値」には落とし穴があります。上記例の年齢で考えてみましょう。
平均値を求めてみる
例題:18歳 19歳 21歳 22歳 23歳 25歳 26歳 30歳 31歳 31歳 70歳 各年齢1名ずつ合計11名。
上記例題の平均年齢は以下の計算式で求められます。
【合計年齢】11名で316歳
【平均年齢】316÷11=28.7歳≒29歳
となります…?29歳が平均とすると、29歳以上が4名で29歳以下が7名となるので、バランスが悪いように感じます。
本当に29歳で良いのでしょうか?
データをよく見ると、70歳の方が1人含まれています。仮に70歳の方を外して再計算すると
【合計年齢】10名で246歳
【平均年齢】246÷10=24.6歳≒25歳
年齢の分布から見ると、25歳を中心に6名ずつの分布になり、丁度よく収まる感じですね。
では、上記例の場合70歳の会員を削除して平均年齢を求めるのが正しいのでしょうか?
基本統計量から求めてみる
その前に、基本統計量を使って年齢特性を見てみましょう。
・最大値=70歳
・最小値=18歳
・平均値=28.7歳
・中央値=25歳
・最頻値=31歳
中央値の25歳が前述の70歳会員を外した状態での平均値に近い値になっています。
極端な値が含まれたデータの場合は分布に偏りが生じるので、「全ての値の合計」から計算する平均値では偏った値になります。その点、中央値は全体個数の真ん中の値から求められるので極端な値に影響を受けにくくなります。
今回の平均年齢は中央値から求めるとしっくりくると考えられます。
まとめ
このように、「平均年齢だから平均値」で求めると結果が変わってくる場合がありますので、基本統計量の各代表値からデータの特性を見ながら適正な値を求めるようにしましょう。
あと、極端な値があるから「その値を外して」平均を求める…といった手法はお薦めできません。それよりも「なぜ70歳の方が会員でいるのか?」といった視点を持つことが重要です。「もしかすると高齢者の方も顧客として考えることができるのでは?」といった仮説から、何を買っているか、どのようなタイミングで利用しているのかといった深堀を行うことで新たな視点を持つことができます。