
教科書なしで学ぶ統計:平均、中央値、標準偏差、そしてそれ以上
📷 Lukas / Pexels教科書なしで学ぶ統計:平均、中央値、標準偏差、そしてそれ以上
統計学の学位がなくてもデータを理解できます。平均、中央値、最頻値、標準偏差、IQR、範囲が実際に何を意味するのか、いつどれを使うべきかを学びましょう。
統計学はイメージ上の問題を抱えています。ほとんどの人は教室で抽象的で現実から切り離されたものとして統計を初めて経験し、それは研究者と数学者のためのものだという確信を持って席を立ちます。その後、一生データを扱うことになります — 売上数字、テスト成績、センサーデータ、A/Bテスト結果 — しかし行き当たりばったりに対処します。
真実は、統計の核心的な考え方はシンプルで実用的であり、誰にでも開かれているということです。数字が何を語っているか理解するために学位は必要ありません。各指標が実際に何を意味するか、いつどれを使うべきかを知るだけでよいのです。
このガイドは、最もよく接する記述統計 — 平均、中央値、最頻値、標準偏差、分散、IQR、範囲 — を数式よりも直感と実際の応用に焦点を当てて解説します。
記述統計が存在する理由
数百または数千の値を持つデータセットを見ながら、生データだけから結論を導き出すことはできません。要約が必要です — データセットを意味のあるものに圧縮する数字です。記述統計は2つのことを提供します:値がどこに集中するか(中心傾向)とどれだけ散らばっているか(ばらつき)。この2つの次元が合わさって、データセットを一目で理解するために必要なほとんどのことを教えてくれます。
平均:誰もが知っている(そして誤用する)指標
平均はすべての値を合計し、値の個数で割って計算します。最も馴染み深い統計指標であり、その結果として最も頻繁に誤用されます。
平均の問題は外れ値に敏感なことです。極端な値が1つあるだけで、データのほとんどが位置する場所から平均を遠くに引き離す可能性があります。典型的な例は所得データです。
社員が10人の小さな会社を想像してみてください。9人は年間450万円から650万円の範囲で稼いでいます。10番目は創業者で、年収2,000万円です。平均給与は約700万円程度 — 実際の社員の誰もが平均に近い給与を受け取っていない数字です。
これは数学の失敗ではありません。平均はすべきことを正確にやっています。問題はこのデータセットには平均が適切な指標ではないということです。給与分布は高所得者によって大きく偏り、平均は裾の方向に引っ張られます。
平均を使う場面: データが極端な外れ値なしに大体対称である場合。大規模なクラスのテスト成績。製造バッチ内の品目の重量。サーバーの応答時間(スパイク外れ値を除去した場合)。1ヶ月間の気温測定値。
中央値:外れ値を無視する中間値
中央値は、すべての値を最小から最大に並べ、中央にある値を選んで求めます(値の個数が偶数の場合は2つの中間値の平均)。外れ値の影響を全く受けません — 極端な値は並べられたリストの端にあり、単純に考慮されません。
給与の例に戻ると、10の給与を並べると中央値は5番目と6番目の値の間に落ち、どちらも500万円から600万円の範囲にあります。中央値は約550万円 — その会社の一般社員が実際に稼ぐ金額を代表する数字です。
これが所得に関する経済報道がほぼ常に平均世帯所得ではなく中央値世帯所得を引用する理由です。平均は上向きに歪み、ほとんどの世帯が経験する現実を覆い隠すでしょう。
中央値を使う場面: データが偏っている場合、取り除けない外れ値がある場合、または順位データを扱う場合。不動産価格(いくつかの高級住宅が平均を歪める)。所得。タスク完了時間(非常に時間がかかる一部のユーザーが平均を歪める)。典型的な経験がどんなものかを知りたいすべてのシナリオ。
平均 vs 中央値:簡単な目安
平均と中央値が近い場合、データはほぼ対称でどちらを使っても構いません。大きく乖離する場合、データが偏っています。中央値より平均がはるかに高い場合は右偏り(少数の非常に大きな値が平均を引き上げている)を示します。逆は左偏りです。偏りの方向が外れ値の場所を教えてくれます。
最頻値:最もよく現れる値
最頻値はデータセットで最も頻繁に現れる値です。平均と中央値が意味をなさない色、ブランド、アンケート回答などのカテゴリデータに使用できる唯一の中心傾向の指標です。
5つの選択肢から好きな機能を選ぶよう求めるアンケートでは、「機能C」は平均を持てません。しかし最頻値は完全に持てます:最も多く選ばれた選択肢が最頻値です。
最頻値は特定の数値的な文脈でも有用です。靴の販売を分析していてサイズ27が他のどのサイズよりもはるかに頻繁に現れるなら、その情報は在庫管理に直接役立ちます。
標準偏差と分散:ばらつきの測定
データの中心を知ることは話の半分に過ぎません。2つのデータセットは同じ平均を持ちながら性格が全く異なる場合があります。次の2つのデータセットを考えてみてください:
データセットA:48, 49, 50, 51, 52 — 平均:50 データセットB:10, 25, 50, 75, 90 — 平均:50
どちらも平均は50ですが、データセットBははるかに変動が大きいです。標準偏差がこのばらつきを定量化します。おおよそ、典型的な値が平均からどれだけ離れているかを教えてくれます。
データセットAの標準偏差は約1.6です。データセットBの標準偏差は約30.4です。この差が生データで見えるものを正確に捉えています:データセットAは50の周りに密集し、データセットBは広く散らばっています。
分散は単純に標準偏差の二乗です。統計理論と公式で参照されますが、標準偏差は通常データと同じ単位にあるためより解釈しやすいです。
母標準偏差 vs 標本標準偏差:n-1が重要な理由
これが基礎統計で混乱の最も一般的な原因であり、重要な問題です。
母標準偏差はデータセットが研究するグループのすべてのメンバーを含む場合に使います。nで割ります。試験を受けたすべての学生の点数があるなら、母標準偏差を使います。
標本標準偏差はデータセットがより大きな母集団から抽出された標本であり、より大きな母集団のばらつきを推定したい場合に使います。n-1で割ります。
なぜn-1なのでしょうか?標本は偶然に母集団のばらつきを過小評価する傾向があるためです。標本が小さいほど、この過小評価は悪化します。n-1で割ることでこの偏りを修正します。この修正はベッセルの補正と呼ばれます。
実際には:5万人の顧客基盤から200人のアンケート回答を分析するなら標本標準偏差を、会社全体200人のデータがあるなら母標準偏差を使ってください。
ExcelのSTDEV()関数はn-1(標本)を使い、STDEVP()はn(母集団)を使います。PythonのSTDEV()とPSTDEV()も同様です。
IQRと四分位数:頑健なばらつき指標
標準偏差は外れ値に敏感です。**四分位範囲(IQR)**は極端な値を完全に無視するより頑健な代替手段です。
IQRの計算:
- データを並べます
- Q1(25パーセンタイル)を見つけます
- Q3(75パーセンタイル)を見つけます
- IQR = Q3 - Q1
IQRはデータの中央50%のばらつきを教えてくれます。両端の外れ値は単純に影響しません。
IQRはボックスプロットで外れ値を定義する標準的な方法でもあります。Q1 - 1.5 * IQRより小さいかQ3 + 1.5 * IQRより大きい値が外れ値としてフラグされます。これは完璧なルールではありませんが、原則的な出発点を提供します。
センサーデータの異常検知、品質管理、業務指標のモニタリングなど、ノイズを除いた本来のデータの挙動を把握したい場面でIQRは特に力を発揮します。
範囲:シンプルだが限定的
範囲は最大値から最小値を引いた値です。データの全体的な幅を一目で把握できますが、外れ値1つで大きく歪む脆弱さがあります。データ全体のばらつきを理解するためには、必ず標準偏差やIQRと組み合わせて使ってください。
実用的な活用事例
A/Bテスト
有意性検定の前に各グループの平均、中央値、標準偏差を確認してください。分布の形が大きく異なる場合、選択すべき検定手法が変わります。標準偏差はノイズの量を示し、有意差を検出するために必要なサンプルサイズの目安となります。
成績分布
クラス平均72%、標準偏差4ならほぼ全員が68〜76%に収まっています。標準偏差18なら、同じ平均でも成績の分散が非常に大きく、全く異なる指導状況を示します。平均だけでは見えない現実が、標準偏差によって浮かび上がります。
センサー・IoTデータ
ローリングウィンドウで平均とIQRを計算することで、正常状態の基準値を定義できます。そこから大きく外れた読み取り値は異常のシグナルです。これが多くの異常検知システムの基盤となる考え方です。
ビジネス指標
月次収益を過去の平均と標準偏差と比較することで、今月の数値が統計的に見て注目すべき変化なのか、通常の変動範囲内なのかを判断できます。
よくある間違い
偏ったデータに平均を使う。 所得、価格、処理時間のように偏りやすいデータには、平均ではなく中央値を優先してください。
標本に母標準偏差を使う。 標本データならn-1(標本標準偏差)を使ってください。
IQR外れ値フラグを絶対視する。 1.5 * IQRルールはあくまで目安です。フラグされた値が正当なデータポイントである可能性も常に考慮してください。
要約統計だけを信頼する。 重要な分析では必ずヒストグラムやボックスプロットで分布の形も確認しましょう。
まとめ
良いデータ分析は記述統計から始まります。モデル構築や意思決定の前に、平均・中央値・標準偏差・IQR・範囲を確認する習慣をつけることで、データの全体像を素早く把握できます。
私たちの統計計算機は、データを貼り付けるだけでこれらすべての値をワンクリックで算出します。スプレッドシートの関数を覚える必要も、手動で並べ替える必要もありません。新しいデータに向き合うたびの第一歩として活用してください。
統計は公式の暗記ではなく、データへの正しい問いかけです。正しい道具があれば、その問いかけはずっと速くなります。