
无需教科书的统计学:均值、中位数、标准差及更多
📷 Lukas / Pexels无需教科书的统计学:均值、中位数、标准差及更多
不需要统计学学位也能读懂数据。了解均值、中位数、众数、标准差、IQR和极差究竟意味着什么,以及什么时候该用哪一个。
统计学有个形象问题。大多数人在课堂上第一次接触统计学,感觉它抽象而脱离实际,于是带着"这是研究人员和数学家才需要的东西"的印象离开教室。然后在职业生涯中一直和数据打交道——销售数字、测试成绩、传感器数据、A/B测试结果——却只能靠直觉应付。
其实,统计学的核心概念既简单又实用,对所有人开放。你不需要学位才能理解数字在说什么,只需要知道每个指标实际上意味着什么,以及什么时候该用哪个。
本指南将介绍最常用的描述性统计——均值、中位数、众数、标准差、方差、IQR和极差——重点放在直觉和实际应用上,而非公式。
描述性统计为何存在
面对一个有数百甚至数千个值的数据集,你无法盯着原始数据得出结论。你需要摘要——把数据集压缩成有意义内容的数字。描述性统计提供两件事:数值集中在哪里(集中趋势)以及分散程度如何(变异性)。这两个维度合在一起,就能让你一眼看懂一个数据集的大部分信息。
均值:人人都知道(却经常误用)的指标
均值是将所有数值相加后除以个数得到的算术平均数。它是最熟悉的统计指标,也因此是最经常被误用的。
均值的问题在于它对异常值敏感。一个极端值可以把均值从大多数数据所在位置拉得很远。最典型的例子是收入数据。
想象一家有十名员工的小公司。九名员工年收入在45万到65万元之间。第十名是创始人,年薪200万元。平均薪资大约是70万元——这个数字没有准确代表任何一名员工的实际收入。公司里没有人的薪资接近均值。
这不是数学的失败。均值做了它该做的事。问题在于均值不是这个数据集的合适指标。薪资分布因高收入者而严重倾斜,均值被拉向了尾部。
适合用均值的情况: 数据大致对称、没有极端异常值时。大班级的考试成绩。生产批次中物品的重量。服务器响应时间(在去除峰值异常后)。一个月的气温测量值。
中位数:忽略异常值的中间值
中位数通过将所有值从小到大排序后取中间那个来得到(如果个数为偶数,则取中间两个值的平均)。它完全不受异常值影响——那些极端值在你排好序的列表两端,简单地不参与计算。
回到薪资例子。排列这十个薪资,中位数落在第五和第六个值之间,两者都在50万到60万元的范围内。中位数约为55万元——一个真实代表该公司普通员工收入的数字。
这就是为什么关于收入的经济报道几乎总是引用家庭收入中位数而非均值。均值会向上偏斜,掩盖大多数家庭实际经历的现实。
适合用中位数的情况: 数据偏斜,存在无法或不想删除的异常值,或处理排名数据时。房价(少数豪宅会扭曲均值)。收入。完成任务的时间(少数耗时极长的用户会扭曲均值)。任何你想了解典型体验是什么的场景。
均值 vs 中位数:一个实用判断法
如果均值和中位数接近,数据大致对称,两者都可用。如果差异显著,数据就是偏斜的。均值远高于中位数表明右偏(少数非常大的值把均值拉高了)。均值远低于中位数表明左偏。偏斜方向告诉你异常值在哪一侧。
众数:出现最频繁的值
众数是数据集中出现次数最多的值。它是唯一适用于分类数据的集中趋势指标——颜色、品牌、问卷选项等均值和中位数毫无意义的数据类型。
如果你让用户从五个选项中选择最喜欢的功能,"功能C"无法计算均值,但完全可以有众数:被选择次数最多的选项就是众数。
众数在某些数值情境中同样有用。如果分析鞋子销售数据,发现270号远比其他尺码频繁出现,知道众数就能帮助你合理安排库存。
标准差与方差:衡量分散程度
知道数据的中心只是故事的一半。两个数据集可以有相同的均值,却性质完全不同:
数据集A:48, 49, 50, 51, 52 — 均值:50 数据集B:10, 25, 50, 75, 90 — 均值:50
两者均值都是50,但数据集B的变异性大得多。标准差就是量化这种变异性的。它大致告诉你,一个典型值距离均值有多远。
数据集A的标准差约为1.6,数据集B的标准差约为30.4。这种差异精确地捕捉了原始数字中看到的东西:数据集A紧密聚集在50附近,数据集B则广泛分散。
方差是标准差的平方。在统计理论和公式中会看到它,但标准差通常更容易解读,因为它与数据的单位相同。如果用厘米测量身高,标准差也是厘米,而方差则是平方厘米,更难直觉理解。
总体标准差 vs 样本标准差:n-1为什么重要
这是基础统计中最常见的混淆来源,而且非常重要。
总体标准差用于数据集包含你研究群体的所有成员时,分母用n。如果你有参加某次考试的每一位学生的成绩,就用总体标准差。
样本标准差用于数据集是从更大总体中抽取的样本,且你想估计更大总体中的变异性时,分母用n-1。
为什么是n-1?因为样本往往偶然地低估了总体的变异性。样本越小,这种低估越严重。除以n-1而非n可以纠正这种偏差——它稍微放大估计值,以补偿系统性的低估。这个修正叫做贝塞尔修正(Bessel's correction)。
实际应用中:如果你在分析来自5万用户中200名用户的调查回答,用样本标准差。如果你有公司全部200名员工的数据,用总体标准差。
Excel的STDEV()函数使用n-1,STDEVP()使用n。Python的statistics.stdev()使用n-1,statistics.pstdev()使用n。搞错了会系统性地低估数据的变异性,进而影响实际决策。
IQR和四分位数:不受异常值干扰的稳健分散指标
标准差对异常值敏感——单个极端值就可能显著放大标准差。**四分位距(IQR)**是一个完全忽略极端值的更稳健的替代指标。
计算IQR的步骤:
- 对数据排序
- 找到Q1(第25百分位——下半部分的中位数)
- 找到Q3(第75百分位——上半部分的中位数)
- IQR = Q3 - Q1
IQR告诉你数据中间50%的分散程度。由于只看Q1和Q3之间的值,两端的异常值根本不产生影响。
IQR也是箱线图中定义异常值的标准方法。低于Q1 - 1.5 * IQR或高于Q3 + 1.5 * IQR的值会被标记为异常值。这不是完美的规则——有时极端值是你不该丢弃的真实数据点——但它为异常值检测提供了一个有原则的自动化起点。
极差:简单但有局限
极差是最简单的分散程度指标:最大值减最小值。它用单个数字告诉你数据的总体范围。
局限性显而易见。极差完全由两个最极端的值决定。一个数据录入错误——把52打成520——就能极大地夸大极差,让它完全产生误导。极差对大多数数值所在位置不提供任何信息。
不过极差也有用武之地。当你只是想快速、粗略地了解数据规模时,极差立即给出答案。在质量控制、体育统计等领域,极差也有其特定的分析用途。
使用时,请始终将极差与标准差或IQR配合使用,以获得更完整的图景。
实际应用场景
A/B测试
运行A/B测试时,你会收集两个变体的指标(转化率、每用户收入、页面停留时间)。在运行显著性检验之前,先看看每组的描述性统计:均值、中位数和标准差。如果分布形状差异很大——一个偏斜,一个对称——这会影响哪种统计检验是合适的。标准差告诉你有多少噪声,这直接决定你需要多大的样本才能检测到有意义的差异。
成绩分布
班级平均分72%听起来有信息量。标准差为4意味着几乎所有人都在68%到76%之间——成绩相当一致。标准差为18则意味着成绩差异极大,从不及格到优秀。同样的均值,完全不同的教学状况。没有标准差,你就错过了故事的大半部分。
传感器与物联网数据
工业传感器产生温度、压力、振动等读数流。在滚动时间窗口内计算均值和IQR,可以建立"正常"状态的基准线。当某次读数超出均值2-3个标准差,或超出基于IQR的异常值边界时,就是系统可能出现问题的信号。这是许多异常检测系统的基础。
业务指标
月度收入有均值和标准差。如果本月收入比均值高出2.5个标准差,值得深入调查——可能是真实的改善,也可能是一次性峰值。将指标与历史分布对比追踪,可以让隐藏在原始数字中的趋势和异常变得清晰可见。
常见错误
对偏斜数据使用均值。 这是最常见的错误。在报告收入、价格、时间、计数等可能偏斜的数据的典型值时,务必检查中位数。如果均值和中位数差异显著,以中位数为主。
对样本使用总体标准差。 如果你处理的是样本,请用n-1。大多数计算器工具默认是这个,但请确认。搞错了会系统性地低估变异性。
把IQR异常值检测当成确定性结论。 1.5 * IQR规则是一个有用的经验法则,不是法律。被标记为异常值的极端值可能完全合理,删除前请务必查看。
忽视分布的形状。 描述性统计是摘要,摘要会丢失信息。两个均值、中位数和标准差完全相同的数据集,分布可能仍然大相径庭。重要时,查看直方图或箱线图,而不仅仅是摘要数字。
总结
良好的数据分析从描述性统计开始,而不是止于此。在建立模型、运行检验或做出决策之前,花几分钟与数据相处:计算并对比均值和中位数,查看标准差了解变异性,用IQR发现异常值,检查极差排查明显的数据质量问题。
这些数字会告诉你数据是否干净、是否偏斜、均值是否是合理的摘要,以及有趣的特征在哪里。它们是一切的基础。
我们的统计计算器可以即时处理所有这些——粘贴数据,一键获得均值、中位数、众数、标准差(总体和样本两种)、方差、IQR、四分位数和极差。无需记忆电子表格公式,无需手动排序。每次遇到新数据集时,用它作为起点。
统计学不是掌握公式,而是向数据提出正确的问题。这些工具让你提问的速度更快。