摘要

1) 一句话总结 本文通过书籍封面与销量的案例,详细解析了卡方独立性检验的数学原理、计算步骤及假设前提,用于评估两个类别变量之间是否具有统计学相关性。

2) 关键要点

  • 核心目的:卡方独立性检验用于判断两个类别变量(如封面类型与销售结果)是否相关,本质是评估实际观测差异是否大于随机性导致的自然波动。
  • 假设设定:零假设(H₀)设定变量间相互独立(无影响);备择假设(H₁)设定变量间存在关联。
  • 期望频数计算:期望频数代表零假设成立时的基准值,计算公式为 (行总计 × 列总计) / 总样本量。案例中,低成本且售出书籍的期望频数为 335。
  • 卡方统计量公式。计算差值的平方是为了防止正负偏差相互抵消,除以期望频数是为了对偏差进行标准化。
  • 自由度(df):对于 2x2 列联表,在行列总计固定的情况下,表格只有一个独立的变动方向,因此自由度为 1。
  • 与正态分布的联系:自由度为 1 的卡方分布本质上是标准正态分布变量(Z 分数)的平方。案例中观测值的 Z 分数约为 -2.0179,其平方正好等于卡方统计量 4.07。
  • 决策结论:在显著性水平 且 df = 1 时,卡方临界值为 3.84。案例得出的卡方值为 4.07(p = 0.043),大于临界值,因此拒绝零假设,判定封面类型与销量在统计学上相关。

3) 风险与局限性(前提假设) 若未满足以下明确声明的前提条件,卡方检验得出的结果将不可靠:

  • 观测值缺乏独立性:样本被重复计算或一个事件的发生影响了另一个事件。
  • 数据类型错误:使用的数据不是类别计数(Categorical counts)。
  • 期望频数过小:单元格中的期望计数低于 5。
  • 非随机抽样:样本无法代表总体。

正文

类别数据是如何转化为统计学证据的?

想象一位作家写了一本童书,同时向市场推出了两个版本,价格相同。一个版本采用了基础的封面设计(低成本),而另一个版本采用了高质量的封面设计(高成本)。

他在观察了一段时间的销量并收集数据后,想知道书籍的封面设计是否影响了销量。

从销售数据中,我们可以观察到两个类别变量(Categorical variables)。第一个是封面类型(高成本或低成本),第二个是销售结果(售出或未售出)。

现在我们想知道这两个类别变量是否相关。当我们需要寻找两个类别变量之间的关系时,通常会使用卡方独立性检验(Chi-square test for independence)

在这种场景下,我们通常会使用 Python 来应用卡方检验,并计算卡方统计量和 p 值。计算结果显示:卡方统计量为 4.07,p 值为 0.043(低于 0.05 的阈值)。这表明封面类型和销量在统计学上是相关的。

虽然我们已经得出了 p 值,但在将其作为最终决策依据之前,我们需要理解这个值是如何得出的,以及该检验的前提假设是什么。理解这些有助于我们判断所获得的结果是否可靠。

随机性与卡方检验的核心问题

通过观察数据,我们可能会发现高成本封面的书籍销量更高,从而认为封面起到了作用。然而在现实生活中,即使封面没有任何影响,或者顾客完全是随机挑选书籍,数字也会因偶然性而产生波动,我们依然可能得到不相等的数值。

随机性总是会制造不平衡。现在的核心问题是:“这种差异是否大于随机性通常会产生的差异?”

让我们看看卡方检验是如何回答这个问题的。计算卡方统计量的公式如下:

其中:

  • 是卡方检验统计量
  • 代表行索引, 代表列索引
  • 是第 行第 列的观测频数(Observed count)
  • 是第 行第 列的期望频数(Expected count)

设定假设与计算期望频数

在理解什么是期望频数之前,让我们先陈述一下检验的假设:

  • 零假设 (H₀):封面类型与销售结果相互独立。(封面类型无影响)
  • 备择假设 (H₁):封面类型与销售结果不独立。(封面类型与书籍是否售出存在关联)

那么,期望频数是什么意思呢?假设零假设成立,即封面类型对书籍销量没有影响。我们可以回到概率的角度来看。

在我们的数据中,一本书被售出的总体概率是:

在独立性假设下,封面类型和销量不相关。这意味着售出的概率不依赖于封面类型:

既然我们有 500 本低成本封面的书,我们将这个概率转化为售出书籍的期望数量:

这意味着在独立性假设下,我们期望有 335 本低成本封面的书被售出。在数据表中,这可以表示为 。同理,高成本封面且售出的期望值 也是 335。

未售出书籍的总体概率为 。将其应用于各个子组,我们可以得到未售出书籍的期望频数:

除了概率推导,我们也可以使用直接的公式来计算期望频数: 两种方法得出的结果完全一致。

计算期望频数的意义在于:如果我们假设零假设为真(变量独立),并想象随机挑选书籍标记为“售出”,经过多次重复,我们会得到围绕 335 波动的值。335 代表了在独立性条件下,自然变异的中心点。卡方检验正是衡量观测频数偏离这个中心值的程度。

计算卡方统计量

接下来,我们计算观测频数与期望频数之间的偏差():

  • 低成本 & 售出:
  • 低成本 & 未售出:
  • 高成本 & 售出:
  • 高成本 & 未售出:

下一步,我们将差值平方。如果直接将原始偏差相加,正负值会相互抵消结果为零,这会错误地暗示没有不平衡。平方解决了抵消问题,使我们能够衡量不平衡的幅度:所有单元格的平方差均为

然后,我们将每个单元格的平方差除以其各自的期望频数,以此来标准化偏差:

  • 低成本 & 售出:
  • 低成本 & 未售出:
  • 高成本 & 售出:
  • 高成本 & 未售出:

将这些标准化后的平方偏差相加,就得到了总体的卡方统计量:

自由度 (Degrees of Freedom) 的几何意义

在查表解释这个 4.07 之前,我们需要理解自由度(df)。对于一个 2x2 的列联表(Contingency table),行总计和列总计是固定的。这意味着如果一个单元格的值发生变化,其他三个单元格必须相应调整以保持总数不变。

换句话说,在保持行列总数固定的情况下,表格只有一种独立的变动方式。因此,该表格的自由度为 1。公式计算也印证了这一点:

如果我们将表格的四个单元格想象成四维空间中的坐标轴,期望频数 就是这个空间中的一个中心点 。由于行列总数固定,所有可能的观测表格在这个四维空间中实际上只分布在一条一维的直线上。

任何偏离独立性的变化,都只是沿着方向向量 移动了一个标量距离(在我们的例子中,这个标量是 -15)。因为整个系统的偏离完全由这一个标量控制,系统只有一个独立的移动方向,这就是为什么自由度等于 1。

卡方分布与正态分布的联系

回到我们的数据,在独立性假设下,如果我们多次随机抽取 670 本书并观察低成本封面的数量 ,这些值会围绕 335 形成一个钟形的正态分布

我们实际观测到的值是 320。为了评估 320 出现的概率,我们需要进行标准化(计算 Z 分数):

  • 期望值
  • 观测值
  • 标准差

320 大约比平均值低两个标准差。有趣的是,如果我们把这个 Z 分数平方: 这正好等于我们计算出的卡方统计量!

如果一个标准化偏差服从标准正态分布,那么将该随机变量平方后,其分布就会转化为自由度为 1 的卡方分布。平方操作去除了符号,将对称的钟形分布转化为右偏的卡方分布。当自由度大于 1 时,存在多个独立的偏差,平方可以确保所有偏差对总偏差产生正向贡献。

假设检验与结论

我们通常使用 的显著性水平。这意味着只有当我们的结果落在零假设下最极端的 5% 范围内时,我们才会拒绝零假设。

在自由度 时,卡方分布的临界值为 3.84。由于我们计算出的卡方统计量(4.07)大于 3.84,它落入了拒绝域。

此处的 p 值为 0.043。这意味着如果封面类型和销量真正独立,观察到如此大差异的概率只有 4.3%。

这些结果是否可靠取决于卡方检验的假设前提:

  1. 观测值的独立性:一本书的销售不应影响另一本,样本不应被重复计算。
  2. 数据必须是类别计数
  3. 期望频数不能太小:所有单元格的期望计数通常应至少为 5。
  4. 随机抽样:样本应能代表总体。

由于所有假设均得到满足,且 p 值(0.043)低于 0.05,我们拒绝零假设,得出结论:封面类型与销量在统计学上是相关的

为什么只看一个单元格就够了?

你可能会疑惑:我们花了很多时间关注“低成本且售出”这一个单元格的偏差和标准化,那其他单元格呢?

关键在于,在 2x2 表格中,所有四个单元格是相互关联的。一旦行列总数固定,表格只有一个自由度。这意味着计数不能独立变化。当一个单元格偏离其期望值(例如 +15)时,其他单元格会由表格的结构自动决定。

整个表格是一起移动的。偏差不仅仅关乎一个数字,它代表了整个系统的移动。因此,在 2x2 表格中,检查一个单元格的偏差,就足以理解整个表格偏离独立性的程度及其分布规律。

相关文档

关联主题