Math——辛普森悖论

本文介绍辛普森悖论


辛普森悖论

  • 辛普森悖论指的是在分组比较中占优的一方,在合并数据后反而处于劣势的现象

药物效果示例

  • 场景场景 :比较两种药物(A 和 B)对轻症和重症患者的治愈率

  • 分组数据

    • 轻症患者组
      • 药 A:治疗 10 人 ,治愈 9 人 -> 治愈率 90%
      • 药 B:治疗 100 人 ,治愈 80 人 -> 治愈率 80%
    • 重症患者组
      • 药 A:治疗 100 人 ,治愈 30 人 -> 治愈率 30%
      • 药 B:治疗 10 人 ,治愈 2 人 -> 治愈率 20%
  • 分组结论

    • 轻症组:药 A 的治愈率(90%)> 药 B(80%)
    • 重症组:药 A 的治愈率(30%)> 药 B(20%)
  • 合并数据

    • 药 A:总治愈 39 人(9 + 30),总治疗 110 人 -> 治愈率 35.5%
    • 药 B:总治愈 82 人(80 + 2),总治疗 110 人 -> 治愈率 74.5%
  • 悖论出现

  • 尽管药 A 在每个分组的治愈率都更高,但合并后药 B 的总治愈率却显著优于药 A。这是因为药 B 主要用于治愈率高的轻症患者(样本量 100 vs. 10),而药 A 更多用于治愈率低的重症患者(样本量 100 vs. 10),导致整体结果反转

核心原因

  • 数据分组中存在混杂变量(此处为病情严重程度),且各组样本量差异巨大,合并时权重不同引发悖论

什么药是真正优秀的?

  • 药 A才是真正疗效更好的,因为在任何场景下(不论轻症还是重症下),都是药 A 效果更好,之所以合并到一起统计出现悖论,是因为医生开药时存在刻意倾向导致的,给轻症患者更多的开了药 B,这相当于强行提高了药 B 的治愈率
  • 其他类似问题也出现在不同学院男女录取率上