← 返回信息流
AI 资讯Hacker News·1 小时前

用统计学方法寻找最佳狗狗零食

原标题:Finding the Best Dog Treat with Statistics

速览

本文探讨了如何运用统计学原理来评估和选择最适合的狗狗零食。通过数据分析,宠物主人可以更客观地判断零食的营养价值和适口性。这种方法为宠物护理提供了科学依据,有助于提升狗狗的健康水平。

AI 深度解读

用统计学找到最好的狗零食:Bradley-Terry 模型的实战应用

背景

作者拥有一只名为 Bebop 的灵缇犬(Greyhound),体重 83 磅,身高 33 英寸。Bebop 热爱三件事:快速奔跑、跟随主人在屋内走动,以及吃零食。无论是咀嚼骨、派对上小孩手中的披萨,甚至是一小盘猫粮,Bebop 总能凭借敏锐的嗅觉和运动能力争取到它喜欢的食物。

然而,在观察了 Bebop 多年的饮食习惯后,作者意识到一个尴尬的事实:尽管知道它爱吃,但并不知道它究竟最喜欢哪种零食,也无法直接询问它。为了解决这个“宠物口味偏好”的问题,作者决定引入统计学方法,通过实验数据来量化不同零食的吸引力。

核心内容

1. 理论模型:Bradley-Terry 模型

作者选择了 Bradley-Terry 模型 来解决这个问题。该模型通过成对比较(Pairwise Comparisons)来评估每个竞争者(在此处为“零食”)的“强度”或偏好得分。

  • 基本假设:每个竞争者 $i$ 被分配一个正数的强度分数 $\pi_i$。
  • 概率公式:给定两个竞争者 $i$ 和 $j$,$i$ 战胜 $j$ 的概率为: $$ Pr(i > j) = \frac{\pi_i}{\pi_i + \pi_j} $$
  • 对数几率解释:如果将强度写为指数形式 $\pi_i = e^{\beta_i}$,则上述概率可重写为: $$ Pr(i > j) = \frac{e^{\beta_i}}{e^{\beta_i} + e^{\beta_j}} $$ 这表明,两个竞争者潜在强度之间的差异决定了一方战胜另一方的对数几率(Log-odds)。

2. 与 Elo 评级系统的对比

Bradley-Terry 模型与国际象棋中广泛使用的 Elo 评级系统 密切相关。

  • Elo 公式:若 $R_i$ 和 $R_j$ 为 Elo 评级,则 $i$ 战胜 $j$ 的概率为: $$ Pr(i > j) = \frac{10^{R_i/400}}{10^{R_i/400} + 10^{R_j/400}} $$
  • 在线更新机制:现代 Elo 评级是增量计算的,允许在每场比赛后立即更新分数,而无需重新计算所有历史数据。更新公式为: $$ R_A' = R_A + K(S_A - E_A) $$ 其中 $S_A$ 是实际得分(胜为1,平为0.5,负为0),$E_A$ 是预期得分,$K$ 是控制分数变动幅度的常数。
  • 适用场景差异:Elo 适合像国际象棋这样比赛连续不断、需要即时更新排名的系统。而在本实验中,数据集较小,作者可以直接在收集完所有试验数据后拟合 Bradley-Terry 模型,无需在线更新。

3. 其他应用场景

Bradley-Terry 模型是处理“全局排名”但仅拥有“两两比较”数据的经典解决方案。其著名应用包括:

  • 电影《社交网络》中描述的 FaceSmash 实验(Mark Zuckerberg 早期社交媒体实验)。
  • Chatbot Arena:使用 Bradley-Terry 风格的排名来评估大语言模型的性能。

4. 实验设计

为了确定 Bebop 的最爱,作者设计了严格的成对比较实验。

  • 训练阶段:作者训练了 Bebop 执行“选择(Choice)”指令。每天深夜 11 点左右,作者在厨房拿出两种不同的零食,说出“选择”一词,分别放在左右手中,让 Bebop 只能选择其中一个,另一个收回。Bebop 已习惯先嗅闻两种零食再做决定。
  • 零食选择
    • 基于历史偏好:如 Greenies。
    • 基于 Amazon 搜索:不同格式和品牌的零食。
    • 控制变量说明:虽然零食尺寸略有不同,但为了简化实验,作者忽略了尺寸差异。考虑到实验在晚餐后约 2 小时进行,Bebop 已饱腹,这模拟了日常喂食场景,且避免了复杂的称重切割工作。
  • 具体零食列表
    • Treat A: MON2SUN,鸭肉 + 生皮(Amazon 链接)
    • Treat B: Greenies,大号(Amazon 链接)
    • Treat C: Pork Chomps,红色款(Amazon 链接)
    • Treat D: MON2SUN,鸡肉 + 生皮(Amazon 链接)
    • Treat E: Pur Luv Chicken,脱水鸡肉(Amazon 链接)

5. 数据收集与动态调整

  • 每日试验:每天进行两次头对头比较。例如:
    • C vs B -> 胜者 B
    • E vs B -> 胜者 E
  • 动态优化:实验进行到一半时,作者发现 Treat C(Pork Chomps)和 Treat B(Greenies) consistently 落败。因此,作者将计划中涉及 C 或 B 的试验标记为跳过(X),并增加了 A、D、E 之间的试验次数,以提高统计功效(Power)。

6. 结果分析

  • 侧向偏差:在相同零食的对照试验中,Bebop 一致选择作者左手(即 Bebop 的右侧)呈现的零食。这可能并非因为它是“右撇子”,而是由于厨房布局不对称(左侧靠近有时开启的窗户风扇),引入了未控制的侧向偏差。
  • 最终排名
    • Treat E (Pur Luv Chicken):目前领先,有强证据表明其优于 C 和 B。
    • Treat A (MON2SUN 鸭肉):是强有力的挑战者。E vs A 的直接对决结果为 3胜2负,模型推断 E 战胜 A 的概率为 57.5%。
    • Treat D (MON2SUN 鸡肉):可行,但明显落后于 E 和 A。
  • Bootstrap 验证:通过重复重采样试验数据并拟合 Bradley-Terry 模型,结果显示:
    • Treat E 排名第一的概率为 63%。
    • Treat A 排名第一的概率为 33%。
    • Treat D 排名第一的概率约为 4%。
    • Treats B 和 C 基本无竞争力。

7. 结论

目前,Treat E (Pur Luv Chicken,脱水鸡肉) 是 Bebop 的冠军零食,这符合逻辑,因为它是纯脱水鸡肉。然而,结果尚未完全稳固。Treat A 与之非常接近,因此下一步最诚实的做法是增加 E 与 A 之间的对比试验。幸运的是,Bebop 对这一“科学过程”保持高度投入。

关键要点

  • 统计工具的选择:当需要基于两两比较数据建立全局排名时,Bradley-Terry 模型是一个标准且有效的解决方案,类似于 Elo 系统,但更适合离线批量拟合。
  • 实验设计的灵活性:在实验过程中,根据初步数据动态调整试验重点(如跳过明显劣势的选项,增加关键竞争者间的对比)可以显著提高统计效率。
  • 偏差控制的重要性:即使是微小的环境因素(如厨房风扇的位置)也可能导致可测量的行为偏差(如侧向偏好),在数据分析中需予以考虑。
  • 概率而非绝对真理:统计模型给出的是概率性结论(如 E 战胜 A 的概率为 57.5%),而非绝对定论。随着数据量的增加,置信区间会收窄,结论会更加稳固。
  • 跨领域应用:Bradley-Terry 模型不仅适用于宠物行为研究,还广泛应用于电子竞技、国际象棋评级(Elo
查看原文 →wespiser.com