AI 资讯Hacker News·1 小时前

用统计学方法寻找最佳狗狗零食

原标题：Finding the Best Dog Treat with Statistics

速览

本文探讨了如何运用统计学原理来评估和选择最适合的狗狗零食。通过数据分析，宠物主人可以更客观地判断零食的营养价值和适口性。这种方法为宠物护理提供了科学依据，有助于提升狗狗的健康水平。

AI 深度解读

用统计学找到最好的狗零食：Bradley-Terry 模型的实战应用

背景

作者拥有一只名为 Bebop 的灵缇犬（Greyhound），体重 83 磅，身高 33 英寸。Bebop 热爱三件事：快速奔跑、跟随主人在屋内走动，以及吃零食。无论是咀嚼骨、派对上小孩手中的披萨，甚至是一小盘猫粮，Bebop 总能凭借敏锐的嗅觉和运动能力争取到它喜欢的食物。

然而，在观察了 Bebop 多年的饮食习惯后，作者意识到一个尴尬的事实：尽管知道它爱吃，但并不知道它究竟最喜欢哪种零食，也无法直接询问它。为了解决这个“宠物口味偏好”的问题，作者决定引入统计学方法，通过实验数据来量化不同零食的吸引力。

核心内容

1. 理论模型：Bradley-Terry 模型

作者选择了 Bradley-Terry 模型 来解决这个问题。该模型通过成对比较（Pairwise Comparisons）来评估每个竞争者（在此处为“零食”）的“强度”或偏好得分。

基本假设：每个竞争者 $i$ 被分配一个正数的强度分数 $\pi_i$。
概率公式：给定两个竞争者 $i$ 和 $j$，$i$ 战胜 $j$ 的概率为： $$ Pr(i > j) = \frac{\pi_i}{\pi_i + \pi_j} $$
对数几率解释：如果将强度写为指数形式 $\pi_i = e^{\beta_i}$，则上述概率可重写为： $$ Pr(i > j) = \frac{e^{\beta_i}}{e^{\beta_i} + e^{\beta_j}} $$ 这表明，两个竞争者潜在强度之间的差异决定了一方战胜另一方的对数几率（Log-odds）。

2. 与 Elo 评级系统的对比

Bradley-Terry 模型与国际象棋中广泛使用的 Elo 评级系统 密切相关。

Elo 公式：若 $R_i$ 和 $R_j$ 为 Elo 评级，则 $i$ 战胜 $j$ 的概率为： $$ Pr(i > j) = \frac{10^{R_i/400}}{10^{R_i/400} + 10^{R_j/400}} $$
在线更新机制：现代 Elo 评级是增量计算的，允许在每场比赛后立即更新分数，而无需重新计算所有历史数据。更新公式为： $$ R_A' = R_A + K(S_A - E_A) $$ 其中 $S_A$ 是实际得分（胜为1，平为0.5，负为0），$E_A$ 是预期得分，$K$ 是控制分数变动幅度的常数。
适用场景差异：Elo 适合像国际象棋这样比赛连续不断、需要即时更新排名的系统。而在本实验中，数据集较小，作者可以直接在收集完所有试验数据后拟合 Bradley-Terry 模型，无需在线更新。

3. 其他应用场景

Bradley-Terry 模型是处理“全局排名”但仅拥有“两两比较”数据的经典解决方案。其著名应用包括：

电影《社交网络》中描述的 FaceSmash 实验（Mark Zuckerberg 早期社交媒体实验）。
Chatbot Arena：使用 Bradley-Terry 风格的排名来评估大语言模型的性能。

4. 实验设计

为了确定 Bebop 的最爱，作者设计了严格的成对比较实验。

训练阶段：作者训练了 Bebop 执行“选择（Choice）”指令。每天深夜 11 点左右，作者在厨房拿出两种不同的零食，说出“选择”一词，分别放在左右手中，让 Bebop 只能选择其中一个，另一个收回。Bebop 已习惯先嗅闻两种零食再做决定。
零食选择：
- 基于历史偏好：如 Greenies。
- 基于 Amazon 搜索：不同格式和品牌的零食。
- 控制变量说明：虽然零食尺寸略有不同，但为了简化实验，作者忽略了尺寸差异。考虑到实验在晚餐后约 2 小时进行，Bebop 已饱腹，这模拟了日常喂食场景，且避免了复杂的称重切割工作。
具体零食列表：
- Treat A: MON2SUN，鸭肉 + 生皮（Amazon 链接）
- Treat B: Greenies，大号（Amazon 链接）
- Treat C: Pork Chomps，红色款（Amazon 链接）
- Treat D: MON2SUN，鸡肉 + 生皮（Amazon 链接）
- Treat E: Pur Luv Chicken，脱水鸡肉（Amazon 链接）

5. 数据收集与动态调整

每日试验：每天进行两次头对头比较。例如：
- C vs B -> 胜者 B
- E vs B -> 胜者 E
动态优化：实验进行到一半时，作者发现 Treat C（Pork Chomps）和 Treat B（Greenies） consistently 落败。因此，作者将计划中涉及 C 或 B 的试验标记为跳过（X），并增加了 A、D、E 之间的试验次数，以提高统计功效（Power）。

6. 结果分析

侧向偏差：在相同零食的对照试验中，Bebop 一致选择作者左手（即 Bebop 的右侧）呈现的零食。这可能并非因为它是“右撇子”，而是由于厨房布局不对称（左侧靠近有时开启的窗户风扇），引入了未控制的侧向偏差。
最终排名：
- Treat E (Pur Luv Chicken)：目前领先，有强证据表明其优于 C 和 B。
- Treat A (MON2SUN 鸭肉)：是强有力的挑战者。E vs A 的直接对决结果为 3胜2负，模型推断 E 战胜 A 的概率为 57.5%。
- Treat D (MON2SUN 鸡肉)：可行，但明显落后于 E 和 A。
Bootstrap 验证：通过重复重采样试验数据并拟合 Bradley-Terry 模型，结果显示：
- Treat E 排名第一的概率为 63%。
- Treat A 排名第一的概率为 33%。
- Treat D 排名第一的概率约为 4%。
- Treats B 和 C 基本无竞争力。

7. 结论

目前，Treat E (Pur Luv Chicken，脱水鸡肉) 是 Bebop 的冠军零食，这符合逻辑，因为它是纯脱水鸡肉。然而，结果尚未完全稳固。Treat A 与之非常接近，因此下一步最诚实的做法是增加 E 与 A 之间的对比试验。幸运的是，Bebop 对这一“科学过程”保持高度投入。

关键要点

统计工具的选择：当需要基于两两比较数据建立全局排名时，Bradley-Terry 模型是一个标准且有效的解决方案，类似于 Elo 系统，但更适合离线批量拟合。
实验设计的灵活性：在实验过程中，根据初步数据动态调整试验重点（如跳过明显劣势的选项，增加关键竞争者间的对比）可以显著提高统计效率。
偏差控制的重要性：即使是微小的环境因素（如厨房风扇的位置）也可能导致可测量的行为偏差（如侧向偏好），在数据分析中需予以考虑。
概率而非绝对真理：统计模型给出的是概率性结论（如 E 战胜 A 的概率为 57.5%），而非绝对定论。随着数据量的增加，置信区间会收窄，结论会更加稳固。
跨领域应用：Bradley-Terry 模型不仅适用于宠物行为研究，还广泛应用于电子竞技、国际象棋评级（Elo

查看原文 →wespiser.com