← 返回信息流
AI 资讯Hacker News·2 小时前

生物进化与信息获取

原标题:Biological Evolution and Information Acquisition

速览

该资讯探讨了生物进化与信息获取之间的关联。内容涉及生物体在进化过程中如何获取和处理信息。这一研究有助于理解生命演化的底层逻辑。

AI 深度解读

生物进化与信息获取:从电路模拟到性繁殖的数学优势

背景

几周前,我们探讨过经济学家布莱恩·阿瑟(Brian Arthur)关于技术演化的模拟实验。在该实验中,阿瑟从简单的构建模块(如 NAND 门)出发,通过随机组合日益有用的现有组件,演化出了令人惊讶的复杂电路(如 12 路 AND 门或 4 位加法器)。我们将这一过程分析为一种简化搜索问题的方法:通过利用现有的、可工作的组件作为模块,一次将它们组合成更复杂的模块,再将这些模块组合成更复杂的模块,从而屏蔽掉搜索树中许多不具前景且耗时的分支,使模拟能够在巨大的可能性分支集中找到有用的技术。

当然,人类真实的技术并非通过随机组合组件并观察其是否有效来生成的;模拟中的随机性只是为了观察在不同条件下创建新技术的难易程度。然而,生物技术——地球上从微观单细胞生物到体型如波音 737 飞机般的鲸鱼等巨大的生物形态——也是由随机性生成的。进化通过收获遗传变异(通常由随机突变引起)的果实,优先选择最适应的生物体将其基因传播到未来,从而一点一滴地构建生物体。经过数十亿年,这一过程可以产生令人惊叹的复杂生物系统。

有趣的是,生物进化使用了与阿瑟的电路模拟非常相似的技巧。通过在基因层面利用模块化,生物种群可以提高有益遗传变异在种群中扩散的速度,从而有效地提高其信息获取率。有性生殖以及水平基因转移等其他共享遗传物质的方式,本质上就是实现这一目的的机制。我们可以通过一些简单的模拟来展示这一点。

核心内容

进化与繁殖策略

生物体繁殖的最简单方式是无性生殖,即亲代产生一个在遗传上与其自身完全相同的子代。例如,简单的单细胞生物通过细胞分裂进行繁殖,分裂成两个或多个“子代”,每个子代都拥有与原始亲代相同的基因。

但是,子代并不一定是亲代的完全复制品。由于基因突变,在分裂过程中某些基因可能会发生随机改变,产生基因略有不同的子代。在某些情况下,这些突变可能是有用的,赋予额外的功能(如抗生素耐药性),从而提高生存和繁殖的机会。由于它们对生物体适应度的贡献,随着时间的推移,有益突变在种群中会变得越来越普遍。

我们可以通过一个简单的模拟来演示这一过程。在模拟中,我们从一个由 100 个生物体组成的种群开始,每个生物体的基因组包含 200 个独立的基因。基因可以是 1(基因的“好”版本)或 0(基因的“坏”版本)。初始种群是随机的,每个生物体拥有大约 50-50 的好基因和坏基因混合。在模拟的每次迭代中,每个生物体产生两个子代。子代复制亲代的基因,但由于突变,每个基因有 0.2% 的概率发生翻转(从 1 变为 0 或反之)。最适应的 100 个子代(适应度仅仅是每个基因值的总和,因为在我们简化的模型中 1 是“好”基因)被选中进入下一代,循环继续。这比实际进化功能要简化得多——首先,它将基因对适应度的贡献视为独立的,忽略了一个基因的适应度值往往取决于其他基因的事实——但这足以展示其中的一些动态机制。

当我们运行这个模拟时,随着更具适应性的后代击败适应性较差的后代,种群中“好”基因的比例随时间稳步上升。根据突变率,种群最终可能达到最大可能的适应度 200,或在低于该水平的某个阶段达到平台期。

这种策略的问题在于——产生亲代的噪声副本,并完全依赖随机突变作为遗传变异的来源——一旦你处于平均适应度以上,突变在平均意义上很可能是有害的。如果基因组中 1 的数量多于 0,随机改变更有可能将 1 变为 0,而不是将 0 变为 1。因此,对于平均适应度以上的亲代,其子代在平均意义上具有较低的适应度。

由于突变是随机的,仍然会有变异,一些子代的适应度最终会高于其亲代。而且,因为每次迭代都会淘汰适应性最差的后代,被选中的子代池的平均适应度将高于其亲代,允许平均适应度随时间增加。但是,突变降低平均适应度的效应会拖慢这一过程。

你可以在下面的图表中看到这一点,该图表显示了一个参数略有不同的模拟(基因组长度为 1000,突变率为 2%),以便更清楚地看到趋势。顶部图表显示了第 50 代种群适应度的分布,第二个图表显示了选择前种群子代的分布。你可以看到,由于突变,平均适应度下降了,但由于随机性,一定比例的子代幸运地获得了更高的适应度。最后一个图表显示了选择分布的前半部分后的子代。平均适应度上升,现在高于初始种群,尽管只是略微高于。

现在让我们看看另一种繁殖策略的模拟:有性生殖,即子代从两个亲代而不是一个亲代那里获得基因。在这个模拟中,我们仍然有一个由 100 个生物体组成的种群,基因组包含 200 个基因,每个基因可以是 0 或 1。但现在子代有两个亲代,在每次迭代中,种群成员随机配对,每对产生四个子代。子代从两个亲代那里获得基因,每个基因有 50% 的概率来自特定的亲代。然后选择最适应的 100 个子代进入下一代,迭代继续。在这个模拟中,没有突变,因此遗传变异完全来自于重新洗牌亲代的基因。

与之前的模拟一样,种群逐渐达到最大适应度。但有性生殖到达那里要快得多。在无性生殖中,经过 200 代后,种群的平均适应度约为 187。而在有性生殖中,种群平均适应度在仅仅 33 代内就达到了最大适应度 200。

关键在于,有性生殖在不降低平均适应度的情况下引入了遗传变异。由于子代是亲代基因的随机组合,平均而言,它们将具有与亲代相同的适应度(有些随机地具有更高的适应度,有些随机地具有更低的适应度)。当最适应的子代被选中进入下一代时,这是从平均分布远高于无性生殖模拟中子代分布的分布中取前一半。因此,平均适应度上升得快得多。

如果你进行数学计算(或者像我一样,简单地阅读别人已经计算好的数学公式),在无性种群中,适应度增加的速率是 1/(8*f),其中 f 是差分归一化适应度。(种群的归一化适应度是该种群中好基因的平均比例;因此,一个平均每个成员在 200 个基因组的基因组中有 150 个好基因的种群,其归一化适应度为 0.75。差分归一化适应度是种群的归一化适应度减去 0.5,即归一化... [原文此处截断]

关键要点

  • 技术演化的模块化搜索:布莱恩·阿瑟(Brian Arthur)的模拟表明,通过随机组合现有的、有用的模块(如逻辑门),可以高效地从巨大的可能性空间中筛选出复杂的技术结构(如加法器),这本质上是一种简化搜索问题的策略。
  • 生物进化的随机性与筛选:与人类有意识的技术创造不同,生物进化依赖于随机突变产生的遗传变异,并通过自然选择优先保留最适应环境的个体,经过数十亿年构建出复杂的生物系统。
  • 无性生殖的局限性:在无性生殖模拟中,虽然有益突变会逐渐积累,但一旦种群适应度超过平均水平,随机突变更有可能破坏现有的好基因(将 1 变为 0),从而降低平均适应度,拖慢进化速度。
  • 有性生殖的信息获取优势:有性生殖通过重组两个亲代的基因,在不降低平均适应度的前提下引入了遗传变异。模拟显示,有性生殖使种群达到最大适应度的速度远快于无性生殖(33 代 vs 200 代)。
  • 数学机制:有性生殖之所以高效,是因为子代是亲代基因的随机组合,平均适应度保持不变,而选择过程是从一个平均适应度更高的分布中选取最优者,从而加速了信息的获取和适应度的提升。

意义与影响

这一分析揭示了

查看原文 →construction-physics.com