技术博客arXiv cs.CL·13 小时前

LDARNet：利用可学习分词实现DNA自适应表示的基因组基础模型

原标题：LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling

速览

LDARNet是一个1.2亿参数的分层基因组基础模型，将动态分块技术引入掩码语言建模，结合BiMamba-2状态空间层与局部注意力机制。该模型无需监督即可自适应生成token边界，在27项微调任务中表现优异，尤其在组蛋白修饰任务上达到最先进水平。实验表明，其学习的边界与启动子基序等生物结构高度对齐，为基因组基础模型提供了新的生物学解释。

AI 深度解读

LDARNet：用于基因组建模的可学习分词 DNA 自适应表示网络

背景

随着基因组学基础模型（Genomic Foundation Models）的快速发展，越来越多的研究开始采用大语言模型（LLM）的架构来处理生物序列数据。然而，现有的主流方法几乎无一例外地依赖于固定的分词方案（Fixed Tokenization Schemes），例如 $k$-mers、字节对编码（BPE）或单核苷酸（Single Nucleotides）。

这种固定的分词方式存在一个根本性的缺陷：它们强加了任意的人工序列边界。在生物学语境下，这些人为设定的边界可能会掩盖或模糊具有生物学意义的结构特征（如启动子、剪接位点等）。为了突破这一局限，研究人员需要一种能够根据数据本身的生物学特性动态调整边界的方法，从而更准确地捕捉基因组的内在结构。

核心内容

本文提出了 LDARNet，这是一个拥有 1.2 亿参数（120M parameters）的层级式基因组基础模型。LDARNet 的核心创新在于将自回归生成中常用的 H-Net 风格的动态分块（Dynamic Chunking）技术，迁移并适配到了掩码语言建模（Masked Language Modeling, MLM）任务中。

1. 架构设计

LDARNet 结合了以下关键技术组件：

BiMamba-2 状态空间层：利用高效的状态空间模型处理长序列依赖。
局部注意力机制（Local Attention）：增强对局部序列模式的捕捉能力。
双向路由（Bidirectional Routing）：允许模型在双向上下文中进行信息流动和决策。
基于比例的正则化项（Ratio-based Regularizer）：这是一种无监督的约束机制，旨在诱导模型学习出自适应的分词边界，而非依赖人工预设的规则。

2. 训练与评估

研究团队在来自 Nucleotide Transformer 和 Genomic Benchmarks suites 的 27 个任务上对 LDARNet 进行了微调。评估结果显示：

在参数量小于 3 亿（<300M）的紧凑型模型中，LDARNet 在 18 个任务中取得了 11 项胜利。
在 5 组组蛋白修饰（Histone Modification）任务上，LDARNet 达到了最先进（SOTA）的结果，其表现甚至优于参数量高达其 20 倍的更大模型。

3. 归因分析与生物解释

为了验证性能提升的来源，研究进行了一项 FLOPs（浮点运算次数）匹配的受控实验。实验隔离了“学习到的路由”这一变量，结果表明：

在相同的计算资源下，学习到的动态边界在组蛋白任务上的表现比固定网格边界高出多达 14 个百分点。
进一步的核苷酸分辨率分析显示，模型学习到的边界在没有监督信号的情况下，自动与经典的启动子基序（Promoter Motifs）和剪接位点（Splice Junctions）对齐。

这一发现为基因组基础模型中的自适应分词提供了明确的生物学解释，证明了模型确实捕捉到了具有生物学意义的结构特征，而不仅仅是统计规律。

关键要点

突破固定分词局限：LDARNet 摒弃了传统的 $k$-mers 或 BPE 等固定分词方案，引入了无监督的自适应分词边界，解决了人工边界可能掩盖生物学结构的问题。
架构创新：通过结合 BiMamba-2、局部注意力和双向路由，并引入基于比例的正则化，成功将动态分块技术应用于掩码语言建模任务。
小参数大性能：仅用 1.2 亿参数，LDARNet 在紧凑型模型中表现优异，并在多项任务上超越参数量大 20 倍的竞争对手。
可解释性强：学习到的分词边界与已知的生物学功能元件（如启动子、剪接位点）高度对齐，证明了模型具备潜在的生物学洞察力。
计算效率验证：通过 FLOPs 匹配实验，证实了性能提升主要源于自适应边界的学习，而非计算量的增加。

意义与影响

LDARNet 的提出标志着基因组基础模型从“统计拟合”向“结构感知”迈出了重要一步。

首先，它证明了自适应分词在基因组建模中的巨大潜力。通过让模型自行决定如何“断句”，可以更精准地反映 DNA 序列的生物学功能单元，这对于理解基因调控、突变影响等复杂生物过程至关重要。

其次，LDARNet 展示了小模型通过架构创新实现高性能的可能性。在资源受限的场景下，使用 1.2 亿参数的模型即可达到甚至超越超大模型的精度，这降低了基因组 AI 的应用门槛，使其更易于在临床或科研环境中部署。

最后，该研究为 AI 与生物学的交叉领域提供了新的范式。模型学习到的边界与经典生物学特征的对齐，不仅提升了模型的可解释性，也为生物学家提供了一种新的工具，用于发现潜在的、未被充分认知的基因组功能元件。

查看原文 →arxiv.org