技术博客arXiv cs.AI·4 小时前

STG框架：结构化测试台生成加速LLM驱动硬件设计

原标题：Structured Testbench Generation for LLM-Driven HDL Design and Verification-Oriented Data Curation

速览

针对LLM驱动RTL工作流中测试台生成的瓶颈，研究提出STG结构化测试台生成框架。该框架利用硬件固有结构生成确定性测试台，运行速度比迭代式LLM方法快720倍，且编译成功率和覆盖率更高。作为数据筛选引擎，STG能耗降低127倍，助力蒸馏模型达到SOTA性能，并有效识别基准测试错误。

AI 深度解读

结构化测试台生成：LLM 驱动 HDL 设计与验证导向的数据策展

背景

随着大型语言模型（LLM）在硬件描述语言（HDL）设计流程中的渗透，自动化测试台（Testbench）生成已成为制约寄存器传输级（RTL）工作流效率的关键瓶颈。在基于 LLM 的设计流程中，系统需要快速且可靠地验证大量候选设计。然而，现有的基于提示（Prompt-based）的方法通常将测试台生成视为无约束的代码合成任务。这种处理方式导致输出具有高度随机性，不仅 Token 消耗巨大，还面临可复现性低以及测试覆盖率不足的问题。

此外，硬件设计具有内在的结构化特性，而传统的生成式方法未能有效利用这一特性，导致在验证正确性、编译成功率以及错误检测能力上存在显著短板。特别是在数据策展（Data Curation）环节，如何高效地从海量数据中筛选高质量样本以训练专用模型，也是当前面临的一大挑战。

核心内容

为了解决上述问题，研究人员提出了 STG（Structured Testbench Generation，结构化测试台生成）框架。该框架的核心创新在于利用硬件设计的内在结构来生成确定性的测试台，从而克服了传统 LLM 生成方法的随机性和低效性。

STG 框架在三个主要应用场景中展示了其优越性能：

1. 作为直接验证工具

STG 通过结构化方法生成的测试台，在多个关键指标上显著优于基于 LLM 的迭代式测试台生成流程：

速度提升：运行速度比基于 LLM 的迭代流程快 720 倍。
编译成功率：实现了更高的编译成功率。
覆盖率：提供了更高的测试覆盖率。
错误检测：显著减少了在错误的设计单元（DUT, Design Under Test）上出现的“假阳性”（False-pass）判决，即更准确地识别出有缺陷的设计。
基准测试纠错：STG 能够暴露基准测试中存在的故障测试台，从而帮助识别 RTL 生成基准中的错误。

2. 作为数据策展引擎

在利用 LLM 进行数据筛选和模型蒸馏的过程中，STG 展现了极高的能效比：

效率提升：在单个 CPU 核心上，其处理速度比基于 LLM 的过滤方法快 11 倍。
能耗降低：能耗仅为基于 LLM 方法的 1/127（即减少了 127 倍能耗）。
模型性能：经过 STG 蒸馏后的模型，在多项基准测试评估中达到了最先进（State-of-the-art）的性能水平。

3. 作为测试时扩展预言机（Test-time Scaling Oracle）

在推理或搜索阶段，STG 可以作为优化器使用：

节点缩减：能够将搜索树或推理过程中的节点数量减少 14% 至 47%，从而大幅降低计算资源消耗。

关键要点

确定性 vs. 随机性：STG 利用硬件设计的结构化特征，将测试台生成从“无约束代码合成”转变为“结构化确定性生成”，解决了 LLM 输出随机、不可复现的核心痛点。
极致性能优化：在验证速度上实现 720 倍加速，在数据策展能耗上实现 127 倍降低，证明了结构化方法在硬件自动化中的巨大潜力。
双重角色：STG 不仅是高效的验证工具，也是高质量数据生成的引擎。它通过生成高质量测试数据来蒸馏出性能更优的专用模型。
纠错能力：STG 不仅能验证设计，还能反向验证基准测试本身，识别出基准中隐藏的故障测试台，提升了整个评估体系的可靠性。
资源友好：相比依赖庞大算力集群的 LLM 方法，STG 在单核 CPU 上即可高效运行，且显著降低了能耗和推理节点数量，更适合大规模部署。

意义与影响

STG 框架的提出标志着 LLM 在电子设计自动化（EDA）领域应用的一次重要范式转变。它证明了在处理具有强结构约束的硬件设计任务时，结合领域知识（结构化方法）比单纯依赖通用大模型的生成能力更为高效和可靠。

这一成果对行业的影响主要体现在三个方面：

加速芯片设计周期：通过大幅缩短验证和数据准备时间，STG 有助于缓解硬件设计中的验证瓶颈，加速从设计到流片的进程。
提升数据质量：在 AI for EDA 领域，高质量的数据至关重要。STG 提供的高效数据策展能力，使得训练更小、更专、更高效的专用模型成为可能，降低了行业对超大规模基础模型的依赖。
绿色计算：在硬件验证这一高能耗环节，STG 带来的显著能耗降低（127倍）符合可持续发展的趋势，为大规模自动化验证提供了更环保的解决方案。

目前，相关模型和代码已在指定 URL 开放，为社区进一步研究和应用提供了基础。

查看原文 →arxiv.org