技术博客arXiv cs.CL·14 小时前

OpenRTLSet：面向大模型Verilog设计的开源数据集

原标题：OpenRTLSet: A Fully Open-Source Dataset for Large Language Model-based Verilog Module Design

速览

OpenRTLSet是迄今最大的完全开源硬件设计数据集，包含13.1万余个多样化的Verilog代码样本。该数据集整合了GitHub仓库、VHDL翻译及C/C++翻译代码，并利用DeepSeek-R1生成自然语言描述以支持模型微调。研究验证了开源方法在硬件设计任务中的优越性能，为相关领域的科研与商业应用奠定基础。

AI 深度解读

OpenRTLSet：基于大语言模型的 Verilog 模块设计全开源数据集深度解读

背景

随着硬件描述语言（HDL）如 Verilog 和 VHDL 在芯片设计中的广泛应用，硬件开发流程正逐渐向软件化、自动化方向演进。然而，与软件领域拥有海量开源代码库（如 GitHub 上的 Python 或 C++ 项目）不同，硬件设计领域长期缺乏高质量、大规模且完全开源的代码数据集。这种数据匮乏限制了基于大语言模型（LLM）的硬件辅助设计工具的发展，使得研究人员和工业界难以训练出能够理解复杂硬件逻辑并生成高质量代码的专用模型。

在此背景下，OpenRTLSet 应运而生。该数据集旨在填补这一空白，通过整合来自 GitHub 的 Verilog 代码、VHDL 翻译代码以及可综合的 C/C++ 翻译代码，构建了一个包含超过 131,000 个多样化模块的全开源数据集。它不仅为研究社区提供了丰富的训练素材，还通过引入自然语言描述配对数据，探索了利用 LLM 进行硬件代码生成的可行性与最佳实践。

核心内容

OpenRTLSet 的核心价值在于其数据的多样性、开源性以及针对 LLM 微调的精心构建。以下是该数据集的主要构成与技术细节：

1. 数据构成与规模

OpenRTLSet 是目前已知最大的全开源硬件设计数据集，总计包含超过 131,000 个代码样本。其数据来源主要包括三个部分：

GitHub 原始 Verilog 模块：约 102,000 个模块，直接来源于公开的 GitHub 仓库，保留了真实的硬件设计风格和结构。
VHDL 翻译模块：约 5,000 个模块，通过工具将 VHDL 代码转换为 Verilog，增加了语言层面的多样性。
可综合 C/C++ 翻译模块：约 24,000 个模块，源自可综合的 C/C++ 代码转换，进一步丰富了数据集的语义覆盖范围。

所有数据均完全开放，无任何专有或商业限制，允许研究者和企业自由使用。

2. 自然语言描述生成

为了实现指令微调（Instruction Tuning），研究团队使用推理模型 DeepSeek-R1 为每个代码样本生成了配对的自然语言描述。这些描述充当了“指令”或“注释”，使得 LLM 能够学习如何将自然语言需求转化为具体的硬件代码。这一过程使得数据集不仅包含代码，还包含了代码与语义之间的映射关系，从而支持多种语言模型家族（如 Qwen 和 Granite）的 Verilog 代码生成任务。

3. 实验设计与变量探索

OpenRTLSet 不仅提供数据，还通过一系列实验探索了不同技术选项对模型性能的影响：

上下文增强：研究考察了使用 Verilator 生成的 C++ 文件作为额外上下文信息，对模型在标注和理解代码逻辑时的帮助。
量化技术对比：对比了 INT4（4位整数量化）与 BF16（半精度浮点）两种量化技术对模型性能的影响，旨在平衡推理效率与精度。
模型规模差异：评估了不同参数规模的模型（从 7B 到 32B 参数）在硬件设计任务上的表现差异，揭示了模型大小与生成质量之间的关系。

关键要点

全开源无限制：OpenRTLSet 是首个完全开源且无专有限制的硬件设计数据集，打破了硬件数据领域的封闭性。
多源数据融合：数据集融合了 GitHub 原生 Verilog、VHDL 转换代码及 C/C++ 可综合代码，提供了超过 131,000 个多样化样本，显著提升了模型的泛化能力。
LLM 友好型标注：利用 DeepSeek-R1 推理模型生成自然语言描述，构建了“代码-自然语言”配对数据，专门用于微调 Qwen、Granite 等主流 LLM 家族。
技术选项探索：系统性地评估了 Verilator 生成的 C++ 上下文、INT4 与 BF16 量化技术以及 7B-32B 不同规模模型对硬件代码生成性能的影响。
开源优势验证：实验结果表明，基于开源数据集和方法训练的模型在硬件设计任务上能够取得优越性能，证明了开源路径在硬件 AI 领域的可行性。

意义与影响

OpenRTLSet 的发布对硬件设计与人工智能交叉领域具有深远意义：

降低硬件 AI 研究门槛：通过提供大规模、高质量且免费的数据集，OpenRTLSet 使得更多研究机构和初创公司能够参与基于 LLM 的硬件辅助设计研究，无需承担高昂的数据获取成本。
推动硬件设计自动化：该数据集支持训练专门的代码生成模型，有望实现从自然语言需求到 Verilog 代码的自动转换，从而加速芯片设计流程，减少人工编写底层硬件代码的错误率和时间成本。
促进开源硬件生态：与软件领域类似，OpenRTLSet 有望推动硬件设计领域的开源运动，促进代码复用、知识共享和协作创新，形成类似 GitHub 的硬件设计协作平台。
为商业应用奠定基础：通过验证开源方法在性能上的优越性，OpenRTLSet 为商业公司开发基于 LLM 的 EDA（电子设计自动化）工具提供了可靠的数据基础和参考范式，有助于加速 AI 驱动芯片设计技术的商业化落地。

总之，OpenRTLSet 不仅是一个数据集，更是连接大语言模型与硬件设计领域的重要桥梁，为构建更智能、更高效的下一代芯片设计工具奠定了坚实基础。

查看原文 →arxiv.org