← 返回信息流
技术博客arXiv cs.AI·3 小时前

Benchmarking Large Language Models on Floating-Point Error Classification

AI 深度解读

背景

浮点运算在科学计算、金融建模、图形渲染及关键安全系统中无处不在。然而,由于计算机实数表示的局限性,浮点运算极易产生各类误差,如溢出、下溢、灾难性抵消等。这些误差轻则导致计算结果偏差,重则引发系统崩溃或安全漏洞。传统的浮点误差检测往往依赖复杂的静态分析工具或符号执行技术,成本较高且难以规模化。随着大语言模型在代码理解与生成领域的突破,探索其是否具备从源代码中直接识别和分类浮点误差的能力,成为了一个极具实用价值的新方向。

核心内容

本文针对大语言模型在浮点误差静态检测与分类上的能力进行了系统性评估,并推出了名为 InterFLOPBench 的基准测试

查看原文 →arxiv.org