技术博客arXiv cs.AI·7 小时前

AI4SE与SE4AI十年回顾与展望

原标题：AI4SE and SE4AI Exploration: A Decade Looking Back and Forward

速览

本文回顾了2020年以来AI与系统工程（SE）领域的十年发展历程，将其划分为基础、应用和大模型拐点三个阶段。研究通过人机协作评估，识别出当前社区在AI采用、保障及人才转型方面的五大关键研究缺口。作者还公开了相关数据及AI4SE/SE4AI Explorer工具，供读者对比评估结果。

AI 深度解读

AI4SE 与 SE4AI 探索：十年回望与前瞻

背景

人工智能（AI）与系统工程（SE）的交叉领域在过去十年中经历了显著的演变。这一进程的一个重要里程碑是 2020 年 3 月出版的 INCOSE INSIGHT 期刊关于“AI 与系统工程”的特刊。该期特刊不仅成为了该出版物历史上下载量最高的期刊，更催生了一个活跃的研究社区，其年度研讨会目前吸引了超过 250 名注册参与者。

随着大型语言模型（LLM）等新技术的出现，AI 在软件工程中的应用以及软件工程在 AI 系统开发中的作用（即 AI4SE 和 SE4AI）正面临新的范式转移。为了厘清这一领域的现状与未来，研究人员对核心文献进行了系统性回顾，并引入了一种结合人类专家知识与六款 AI 模型的新型文献评估方法，旨在为从业者提供关于 AI 采用、保障及劳动力转型的指导。

核心内容

本文基于作者对领域核心文献的阅读，将 AI 与 SE 的发展划分为三个阶段：基础阶段（Foundational）、**应用阶段（Applied）**以及 LLM 拐点阶段（LLM Inflection）。文章详细阐述了每个阶段的技术特征、研究重点及社区共识，并指出了当前存在的关键研究缺口。

1. 三阶段发展回顾

基础阶段（Foundational Phase）：此阶段主要关注 AI 技术的基本原理及其在 SE 中的初步理论映射。研究重点在于建立 AI 算法与软件工程需求、设计、验证和确认（V&V）之间的基本联系。这一时期的工作多为概念性框架和小规模实验，旨在证明 AI 技术在 SE 流程中的可行性。
应用阶段（Applied Phase）：随着计算能力的提升和数据可用性的增加，研究重心转向实际应用场景。AI 被广泛应用于代码生成、缺陷检测、测试自动化及项目估算等领域。SE 方法也被用于提高 AI 系统的可靠性、可解释性和安全性。这一阶段的特点是工具链的成熟和工业界试点项目的增加。
LLM 拐点阶段（LLM Inflection Phase）：以大型语言模型为代表的生成式 AI 的出现，标志着一个新的拐点。LLM 不仅改变了代码生成的方式，还深刻影响了需求工程、文档生成、知识管理及人机协作模式。这一阶段的核心挑战在于如何有效整合 LLM 的强大能力与 SE 对严谨性、确定性和质量保障的要求。

2. 人机协同的文献相关性评估

为了更客观地评估该领域的研究热点和空白，研究团队进行了一项独特的文献综述实验：

数据集：涵盖了 1,712 篇 INCOSE INSIGHT 文章和 889 篇 SERC（Systems Engineering Research Center）出版物。
方法论：采用“人机协议”（Human-AI Agreement）方法。由人类专家对文献的相关性进行评级，同时利用六款不同的 AI 模型进行独立评级。
目的：通过比较人类与 AI 模型在判断文献相关性上的一致性，评估 AI 在学术文献筛选和知识发现中的潜力，并识别出人类与 AI 在理解复杂 SE-AI 交叉议题时的差异。

3. 五大关键研究缺口（Critical Research Gaps）

基于上述分析，文章识别出当前 AI4SE 和 SE4AI 领域存在的五个关键研究缺口：

LLM 在 SE 流程中的集成机制：缺乏将 LLM 无缝集成到现有 SE 工作流（如需求追踪、变更管理）的标准方法和工具支持。
AI 系统的质量保障与验证：针对由 AI 驱动或包含 AI 组件的系统，缺乏统一的、可操作的验证和确认（V&V）框架，特别是在处理 LLM 的非确定性输出时。
人机协作的效能评估：虽然人机协作日益普遍，但缺乏量化评估 AI 辅助对 SE 工程师生产力、决策质量和工作满意度的长期影响的实证研究。
数据隐私与安全伦理：在利用 AI 处理敏感工程数据时，缺乏兼顾数据效用与隐私保护、安全合规的技术框架和政策指南。
劳动力转型与技能重塑：SE 行业如何适应 AI 带来的角色变化，缺乏系统的教育、培训和职业路径规划研究，以应对劳动力结构的根本性转变。

4. 资源开放

为了促进透明度和社区参与，作者公开了人机协议评估数据，并开发了 AI4SE/SE4AI Explorer Web 应用程序。读者可以通过该应用查看人类专家与 AI 模型对文献相关性的评级，并对比自己的判断，从而更深入地理解该领域的知识分布和研究趋势。

关键要点

发展阶段明确：AI 与 SE 的融合已从理论探索（基础阶段）进入广泛应用（应用阶段），并正站在由 LLM 驱动的新拐点（LLM 拐点阶段）。
人机协同评估创新：通过结合人类专家与六款 AI 模型对数千篇文献进行相关性评级，为文献综述提供了新的方法论视角，并揭示了人机判断的异同。
五大研究缺口：当前领域亟需解决 LLM 集成机制、AI 系统 V&V 框架、人机协作效能量化、数据隐私安全伦理以及劳动力转型规划这五大核心问题。
社区活跃度提升：自 2020 年 INCOSE INSIGHT 特刊以来，AI 与 SE 交叉领域已形成活跃的研究社区，年度研讨会注册人数超过 250 人。
开放科学实践：作者公开了评估数据和交互式 Web 应用（AI4SE/SE4AI Explorer），鼓励读者参与对比分析，促进知识共享。
实践指导意义：文章不仅回顾历史，更为从业者提供了在 AI 采用、质量保障和团队转型方面的具体指导建议。

意义与影响

这篇文章不仅是对过去十年 AI 与系统工程交叉领域发展的系统性总结，更是对未来研究方向的战略指引。

为学术界提供路线图：通过明确划分三个阶段并指出五大研究缺口，文章为研究人员提供了清晰的研究议程，有助于避免重复劳动，聚焦于高影响力的关键问题。
为工业界提供实践指南：对于正在探索 AI 应用的 SE 从业者和企业，文章指出了当前技术成熟度和工具链的局限性，特别是在 LLM 集成和质量保障方面，帮助从业者做出更明智的技术选型和风险管理决策。
推动方法论创新：引入的“人机协议”文献评估方法展示了 AI 在知识管理和文献综述中的辅助潜力，为其他领域的系统性文献回顾提供了可借鉴的新范式。
促进社区建设与开放科学：通过公开数据和开发交互式工具，文章增强了研究透明度，促进了学术界与工业界之间的对话与协作，有助于加速 AI4SE 和 SE4AI 领域的知识积累和技术进步。

总之，该文章强调了在 LLM 时代，系统工程需要重新审视其方法论和工具链，以应对 AI 带来的机遇与挑战，同时呼吁加强人机协作、质量保障和伦理规范的研究，以实现 AI 在工程领域的负责任和高效应用。

查看原文 →arxiv.org