技术博客arXiv cs.AI·1 天前

Agent Safety Is Action Alignment

AI 深度解读

随着大语言模型（LLM）能力的演进，它们正越来越多地以智能体（Agent）的形态存在：代表用户调用工具、转移资金、删除记录和发送消息。在这一新兴范式下，如何确保智能体安全成为了核心议题。

当前业界的主流做法，是直接将聊天机器人时代的安全配方移植到智能体场景中——即训练模型拒绝执行不安全的