← 返回信息流
技术博客arXiv cs.AI·1 天前

Agent Safety Is Action Alignment

AI 深度解读

背景

随着大语言模型(LLM)能力的演进,它们正越来越多地以智能体(Agent)的形态存在:代表用户调用工具、转移资金、删除记录和发送消息。在这一新兴范式下,如何确保智能体安全成为了核心议题。

当前业界的主流做法,是直接将聊天机器人时代的安全配方移植到智能体场景中——即训练模型拒绝执行不安全的

查看原文 →arxiv.org