Agent Safety Is Action Alignment
AI 深度解读
背景
随着大语言模型(LLM)能力的演进,它们正越来越多地以智能体(Agent)的形态存在:代表用户调用工具、转移资金、删除记录和发送消息。在这一新兴范式下,如何确保智能体安全成为了核心议题。
当前业界的主流做法,是直接将聊天机器人时代的安全配方移植到智能体场景中——即训练模型拒绝执行不安全的
查看原文 →arxiv.org
随着大语言模型(LLM)能力的演进,它们正越来越多地以智能体(Agent)的形态存在:代表用户调用工具、转移资金、删除记录和发送消息。在这一新兴范式下,如何确保智能体安全成为了核心议题。
当前业界的主流做法,是直接将聊天机器人时代的安全配方移植到智能体场景中——即训练模型拒绝执行不安全的