

个人意见,仅供参考
研究智能体安全,需要回答两个问题:
1. 智能体和大模型的关系是什么
2. 假如能把大模型训练的足够安全,那么以大模型为核心构建的智能体安全,是不是不用担心了?
结论:
智能体本质上是以大模型为核心构建的“专业人士”,配置角色(系统提示词、专用微调数据、RAG知识库等)、工具(专业软件)、记忆力模块、搜索工具(接入互联网)、定制化硬件、输入输出过滤模块等等,构建服务于某一领域的“专业人士”
需要担心,原因两方面,首先,大模型的生产方能做对齐,但他们不知道智能体将来的“具体工作”是什么,也因此不知道在具体行业中遇到的问题如何解决;其次,我们对智能体的期待是能够长期运行、自主决策、接入互联网,完成复杂任务,这期间本来安全的智能体会不会“变心”?
类比:
大模型:好比是十八岁高中毕业生,人生知识广度的巅峰,什么都会一点,但不知道将来的职业?
智能体:计算机专业博士,专业技能很精,但物理化学都忘了,遇到的问题不是高中学习能解决的
智能体安全:走向社会,自主生存,见识了“人世间的险恶”、在“生存与毁灭中”挣扎,良心还能不能维系?
@科技薯
#askmeanything #ai #科研 #智能体 #大模型#小红书科技AMA #小红书AI引路人 #论文 #博士
研究智能体安全,需要回答两个问题:
1. 智能体和大模型的关系是什么
2. 假如能把大模型训练的足够安全,那么以大模型为核心构建的智能体安全,是不是不用担心了?
结论:
智能体本质上是以大模型为核心构建的“专业人士”,配置角色(系统提示词、专用微调数据、RAG知识库等)、工具(专业软件)、记忆力模块、搜索工具(接入互联网)、定制化硬件、输入输出过滤模块等等,构建服务于某一领域的“专业人士”
需要担心,原因两方面,首先,大模型的生产方能做对齐,但他们不知道智能体将来的“具体工作”是什么,也因此不知道在具体行业中遇到的问题如何解决;其次,我们对智能体的期待是能够长期运行、自主决策、接入互联网,完成复杂任务,这期间本来安全的智能体会不会“变心”?
类比:
大模型:好比是十八岁高中毕业生,人生知识广度的巅峰,什么都会一点,但不知道将来的职业?
智能体:计算机专业博士,专业技能很精,但物理化学都忘了,遇到的问题不是高中学习能解决的
智能体安全:走向社会,自主生存,见识了“人世间的险恶”、在“生存与毁灭中”挣扎,良心还能不能维系?
@科技薯
#askmeanything #ai #科研 #智能体 #大模型#小红书科技AMA #小红书AI引路人 #论文 #博士


