2026年5月21日,广东省安全智能新技术重点实验室、深圳市计算机学会主办的硕博论坛第十五期“智能体安全”专题学术报告通过腾讯会议顺利举行。本次报告由哈尔滨工业大学(深圳)陈斌教授主持,特邀南洋理工大学博士后加小俊作题为《从大模型安全到智能体安全的探索》的学术报告。报告聚焦大模型安全、多模态安全、智能体提示注入与技能供应链安全等前沿问题,吸引了相关领域师生线上参加交流。
广东省安全智能新技术重点实验室是由广东省科学技术厅于2022年批准成立的省级科研平台,依托哈尔滨工业大学(深圳)进行建设管理。实验室遵循“开放、流动、联合、竞争”的发展方针,以提高自主创新能力为目标,聚焦广东优势学科、支柱产业以及重大战略需求,着力加强基础研究和源头创新能力,推进科技研发和成果转化,培育创新型人才队伍,强化开放共享,服务广东建设更高水平科技创新强省。
本次报告围绕“大模型安全到智能体安全”的研究演进展开。加小俊博士首先回顾了大模型与多模态大模型中的典型安全脆弱性,包括语义诱导、跨模态风险传播和对齐边界失效等问题;随后进一步分析了智能体系统在工具使用、外部知识调用和技能加载过程中的新型攻击面,重点讨论提示注入、恶意技能、隐藏式执行载荷和可信执行链路等风险;最后结合相关防御思路,探讨了面向智能体安全的未来研究方向,包括执行过程监测、风险行为识别、可信技能验证和安全约束增强等。

图1 加小俊博士介绍文本到图像模型安全相关研究
结合近年来人工智能系统从单一模型向多模态模型、工具增强模型和智能体系统持续演进的趋势,加小俊博士系统介绍了其团队在模型安全方向的多项研究工作。在文本到图像模型安全方面,报告展示了面向 T2I 模型的感知引导越狱攻击方法,分析了如何依据人类感知与安全替换原则构造高效攻击提示,并通过多类开源和商业模型实验验证方法的有效性。
在大语言模型安全方面,报告介绍了基于古汉语表达与生物启发式搜索的越狱提示优化方法。该工作从语言隐晦性、语义压缩和跨语言表达差异等角度出发,探讨了复杂语言形式对模型安全评估与对齐边界的影响,为理解大语言模型在特殊语义空间中的安全脆弱性提供了新的视角。

图2 加小俊博士介绍大语言模型安全相关研究
在智能体安全方面,加小俊博士重点介绍了面向技能型智能体的提示注入与技能供应链安全研究。报告指出,随着智能体系统具备工具调用、任务规划和技能加载能力,攻击者可能通过恶意技能、隐藏式脚本或污染资源文件影响智能体执行过程,从而引发新的安全风险。围绕这一问题,报告展示了 SkillJect 等相关工作,分析了攻击技能构造、执行轨迹验证和状态评估等关键环节。

图3 加小俊博士介绍智能体技能安全与提示注入研究
在智能体 RAG 安全方面,报告进一步介绍了 SeCon-RAG 框架,围绕检索增强生成系统中的投毒文档、冲突知识和不可信检索内容等问题,探讨了语义过滤、聚类过滤和冲突感知过滤相结合的防护机制。相关研究为提升 RAG 系统在复杂知识环境下的事实一致性、鲁棒性和可信部署能力提供了有益参考。

图4 加小俊博士介绍智能体 RAG 安全相关研究
报告结束后,参会师生围绕大模型越狱攻击的评测方法、多模态模型安全边界、智能体提示注入的防护机制、技能供应链风险识别以及 RAG 系统可信部署等问题与加小俊博士进行了深入交流。现场讨论气氛热烈,报告内容兼具前沿性、系统性和启发性。
本次学术报告进一步拓展了师生对大模型安全、多模态安全与智能体安全问题的理解,为后续开展人工智能安全评估、防护机制设计和可信智能体系统研究提供了新的思路。广东省安全智能新技术重点实验室将继续围绕人工智能安全与可信智能等关键方向组织高水平学术交流活动,推动相关领域交叉融合与创新发展。
嘉宾介绍

加小俊,南洋理工大学博士后,长期从事人工智能安全与可信人工智能研究,围绕对抗鲁棒性、大模型安全、多模态安全与智能体安全开展了系统性工作。其研究成果覆盖 TPAMI、IJCV、TIFS、TIP、ICML、ICLR、NeurIPS、CVPR、ICCV、USENIX Security、NDSS 等人工智能与信息安全领域顶级会议和期刊,并有多篇论文入选 Oral/Spotlight。相关成果 Google Scholar 引用超过3500次,并曾获得中国电子学会博士学位论文激励计划、CVPR AdvML@CV Workshop Distinguished Paper Award、ICML AdvML Workshop “Adversarial for Good” Award 等荣誉,在多项大模型安全、红队挑战和具身智能竞赛中取得优异成绩。