实验室简介

广东省安全智能新技术重点实验室成功举办SAILING讲坛第二十七期

发表时间:2025-06-18 09:17:32 来源: 作者: 浏览:

【文章导读】​2025年6月9日,由广东省安全智能新技术重点实验室和深圳市计算机学会主办的SAILING讲坛第二十七期于哈尔滨工业大学(深圳)顺利召开。广东省安全智能新技术重点实验室是由广东省科学技术厅于2022年批准成立的省级科研平台,依托哈尔滨工业大学(深圳)进行建设管理。实验室遵循“开放、流动、联合、竞争”的发展方针。以提高自主创新能力为目标,聚焦广东优势学科、支柱产业以及重大战略需求,科学规划、整体布局,推进实验室...

2025年6月9日,由广东省安全智能新技术重点实验室和深圳市计算机学会主办的SAILING讲坛第二十七期于哈尔滨工业大学(深圳)顺利召开。

广东省安全智能新技术重点实验室是由广东省科学技术厅于2022年批准成立的省级科研平台,依托哈尔滨工业大学(深圳)进行建设管理。实验室遵循“开放、流动、联合、竞争”的发展方针。以提高自主创新能力为目标,聚焦广东优势学科、支柱产业以及重大战略需求,科学规划、整体布局,推进实验室体系提质增效,着力加强基础研究和源头创新能力,着力推进科技研发和成果转化,着力培育创新型人才队伍,着力强化开放共享,使之成为支撑广东建设更高水平科技创新强省的战略科技力量。

本期论坛围绕主题“大模型推理加速”展开。本次SAILING讲坛由哈尔滨工业大学(深圳)王强副教授主持,由特邀嘉宾新加坡科技研究局(A*STAR)研究员贺鑫博士作主题报告。



贺鑫博士以《ExpertFlow: Efficient MoE Inference via Predictive Expert Caching and Token Scheduling》为题,介绍了优化混合专家架构(MoE)部署瓶颈的创新系统ExpertFlow。MoE架构通过为每个输入稀疏激活特定的子模型(专家),以平衡性能与效率,推动了大语言模型达到新的高度。然而,其实际部署面临一个关键挑战:将所有专家(无论活跃还是闲置)存储在GPU内存中会对硬件资源造成巨大压力,限制了其在边缘和云服务中的应用。传统的方案是将闲置专家移至CPU,依赖于静态缓存或高成本预测机制,无法适应MoE的动态路由特性,会导致高延迟和资源浪费。针对这一问题,贺博士介绍了ExpertFlow系统,其结合路径预测、动态token调度和自适应缓存等方法来优化MoE推理,使资源分配与实时路由需求对齐:路径预测是通过预测专家使用情况,主动管理GPU-CPU数据传输流以降低传输成本;动态token调度通过将使用相同专家的token调度在一起,从而减少冗余计算;自适应缓存则是通过一个实时校正机制确保即使预测有偏差时也能维持缓存的准确性。这些创新共同构建了一个高效简洁的流程,能够在不产生大量计算开销的情况下适应MoE的可变性。报告结束后,现场老师以及同学就报告相关问题与贺鑫博士展开讨论,现场反响热烈。



嘉宾简介:

贺鑫博士,新加坡科技研究局(A*STAR)前沿人工智能研究中心(Center for Frontier AI Research, CFAR)研究员。在攻读博士学位期间,他专注于自动化机器学习(AutoML)与神经网络架构搜索(NAS)领域,在AAAI、ECCV、MICCAI、KBS等顶会和期刊上发表了多篇核心研究成果。其中,综述论文《AutoML: A survey of the state-of-the-art》累计引用量已超2000次,其系统梳理了该领域的技术演进历程,成为学科内的重要参考文献。他当前的研究方向已转向大语言模型推理优化与AI集群性能优化,专注于通过设计资源高效型的机器学习系统,提升复杂AI任务的执行效率。


嘉宾个人主页:https://marsggbo.github.io/


论文链接:https://arxiv.org/abs/2410.17954