2024年4月24日,广东省安全智能新技术重点实验室主办的硕博论坛第六期“智能数据工程”在哈尔滨工业大学(深圳)T2-313顺利开展,本期论坛由哈尔滨工业大学(深圳)漆舒汉副教授主持,邀请了哈尔滨工业大学(深圳)杨泽洲同学和中国科学院深圳先进研究院的白岳霖同学分别对智能化软件工程和大模型微调方面的数据工程进行分享演讲。
杨泽洲同学的报告讲解了用于辅助增强代码开发与维护的技术和方法。目前随着软件系统的日益复杂,开发人员的压力也逐渐增大。为了提高代码质量、可读性和可维护性,应用自动化方法尤其是基于深度学习的方法来辅助开发人员增强代码开发和维护过程越来越被关注。杨同学还介绍了自动化代码生成的研究现状,以及如何从智能数据工程的角度来增强已有的代码生成和注释的方法,进一步提升软件开发和维护的效率和质量。
图1 杨泽洲同学关于《辅助增强代码的开发与维护:从生成到注释》的报告
白岳霖同学首先介绍了指令微调的作用,即让大型语言模型学习如何使用预训练阶段注入的知识,激发模型多样且强大的能力,强调了微调数据对最终模型能力的广度与深度起着至关重要的影响。白同学的报告从数据的角度浅析近期指令微调的研究进展,包括了数据资源、数据选择策略,并分享了构建更高质量的微调数据来覆盖更广的范围的方法,以及自己在大模型微调方面的经验。
图2 白岳霖同学关于《从数据角度看大模型微调》的报告
在漆舒汉副教授的主持和引导下,本次论坛在轻松愉快的氛围中顺利进行,线上线下的同学积极参与,提出了一些有价值的问题,并通过汇报交流增进了对智能数据工程技术的理解和兴趣。
图3 演讲嘉宾和主持人合影留念
主持人介绍:
漆舒汉,哈尔滨工业大学(深圳)副教授,博士生导师,鹏城实验室双聘研究学者,中国计算机学会(CCF)会员,CCF-多媒体专委会执行委员,YOCSEF(深圳)学术秘书。曾任新加坡国立大学访问学者,腾讯优图实验室高级研究员。在国际著名学术会议和期刊上共发表论文50余篇,其中包括SIGIR, ICME, TMM,TNNLS等国际一流会议和期刊。与此同时,还是多个著名国际会议及期刊的委员及评委,其中包括IEEE TMM,IEEE TNNLS,IEEE TKDE,IJCAI等国际一流期刊和会议的审稿人。个人主持科研经费超过600万元,当前主持国家自然科学基金2项,广东省自然科学基金2项,参与国家重点研发计划共2项,中央军委重点项目3项。
演讲嘉宾介绍:
杨泽洲,哈尔滨工业大学(深圳)计算机科学与技术学院硕士生,指导教师为高翠芸副教授。主要研究方向为自动化代码生成,辅助代码审查和模型压缩。
白岳霖,中国科学院深圳先进技术研究院硕士研究生,指导教师为杨敏副研究员。主要研究兴趣为信息检索、大语言模型的指令微调、可信性和复杂推理能力。