实验室简介

【优秀学生专访】对话优秀博士毕业生邹翔宇同学

发表时间:2023-06-09 20:41:35 来源: 作者: 浏览:

【文章导读】【优秀学生专访】对话优秀博士毕业生邹翔宇同学(焦小倩、曹源、刘洋/文)在“对话中心优秀学生”活动中,我们有幸邀请到了网络安全研究中心和计算机应用研究中心的邹翔宇博士。邹翔宇本硕毕业于山东大学和中国科学技术大学,目前是哈尔滨工业大学(深圳)计算机科学与技术学院在读博士,已完成毕业答辩即将正式毕业。他的主要研究为数据去重与有损压缩,曾在计算机体系结构领域顶会FAST和USENIX ATC以第一作者的身份发表论文。...

【优秀学生专访】对话优秀博士毕业生邹翔宇同学


(焦小倩、曹源、刘洋/文)在“对话中心优秀学生”活动中,我们有幸邀请到了网络安全研究中心和计算机应用研究中心的邹翔宇博士。邹翔宇本硕毕业于山东大学和中国科学技术大学,目前是哈尔滨工业大学(深圳)计算机科学与技术学院在读博士,已完成毕业答辩即将正式毕业。他的主要研究为数据去重与有损压缩,曾在计算机体系结构领域顶会FAST和USENIX ATC以第一作者的身份发表论文。谈及他的求学经历和科研生活,邹翔宇博士分享了自己的感受,也和同学们分享自己的经验。下面是通讯员与邹翔宇博士的对话。


Q:网络安全研究中心&计算机应用研究中心通讯员

A:邹翔宇博士



Q:学长的主要研究方向为数据去重与有损压缩,能否为我们简单介绍一下它的研究内容和应用场景,以及目前学长正在研究的方向是什么。


A:首先我来介绍一下这个研究方向吧。其实数据去重和有损压缩从某种程度上来说是具有插件性质的技术,它能运用到很多场景里去。比如说数据存储系统会需要一台服务器来专门对外提供数据存储服务,那在这里面我们就会运用数据去重技术,来降低存储规模,最终降低存储成本。

还有在做大规模HPC场景的科学计算,数据库,或者分布式网络训练它的系统本身就包含了非常多的I/O过程。比如说HPC场景下做科学仿真,每10秒钟产生的数据量有260TB,I/O负担非常大,I/O耗时甚至比计算耗时还要长,所以需要压缩技术来减少I/O耗时。再比如说分布式训练,它是在不同节点之间对各自的训练结果进行同步,这部分网络传输其实系统里面占有较大开销,所以我们能不能通过数据压缩技术来有效降低中间传输开销,使系统运行更快。

总体来讲,我觉得数据去重和压缩技术是让系统高效运行的方法。我目前正在做的一系列工作就是寻找一些场景,分析系统里面存在什么瓶颈,然后尝试通过这种数据压缩技术来缓解这个瓶颈,最终使系统更高效地运行或者降低运行成本。


Q:数据去重与有损压缩是一个偏向应用的领域,学长也参与了一些发明专利的过程,请问学长在研究落地转化的过程中,取得了哪些成果,面临的最主要的问题又有哪些?


目前我的研究成果有一些应用在了企业产品里面,还有一些是在国家实验室的科研项目里面。在技术落地时,其实不同场景下面临的问题是完全不一样的。

如果是在产品里面的话,它会有更多的限制。作为一个企业,它本身有成熟的产品,在应用新的技术前,首先考虑的不是这个技术好不好,而是应用它要付出多大的成本,它对我的系统影响有多大。如果应用新的技术需要推翻整个系统重新做,那肯定是不会采纳的。所以对于企业来讲,可能更希望去一个聚焦于局部的东西,这样做起来复杂度不会太大,企业也能立刻拿到效果。企业做事情还是非常考虑投入产出比的,包括负责项目合作的员工也一样,大家都希望投入更少的精力和资源收获更多的效果。改动越大的东西企业就越不愿意做,尤其是对于数据存储产品来说。因为数据存储产品的第一要务实际上是不要丢数据,别的产品如果有bug,可以解决bug了再重新运行。但数据存储产品出问题可能数据就丢失了,这对用户来讲是非常致命的,所以企业就会更保守一些

而在开源项目里面就完全不一样。一般开源项目里面做贡献的人其实很少,项目本身的各种改进需求也会比较大,如果你能去帮他们增加一个功能做个什么改进,他们就很开心,因为相当于多了个帮手。但问题是,如果后续这个功能出了bug或者新增了与它相关的其他功能,也需要你一直去跟进维护,也是比较消耗精力的。所以这面临的是另外一种困难。


Q:学长可否介绍一下您的求学经历——由于哪些机缘促使您选择了目前的研究方向并加入哈工大深圳计算机学院?能否分享一下您的求学之路上最难忘的记忆?


A:其实我的经历我还比较特殊。我硕士是在中国科学技术大学就读,快毕业的时候去企业实习了很久,其实那时候不打算读博士。然后在实习的时候正好遇到了我现在的导师夏老师,我就跟着夏老师在企业里大概干了半年,夏老师后来会学校任职的时候也顺带问了我要不要读博。这个时候我和夏老师已经有了对一段时间共事的经历,互相比较了解,而且因为我在企业里也对数据存储这个研究方向也比较熟悉了。这样考虑到人际关系、研究内容等各方面都比较合适,所以我就来到了哈工大深圳计算机学院继续读博士。

对我来说继续求学本身就是一个比较有意思的一个过程。在我原本的规划中,我可能在硕士毕业的时候就会去企业工作,结果一系列机缘巧合之下来到了这里继续读博士。推翻自己设想的未来的样子再重新做规划,对我而言就已经很神奇的事情了。


Q:学长在科研路上有遇到过什么困境吗?最终坚持下来的动力又是什么。


A:在科研中我觉得大部分人都会面临的问题,就是我该研究什么问题,然后对于这个问题我该怎么做。我是19年秋季入学,刚入学没多久就来疫情,只能待在家里没法来学校。那个时候是20年春季,就是疫情刚开始的时候,因为那段时间也没法跟别人接触,就会感觉非常焦虑,常常觉得自己的一天好像啥也没干,就会想自己该咋毕业该干点啥。那段时间就比较焦虑。因为晚上的时候一般而言人的情绪都会榕意比较低落嘛,所以有时候就半夜想来想去睡不着。那时候我就干脆起来看论文,觉得既然睡不着就起来随便看看各种论文,大不了等困了再睡觉,就一直保持这样的心态。那段时间一直看论文确实收获比较大,有些确实给后面的研究带来的灵感,但也有些方向后来也没有去涉及。

所以我在读博士期间确实会有对未来比较焦虑的一个过程,如何走出去也是自己慢慢适应压力吧。


Q:学长在科研之余有什么兴趣爱好吗?您是如何平衡科研与生活的?


A:我也没什么具体的爱好吧,有时候感兴趣的东西太多什么都想去试一试。我自己是属于干一个事情,就会比较投入的那种。干活的时候,写代码我就一直写,可能不想写的时候我就玩儿。但无论是工作也好,玩也好,可以持续性的保持比较专注的状态,我觉得对研究来讲是比较重要的。平常我有时候做研究也会弄到很晚,调bug调不好就不想睡。搞出点啥结果半夜几点给夏老师发消息。夏老师也觉得我这个作息不太好,所以在平衡科研和生活中,我其实不是好的例子。


Q:学长可否分享一下自己未来的规划?


A:其实我正在申请咱们学校的教职,目前有留校任教的想法。


Q:最后,学长对想要从事学术研究的同学们有什么建议和经验分享吗?或者说您认为他们需要具备什么样的素质。


A:我也不敢说有什么经验,因为做研究这种工作的特性就决定了,每个人都要踩出自己的道出来,我只能说说我觉得什么更重要。从我观察来看,我们这个领域,它做实验需要的代码量是很大的,可能很多时间都要投入到写代码的过程中。比如我刚来的时候,因为我是夏老师这边的第一个博士生,测试平台那些代码全都要从头写,大概有小半年时间我就在写代码去搭建一个实验框架,要不然的话什么实验都做不了。那在这个过程中你需要长期面对比较单一无聊的事情,也看不到什么产出。只有你自己知道我今天完成了多少工作,因为整个体系比较大而且代码写完还要调试跑通,在测试中不断地修正出现的问题。给导师汇报的时候实际上我也不知道这个工作量到底还有多少,因为代码写了哪些部分是直观的,但是里面还有多少问题是不好估计的。其实整个过程都是在自己与自己打交道,有时候会想到搞了这么久的东西里面还有各种问题会有比较大的挫败感。

做研究的过程其实可能也差不多吧。从最开始想到一个idea做实验实现它,再到最后写文章发表出去,这整个过程中其实大家关注的都是发表出去之后的事情,在发表之前做的事情都是很难被感知到的。做到每个步骤的时候,都很难去估计我到底做到了什么样的进度,后面到底还有多长的路。所以在研究过程中就面临着这样的问题,在你完成整个过程前,你迟迟收不到第一份正反馈,可能对个人而言就会更难坚持下去。当然如果我有信心我投入这项工作的努力最终可以得到回报,当然更容易继续研究下去。但实际上在科研工作中,我做了这么多事情,很大程度上最后的结果是不确定的,就像我自己可能也投入过一些研究方向,写了一些代码,最后发现它没什么用,就只能丢在一边,所有工作就白做了,这是非常正常的事情。

所以做研究的过程中,尤其是在做第一个工作的时候,一方面需要克服这种心态,另一方面也需要一点点运气。我投入了这个时间和经历去认真做一件事,到我最后真正得到回报可能会很晚,甚至也可能它不会来。一项工作不停地投稿又不停地被拒绝,最后搞个两三年,这都是常有的事情。所以怎么样来让自己坚持到第一份正反馈到来,是非常重要的。

所以需要具备的素质的话,一方面就是像我刚才说的,可能研究工作的投入会非常的大,一定要有耐心去等待汇报产出。另一方面需要善于发现问题。我之前也听很多老师讲过,我们在学习一个东西的时候要反复的提问,这个东西是这样子,那为什么它会是这样。这种方式可能更加能够帮助我们来寻找到哪里有问题。因为实际上很多系统的设计它都是有历史原因在里面,可能以前的我们的硬件或者以前的系统结构是这样,现在经过很多改进后就完全变样了,我们重复问这样的问题的话,就有帮助于我们看目前还能做些什么工作。




邹翔宇博士在自己的工位上



生活中的邹翔宇博士