港科大褚晓文:医疗场景下的 AutoML ,模型参数量更小、分类准确率更高
2025-07-11 07:48:39 - 风事爆
探索 AI 和医学结合更多的可能性,是医疗机器智能增长的一个关键命题。
AutoML 作为近年来备受瞩目的场景参数概念之一,被视为解决运算规则工程师来提高训练模型效率的模型一个工具,在工业、量更类准农业、确率零售等诸多场景中均有被使用。港科更高
而随着 AI 在医学影像分析、大褚医疗决策、晓文下的小分个人就诊助手等场景领域的医疗广泛应用,AutoML凭借其智能化、场景参数自动化等特性,模型也引发了越来越多研究团队开始思考:如果将其放置在医学场景下,量更类准是否也能获得不错的结果?
褚晓文,香港科技大学(广州)信息科学与分析学域正教授,由他所带领的团队也是这条探索路上的分队之一。
近日,褚晓文将在 IEEE x ATEC 科技思享会上进行题为《 AutoML 在基于胸部 CT 影像的 Covid-19 辅助鉴别中的应用》的主题演讲,解析 AutoML 的基本概念和核心工艺,并通过他们近两年的相关工作,介绍 AutoML 在医疗影像领域的潜在应用。
通过强大的算力解锁复杂场景信息,AutoML 能够极大地减轻医生工作量,实现更加智能化的计算机辅助鉴别,提供更准确的酒店门事件完整版决策依据,在一定程度上提高了诊疗效率,精准节省医学成本。
AutoML + 医学
从病症辅助鉴别诊疗、慢病风险预测,到广泛的亚健康智慧康养,AI 工艺的出现和广泛应用,驱动传统医疗研究迈进了全新的阶段。作为「AI +医学」的一个关键研究方向,「AI +医学影像」的工艺日趋成熟,在覆盖病种数量、鉴别速度和准确性等方面也不断地实现突破。
图注:褚晓文
褚晓文,1999年于清华大学计算机科学与工艺系获得学士学位,2003年博士毕业于香港科技大学计算机科学系。2003年到2021年,他在香港浸会大学计算机科学系任职助理教授、副教授、正教授,现任香港科技大学(广州)信息科学与分析学域正教授。
他研究兴趣包括 GPU 计算、分布式机器学习、云端服务和无线网络等,在各种国际学术期刊和会议中发表论文200余篇,谷歌H指数为46,论文引用7900余次。曾获得 2021年 IEEE INFOCOM、2021年 DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom等国际会议的最佳论文奖,是IEEE资深会员和ATEC 2021高级咨询委员会专家。
褚晓文和研究团队从2018年开始对 AutoML 调研,使用 AutoML 应用于医学场景下的研究。
2019年年末,一场突如其来的疫情席卷了全球, Covid-19 的出现给人们的生活按下了暂停键。Covid-19 的检测鉴别方法主要包括了核酸检测和基于医学影像的人工鉴别,二者各有利弊,核酸检测耗时较长、且又需要专用的测试盒,而基于医学影像的人工鉴别则十分依赖专业知识,分析耗时较长并且还难以发现隐匿病变。
褚晓文和研究团队开始考虑是否可以通过使用 AutoML 来辅助鉴别 Covid-19 检测,提高检测效率。随着X射线图像和计算机断层扫描图像信息集的相继提出,褚晓文与香港浸会大学的博士研究生贺鑫在已有图像和信息集的基础上构建基于深度学习的 Covid-19 检测鉴别模型,总结 Covid-19 检测鉴别的主流影像信息集和相关评价指标。
此外,在论文“Survey of Studies of COVID-19 Diagnosis Based on Deep Learning”中,褚晓文和研究团队从模型任务和影像信息类型两个角度出发,还介绍了现有的 Covid-19 检测鉴别模型,并对骨干网络、信息集、影像类型、性能表现、分类种类和开源情况六个维度进行比较与分析。
目前,深度学习在基于胸部影像的 Covid-19 辅助鉴别中得到广泛应用,各种人工设计的深度学习模型在不同的 Covid-19 信息集上表现各异,缺乏一种通用的适用于不同信息集的神经网络结构,同一个模型在不同场景中的适用程度也不相同。
AutoML 在 Covid-19 辅助鉴别中的应用,旨在给定信息集上自动搜索一个高效的神经网络模型,可以大大减少繁复的人工设计和调优过程,将科学家们解放出来去做更有意义的事。
为了解决基于权重共享的网络搜索策略中的稳定性问题,褚晓文和研究团队提出一种有效的进化多目标结构搜索框架。此外,针对信息集匮乏的问题,他们还提出了一种集成自动信息增强和自动网络搜索的新框架,这一框架在三种公开 Covid-19 信息集上均取得了优异的性能。
为了进一步理解褚晓文教授在 AutoML 的研究工作,AI 科技评论同他进行了一次深入对话。
对话褚晓文
AI 科技评论:在 Covid-19 的辅助鉴别中,您使用的是开源的点工具还是平台?目前预测效果如何,在哪一个任务的应用效果更好?
褚晓文:我们基于微软亚洲研究院开发的 NNI(Neural Network Intelligence)早期版本搭建了自己的分布式AutoML框架,重构了一些基础模块,使得各个模块复用性更好。后面一些研究工作也都是基于这套框架完成的。
目前,我们主要是在CT信息集上进行了图像分类的任务,实验结果显示,使用 AutoML 搜索到的深度学习模型不仅参数量更小,而且分类准确率也比流行的卷积神经网络更高。此前 NVIDIA 研究团队利用 AutoML 在医疗影像分割任务上也取得了很好的效果。
AI 科技评论:Covid-19 的特点是其快速传播能力,这也意味着使用 AutoML 研究的图像集也在不断扩大,训练信息集需要不断地扩充。对于这一点,您和团队是怎么解决的?如何提高模型的泛化能力?
褚晓文:AutoML可以看成是超参优化(HPO,Hyper-paramter optimization),神经架构搜索(NAS,Neural architecture search),信息增强(DA,data augmentation)等方法的集成,但目前我们更多聚焦在 NAS 方面的研究,也即是使用 NAS 针对特定信息集或任务、去自动搜索模型的结构和超参数。
但医疗信息集比较特殊,涉及到隐私问题,所以前期信息集的大小和数量都不是很充足,并且还存在类别不均衡的问题。Covid-19 信息集规模扩大,反而能更好地帮助我们搜索更优的模型。目前,我们也在尝试将 DA 和 NAS 结合起来进行搜索,希望得到更好的模型泛化能力。
AI 科技评论:针对信息的噪声和不一致性等难点,您和团队是怎么保证运算规则的准确性和高效性呢?
褚晓文:此前,我们的工作主要是基于 Covid-19 3D CT信息集,其常见的信息噪声表现包括切片中不包含肺、切片顺序错误或者重复等。对于这些信息噪音,我们主要采用人工的方式来修正。自动化信息清理本身也是一个关键的研究课题,但关于这方面的研究我们还没有开展。
针对信息不均衡的情况,我们采用的是信息增强和调整采样频率的方式来解决。
而在信息不一致方面我们发现,信息集的质量对识别精度的作用甚至要高于模型本身的作用。通常要找一个人工设计的深度学习模型去适配所有信息集很难,因此我们觉得,利用 AutoML 工艺针对某个特定的信息集,例如来自同一诊所同样设备及同一地域病人群体的信息集,去搜索同信息集相对应的模型,会是 AutoML 一个很好的应用场景。
AI 科技评论:目前在系统的部署环节上难度如何?考虑到更大规模和多个病人的鉴别需求,您此前在分布式机器学习(联邦学习)上的研究有没有带来哪些灵感?
褚晓文:目前,由于缺乏和医疗机构之间的合作,我们还没有在真实场景中去测试模型性能。但在公开信息集的实验中我们发现,AutoML 能够搜索到参数量更小而且分类准确率更高的模型。
我们也尝试研究过联邦学习在 Covid-19 鉴别上的应用,模拟在几个信息孤岛上进行联邦学习,结果显示,质量较差的信息孤岛的确能够受益于联邦学习,但高质量的信息孤岛却很难有性能提升,甚至有可能被其他信息集所拖累。这是一个非常有趣的课题,我们将来也会更加深入地去研究。
AI 科技评论:您的主要研究方向是什么?取得过哪些突出成果?
褚晓文:目前我主要的研究方向是高性能机器学习系统。得益于我在 GPU 计算和分布式计算领域的研究经验,我们是较早关注大规模分布式机器学习的团队之一,2016年研发了世界上最早开源的深度学习基准测试系统之一 DLBench ,在学术界和工业界都引起较为广泛的关注。
之后,我们团队又和一些企业合作研发了系列分布式训练的原创性工艺,于2018年使用2048张 GPU 在 ImageNet 信息集上实现了图像分类任务的全球最快训练速度。
此外还设计和实现了多种分布式机器学习训练的通信优化方法,在国际会议 IEEE INFOCOM、IEEE ICDCS 和国际期刊 IEEE TPDS 发表过多篇学术论文,并获得 IEEE INFOCOM 2021年的最佳论文奖。
AI 科技评论:您从什么时候开始使用 AutoML 做研究的?期间一共经历了哪几个研究阶段?
褚晓文:2018年,我们开始对 AutoML 调研,它最具吸引力的地方就正如其名——自动机器学习,这是一个非常美好的期许,可以把科研工作者和工程师从枯燥的调参过程中解放出来,去做更有意义的事。
目前我们在 AutoML 方面大概经历了几个阶段:
第一,通过调研现有的 AutoML 相关工艺,我们参考300多篇相关文献完成了一篇 AutoML 的综述论文,它是国际著名期刊 Knowledge-Based Systems 近三年来引用和下载最高的论文之一,对AutoML的普及起到了一定的促进作用。
第二,在正逢 NAS 研究热度高的时候,我们在不同的任务上验证了 NAS 的有效性,包括医学图像分类和生成对抗模型。
在那之后我们还做了一些工作,尝试去更本质地认识模型结构对性能的作用,另外也尝试从系统设计的角度去提高 AutoML 的效率和可扩展性。
AI 科技评论:医学场景是您的第一选择么,最初面向的是哪一个医学场景或哪一种人体病症?
褚晓文:我们团队尝试医学场景的研究始于2018年。当时,香港发生了一起由皮肤病引起的社会悲剧,我从媒体上了解到,香港的公立医疗体系内只有30多位皮肤科专科医生,但同一时间的轮候病人却达到5万多人。这个对我的触动非常大,也正因如此,我开始思考是否可以通过机器智能的方法来解决皮肤病鉴别的问题。
后面我们从互联网上搜集了很多相关的信息,也取得了一些初步成效。但受限于图片的版权问题,目前我们已搜集和清理的信息集无法对外公开,这个方面的研究也停留在学术层面。
AI 科技评论:当前医学场景对 AutoML 提出了怎样的要求,研究难点是什么?
褚晓文:由于医学信息比较敏感和隐私,所以通常很难拿到大量的信息集;与此同时,有经验的医生时间成本很高,这也导致高质量的信息标注工作非常困难,如何在有限的信息集上使用 AutoML 搜索到泛化性能好的模型是一个不小的挑战。
另外,我们还需要避免信息隐私泄露,例如 Model Inversion Attack 能够逆向获取原始信息,因此,使用 AutoML 搜索出更保障的模型也是未来一个值得关注的方向。
AI 科技评论:当前 AutoML 在医学场景中的应用距离临床阶段还有多远?
褚晓文:AutoML 是一个新兴的工艺,增长很快,但其本质上还是属于机器学习和深度学习的范畴,只是利用了新的优化方法和大量的计算资源来取代传统的人工设计和调参,离部署到实际应用中还有一定的距离,并没有拉长或缩短机器学习和临床阶段的距离。
由于 AutoML 是多个流程组成,但目前大多数研究往往只是针对单个流程,比如 NAS 或者 DA 。其原因在于,当使用多个流程一起搜索时,会导致搜索空间的指数级增长,如何在巨大的搜索空间中高效搜索到优秀的模型和信息增强策略仍是一个不小的挑战。
此外,如何厘清机器智能医疗器械相关的法律和伦理问题,也是一个富有挑战性和迫切性的课题。
AI 科技评论:您之后是否有计划将 AutoML 使用在其他领域或场景的研究中?
褚晓文:目前,我们团队已经开始把 AutoML 工艺使用在智能驾驶场景的感知问题中,希望能够搜索出既满足模型精度要求,又满足推理实时性要求,同时还能符合硬件约束的轻量级模型。
(雷峰网雷峰网(公众号:雷峰网))
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
外交部:美对铜加征关税不符合任何一方利益

财联社7月10日电,据央视新闻,当地时间7月9日,特朗普宣布对铜征50%关税。今天,中国外交部发言人毛宁对此表示:这个问题我们立场非常明确,我们一贯反对泛化国家安全概念,我们也始终认为关税战、贸易战没
印度一桥梁断裂坍塌 死亡人数升至13人

总台记者当地时间7月10日获悉,印度古吉拉特邦一座桥梁9日发生断裂坍塌,有多辆车坠入河中,目前已造成13人死亡。总台记者 魏可枫)
尹锡悦再被捕,或“牢底坐穿”

韩国首尔中央地方法院10日凌晨签发对前总统尹锡悦的逮捕令。负责调查紧急戒严事件的特检组随后实施逮捕。这是尹锡悦获释4个月后再次被捕。当地时间2025年7月9日,韩国首尔,韩国前总统尹锡悦中)抵达法院,
老师因学生志愿未报清北解散群聊?校方通报

情况说明7月6日,网帖反映我校22209班班主任漆某芳老师“对学生填报志愿发表不当言语”。我校立即调查核实,现将有关情况作如下说明:高考成绩公布后,漆某芳老师根据3名学生的高考成绩和与家长沟通的情况,
周伯文:下一代大模型 OS,工具和语言缺一不可丨GAIR 2023

作者丨孙溥茜编辑丨陈彩娴编者按:2023 年 8 月14日,第七届 GAIR 全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主
乌克兰声称已拘留两名中国公民 外交部回应

财联社7月10日电,据环球时报,有记者提问称,乌克兰昨天表示已拘留两名中国公民,指控他们试图将导弹技术走私出境,请问中方对此有何评论?对此,发言人毛宁表示,我们还在核实了解有关情况,如果涉及中国公民,
相声演员杨少华去世,曾登上春晚

9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭
相声演员杨少华去世 享年九十四岁

来源:北青娱见[相声演员杨少华去世 享年九十四岁 ]今天下午,记者在相声演员@苗阜 、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世享年九十四岁。北青报王磊 07M)杨少华,1931年出生于北京
马斯克的Space X卫星被破解,25美元的工具就能入侵终端,篡改运行任意代码,攻击手法已公开

对于黑客来说,电脑可以破解、游戏机可以破解、手机可以破解,那远在天上的卫星可以破解吗?答案是可以的!而且被破解的还是世界首富马斯克旗下Space X星链计划中的卫星。破解星链卫星的小哥来自来自比利时鲁
TikTok正开发仅面向美国用户的独立应用?TikTok回应

当地时间7月9日,TikTok发布公告称,路透社最近发布的一篇基于匿名、不知情信源的“独家”报道与事实不符。上述报道称,TikTok正在开发一款仅面向美国用户的独立应用程序,将“使用与全球版本不同的算
华熙国际赵燕引领华熙 LIVE,一城一特色书写城市商圈新篇章

来源标题:华熙国际赵燕引领华熙 LIVE,一城一特色书写城市商圈新篇章2025年6月,刀郎“山歌响起的地方”巡演重庆站在华熙LIVE・鱼洞掀起热潮,这座西南文体地标以&ldqu
抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限

来源标题:抖音精品喜剧系列短剧全数上线,喜人卡司领衔主演笑点无限近日,抖音联合美团出品的精品喜剧系列短剧《葬礼后我竟成大哥卧底》正式上线。自今年年初起,由《喜人奇妙夜》高人气演员参演的《陛下,你走错片