【专家简介】:刘军民,博士,西安交通大学数学与统计学院教授、博士生导师,主要从事应用数学、统计机器学习、图像处理等交叉学科方向研究。近年,以第一作者或通讯作者在相关领域的国际著名期刊(例如:IEEE TPAMI、JMLR、等)和国际会议(例如:CVPR、IJCAI、等)发表论文60余篇,Google学术引用2800余次;申请发明专利13项,出版专著1部;主持科技部重点研发项目子课题、国家自然科学面上项目、青年项目、陕西省杰出青年基金项目等20余项;为中国认知科学学会认知与类脑计算专委会委员、中国图象图形遥感图像专委会委员、中国现场统计研究会机器学习分会理事、中国工业与应用数学学会、中国运筹学学会等学会会员;曾获陕西高等学校科学技术研究优秀成果奖一等奖等奖励。
【报告摘要】:过去十年,深度神经网络(DNNs)在图像分类、机器翻译和语音识别等领域获得了巨大成功。在DNNs的训练过程中,优化器(例如:随机梯度下降SGD)扮演着重要角色,决定了网络参数的更新;不同的优化器对收敛速度和最终解的质量有着显著影响。然而,优化器的重要性与DNNs模型泛化之间的关系仍未完全阐明。为了探索这一问题,我们提出了一种新的优化器:SALA,旨在提升模型训练的速度和泛化能力。SALA将训练过程分为两个阶段:第一阶段通过优化轨迹的二次近似确定朝向平坦解的方向;第二阶段则利用锐度感知最小化(SAM)进一步优化解的质量,从而有效提升泛化能力。理论分析和实证结果表明,所提出的SALA算法其计算开销比基优化器多出约25%,但其泛化性能可与SAM相媲美。
【报告时间】:2025年03月04日 16:00-17:00
【报告地点】:位育楼417