近期,我院硕士生魏琳森同学与其导师吕绍高教授以及校外学者合作在半监督学习方面取得重要的结果。所撰写的论文被人工智能领域SCI权威期刊IEEE TNNLS录用,论文题目为“Improved Inference for Imputation-Based Semi-supervised Learning Under Misspecified Setting”,其中第一作者是吕绍高,第二作者就是魏琳森,南审作为第一单位。 IEEE TNNLS英文全称:IEEE Transactions on Neural Networks and Learning System,科学引文索引影响因子为8.793,中科院分区一区(南审特别奖励期刊),以及汤姆森路透社分区Q1区的顶级期刊。
半监督学习的数据结构是指我们可以获取大量的无标签数据,只有少数的标签数据。标签稀缺学习问题在实际生活经常遇到,因为采集到标签数据往往需要花费大量的物力与人力。在半监督文献中,许多半监督学习算法被提出来,试图从大量的无标签数据开发出有用的信息。其实著名的自编码深度学习就是半监督学习的一个特例。然而一个基本但是重要的问题是:无标签的数据在什么场景下包含有用的信息?如何开发这些信息?已有的研究试图从数据的低维结构或聚类结构来解释无标签的价值,但是仍然无法回答超出这两种结构之外的情形。为此半监督学习算法的有效性在人工智能领域引起了不少争议,急需要给出一个具有普适性的半监督学习的理论解释。
该论文的主要贡献在于在很弱条件下(模型误指定),提出了一个简单有效的两阶段半监督学习方法。从统计学的渐近理论上了证明了无标签数据可以使得非参数估计量的渐近方差比对应的监督学习要小的多,进而说明了该提出的半监督学习可以产生更稳健的学习器。另外从大量的数值实验验证了我们的理论发现。该论文得到了编辑与三个匿名审稿人的高度认可,现已经在IEEETNNLS期刊的Early Access 在线发表。