摘要
在深度学习中,正则化是防止模型过拟合和提高模型泛化性能的重要工具.知识蒸馏(Knowledge Distillation,KD)是一组由一个模型生成的软标签作为监督信号去指导另一个模型的相对较新的,流行的正则化方法.首先,给出了KD正则化的基本知识并将现有的知识蒸馏正则化分为两大类,即正向蒸馏和互蒸馏.对每种类型,都详细介绍了关键的组成部分和代表性方法.其次,比较了这两大类正则化方法的优缺点并在图像分类上评估了模型的泛化性能.同时,也为特定的任务和场景选择合适的KD正则化方法提供了指南.最后,总结了KD正则化方法存在的关键性挑战并讨论了将来的研究方向.
关键词
知识蒸馏 /
模型泛化 /
过拟合 /
正则化
中图分类号
TP18
/
TP391.41
王雪纯.
知识蒸馏正则化方法研究(英文). 新疆大学学报(自然科学版中英文). 2023, 40(05): 534-542+549 https://doi.org/10.13568/j.cnki.651094.651316.2023.02.26.0002
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
基金
supported by subproject of the Regional Innovation Joint Fund “Theory and methodology of reasonable personalized recommendation based on graph neural networks”(U19A2079)