刘红, 吴远豪, 李析东, 吴迪, 陈思旭, 吴希昊
重庆邮电大学学报(自然科学版). 2025, 37(03): 405-416.
深度神经网络(deep neural networks, DNN)的知识产权(intellectual property, IP)保护引起了人们的普遍关注。已有的研究提出的查询修改攻击通过修改关键样本,可以使基于后门的DNN水印方法性能下降。防御工作将数据集内样本当作关键样本来抵御查询修改攻击,导致模型的性能随着关键样本的增多而下降。因此,提出将具有外部特征的样本作为关键样本来解决上述问题。在目标模型的训练过程中,将外源样本与训练样本组成混合样本进行训练,将外源样本作为关键样本嵌入到模型中。当攻击者使用查询修改攻击阻止关键样本触发后门时,该样本能够顺利触发后门,从而验证版权。为了阻止关键样本伪造,设计一种不可见水印嵌入与提取机制,将水印嵌入到关键样本中,只有通过水印验证的关键样本触发后门才可以声明版权。通过实验,所提出的方法对模型微调、模型剪枝、查询修改攻击都具有较高的鲁棒性,同时伪造的关键样本无法通过版权认证。