Abstract
当前Deep Saliency Detection方法的成功在很大程度上取决于每像素标记形式的大规模监督的可用性。这种监督通常需要大量的标注(labor-intensive)而且并非总是可能,往往会妨碍学习模型的泛化能力。相比之下,基于Unsupervised Saliency Detection方法的传统手工特征,即使已经被deep supervised methods超越,通常也是数据集独立的并且可以在wild应用。这提出了一个自然的问题:“是否有可能在不使用标记数据的情况下学习saliency maps而改善泛化能力?”。为此,我们通过学习由“weak”和“noisy” unsupervised handcrafted saliency methods产生的多个噪声标记,对unsupervised saliency detection提出了一种新的视角。我们用于unsupervised saliency detection的端到端深度学习框架包括latent saliency prediction module和noise modeling module,它们协同工作并联合优化。显式噪声建模使我们能够以概率方式处理噪声显著图。各种benchmarking数据集的广泛实验结果表明,我们的模型不仅优于所有unsupervised saliency detection方法,而且具有较大的优势,而且与最近的supervised deep saliency方法相比也达到了相当的性能。
Motivation
非监督方法虽然在性能上比不过监督方法,但是通常是数据集独立的,可以应用到自然环境中。一些现有的非监督方法的结果虽然有噪声,但是却包含有用的信息。
Framework
本文提出一种新颖的unsupervised saliency detection的端到端深度学习框架,从别的非监督方法产生的结果进行学习,这些结果通常带有noise,因此本文提出y = y’ + n的思想,学习一个潜在的显著性预测模块和一个噪声模块。
损失函数的设计
分成两部分,最终的损失函数,是显著性预测模块的损失函数加上噪声模块的损失函数,同时用一个正则化因子进行权衡。
在显著性预测模块,直接使用已有的非监督方法的预测结果,与本方法的预测结果使用交叉熵损失。
在噪声模块,假设噪声服从$N(0, \sigma)$。然后使用已有的非监督方法的预测结果建模$p(\sigma’)$,然后迭代优化$q(\sigma)$.
训练策略:第一轮训练,对noise model进行零方差初始化,训练FCN到收敛。
Experimental Results
*基于DeepLab network(ResNet-101 in particular)进行实验。在7个数据集上进行测试,同时与监督和非监督的SOTA方法进行了对比。值得一提的是,这里设计了3个baseline: *
- BL1: using noisy unsupervised saliency pseudo ground truth
- BL2: using averaged unsupervised saliency as pseudo ground truth
- BL3: supervised learning with ground truth supervision
Inspiration
本文的一个主要思路就是从问题的本质出发,认为尽管一些非监督的方法不准确,但是实质上应该转化为真值与noise的组合,然后分别进行建模。建模方式中通过使用cross entropy损失,然后想办法让noise进行逼近就可以了。