admin 管理员组文章数量: 1086019
学习笔记:Improved Techniques for Training GANs理解
论文链接:.03498
这是一篇对GAN的训练作出改进的文章,众所周知,GAN的训练是极其不稳定的。转载请注明。
1 主要内容
对GAN网络提出一些改进的体系特征和训练过程,然后把这些改进应用到半监督学习以及提高生成图像质量的领域上。
2 模型改进
2.1 feature matching
问题描述:生成器和判别器其实是在寻找一个纳什均衡,但梯度下降算法适应于损失函数是一个凸(凹)函数的情况,如果应用梯度下降算法,且生成器和判别器使用同一个目标函数,很有可能是此消彼长此长彼消的情况。
因此为了解决不稳定的情况,作者提出了为生成器寻找另一个目标函数的方法。新的目标函数,利用判别器的中间层的输出,使 得生成图片的特征与真实图片的特征相匹配.直观上判别器的中间层其实是一个特征提取器,用来区别真实图片和生成图片的特征,作者认为这种特征的差异是值得生成器学习的。因此生成器的目标函数为,f(x)表示判别器的中间层的输出。
2.2 minibatch discrimination
问题:生成图片单一的一个主要问题在于生成器的参数设置上,也就是说生成器把不同的z映射到了相同的点,当这种情况发生时,判别器由于只单独考虑一个点,所以只会对于这些相似的点,指出相似的优化方向,因此相当于没有考虑点与点之间的相似情况,也不会告诉生成器下一步优化时使得这些点不相似。因此作者提出判别器应该考虑多个点,而不是独立的计算每个点的梯度。具体方法如下:
fi表示,以第i个x为输入得到的长度为A的特征;乘以一个张量,得到矩阵,然后计算,相当于计算与其他点的距离,b指M的第b行,然后得到如下:
将f(xi)和o(xi)concat,作为下一层的输入,其他的和原始的GAN是一样的。
3半监督学习应用
将判别器定义成一个分类器,真实图片有K 个分类,把生成图片作为第K+1类,那么分类器的维度就变为K+1,分类器的损失函数为: 实际上 相当于原始GAN的判别器,可以作为生成器的损失函数,也就是在训练分类器的同时也可以训练生成器。4生成图片评估
4.1MTurk
类似于图灵测验,选定一部分人,将真实图片和生成图片掺杂在一起,这些邀请人需要逐个指出给定图片是真实的还是生成的。这种方法是不可靠的,因为人的判断极易受实验设置以及反馈信息的影响。
4.2 inception score
作为图灵测验的一个替代标准,作者提出了一个inception model,这个模型以生成图片x为输入,以x的推断类标签概率为输出。作者认为良好的样本(图像看起来像来自真实数据分布的图像)预计会产生:
低熵:即高预测置信度,好样本应该包含明确有意义的目标物体。
高熵即高度变化的预测,这是一个边际分布,也就是说所有的x应该尽量分属于不同的类别,而不是属于同一类别。
因此,inception score定义为。
5 实验
5.1 MNIST数据集(在半监督分类训练的结果)
分类错误的样本数量
生成图片的质量(左边是把第一个改进应用到半监督里的生成器,右边是第二个改进)
实验验证feature matching的分类错误率比minibatch discrimination的效果要好,但是生成图片质量却不如它(不知为何,将来的工作)
5.2 CIFAR-10(同MNIST)
Inception score
5.3 SVHN
5.4 ImageNet
数据集的图片的分辨率是128*128,由于图片的多样性,所以传统的GAN网络效果并不是很好,没有较高的分辨率,没有明确的物体,左边的是DCGAN,右边是使用本文提出的改进方法得到的图片,可以看出模型学到了一些可辨识的特征,比如眼睛鼻子,但是并不能正确地组合在一起。
6结论
生成对抗网络的缺点在于不稳定的训练以及缺乏适当的评估指标。在本文中作者提出了几种技术来稳定训练,并且提出了一个评估指标(初始评分)作为比较模型质量的基础。作者指出在今后的工作中需要讨论更加严谨的理论认知。本文标签: 学习笔记Improved Techniques for Training GANs理解
版权声明:本文标题:学习笔记:Improved Techniques for Training GANs理解 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1693409956a220298.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论