admin 管理员组

文章数量: 1184232

Prior

Prior-Induced Information Alignment for Image Matting

Abstract

  1. 作者提出了一种新的网络——先验诱导信息对齐抠图网络(PIIAMatting),它可以有效地模拟像素级响应图之间的区别和层级特征图之间的相关性。
  2. 它主要由动态高斯调制机制( Dynamic Gaussian Modulation mechanism (DGM))和信息对齐策略 ( Information Alignment strategy (IA))组成。
  • DGM
    • DGM可以动态地获取从先验分布中获知的像素域响应图。响应图可以呈现训练期间不透明度变化(opacity variation)和收敛过程(convergence process)之间的关系。
  • IA
    • 信息融合模块包括信息匹配模块( Information Match Module IMM)和信息聚合模块(Information Aggregation Module IAM),联合调度以自适应地匹配和聚合相邻的分层特征。
  1. 还开发了多尺度细化( Multi-Scale Refinement (MSR) MSR)模块,在细化阶段整合多尺度感受野信息,以恢复波动的外观细节

  2. 在Alphamatting.com, Composition-1K and Distinctions-646数据集上达到最优

INTRODUCTION

matting问题

  • 给定一个图像RGB(3值)求解前景F(3值),背景B(3值)和Alpha(3值)【已知三值,求解7值】
  • 自然图像抠图本质上是计算图像中每个像素的不透明度(opacity)
  • 早期工作在三分图(trimap)的辅助下尝试使用颜色分布来解决matting问题,但容易导致模糊或者块状的伪像(blurred or chunky artefacts)
  • 域不均衡和信息差异会导致图像抠图所需的细节丢失
  • 另一方面,连续采样操作可能会产生信息差异,并恶化边界的细节。因此,作者认为,有偏的像素分布和信息差异都可能对像素回归和采样传播产生负面影响,导致alpha mattes不足。

contributions

  • 提出了一种动态高斯调制机制(DGM),它可以根据从先验分布中学习到的域响应图将自适应响应分布到每个像素。这种机制对于高度半透明的像素非常有效,并且可以稳定训练过程。
  • 提出了由信息匹配模块(IMM)和信息聚合模块(IAM)组成的信息对齐策略。通过匹配和聚合两个相邻分层特征的特征,以致力于保留细节。
  • 实验结果表明,该方法能够在三个数据集上取得最佳性能,证明了该方法的有效性和优越性。

RELATED WORKS

-------- Sampling-based methods(基于采样的方法)

  • 该方法收集一组已知的前景和背景样本,以找到给定像素的前景和背景的候选颜色。

-------- Affinity-based methods·(基于相似性的方法)

  • 基于相似性的方法利用相邻像素的相似性将已知的阿尔法值从已知区域传播到未知区域,虽然可以获得成功的alpha mattes,但它们通常会遇到高计算复杂性和内存限制的困难。

-------- Deep learning-based(基于深度学习的方法)

  • 大部分方法都转向静态优化,没有考虑不透明度的变化,导致一些明显的伪像

METHOD

Dynamic Gaussian Modulation

  • 在trimap的辅助下,图像抠图的目标是预测未知区域内每个像素的不透明度。
  • 通常,FG和Bg像素的比例远远小于中间像素。这种不均衡可能会导致模型学习过程中的不稳定性,并可能会降低alpha mattes的质量,且确定性区域上的不透明度求解过程比未确定性区域更容易接近。
  • 我们可以通过先验信息诱导的动态高斯调制机制来实现特定域的权值分配,在均匀探索信息的同时稳定收敛过程。
  • 由于过渡区域中的像素分布对于不同的图像是不同的,作者在相应的gt中采用特定情况的先验分布获得域响应图。

Model Architecture

  • 下采样操作不可避免地导致信息丢失,特别是平均池化,丢弃高频信息,只保留低频信息,导致边界区域的模糊。下采样的另外两个是最大池化和步长大于2的卷积,这也会导致不同程度的信息丢失。
  • 因此,解码器中相应的上采样阶段会出现信息差异,这将带来精度损失,并可能影响模型的收敛性,可设计一个策略用来匹配有效信息聚合可以提高模型的整体性能

  • Information Alignment strategy

    • kip-Connection 特征增强方法通过在每个下采样和上采样阶段连接或添加编码器和解码器之间的特征来弥合信息差距,虽然它可以在一定程度上衰减信息损失,但它仅使用对等级别的特征,而忽略相邻分层特征之间的关系(例如,来自块0和块1的特征),因此在恒定采样操作期间不可避免地引入多余的偏差。因此,它只是无区别地直接重用特征,并没有从根本上解决信息差异。
    • 低级和高级特征在本质上是不同的,但相互补充,一个用于细节保留,另一个用于语义保留,从而共同促进alpha mattes的产生。
    • IMM匹配,以便在下采样期间在编码器的每一级的相邻层之间匹配有价值的信息
    • Information Match Module(上图绿色区域部分)
    • Information Aggregation Module(上图蓝色区域部分)
  • Muti-Scale Refinement Module

    • 第一阶段的过程之后,一些信息可能会丢失,因此模型随后用多尺度细化模块进行了扩展,以进一步提高估计的alpha mattes的质量。如上图中的橙色方框所示,作者将具有不同核的空洞卷积应用于从编码器-解码器级获得的初步alpha mattes,以探索多尺度特征。在此阶段还引入了原始图像,以提取丰富的位置和颜色信息来指导学习过程。

Loss Function

  • the Rig represents the response coefficient at which pixel i obtained according to the prior information in the Ground Truth.

CONCLUSION AND FUTURE WORK

  1. 提出了一个先验诱导信息对齐网络图像抠图。它利用动态高斯调制机制根据先验信息调整像素级响应,并利用信息对齐策略有效地匹配和聚合潜在的有价值信息。最后,大量实验表明,该模型能够显著增强边界细节,并在Alphamatting.com、Composition-1K and Distinctions-646数据集上获得新的SOTA性能。
  2. 在未来,将探索其他有效的策略来实现高质量的alpha mattes。最近的发展,如网络连接存储和可学习参数,可以消除手工设计策略的限制,更有效地适应不透明度的变化。探索如何将动态高斯调制机制应用于视频抠图也很有吸引力。

本文标签: Prior