admin 管理员组

文章数量: 1086019


2024年4月12日发(作者:聊天机器人api)

34

 

2020

中文信息学报

JOURNALOFCHINESEINFORMATIONPROCESSING

    

Vol.34

No.7

2020

Jul

()

文章编号

10030077202007001911

---

从视觉到文本

图像描述生成的研究进展综述

魏忠钰

范智昊

王瑞泽

承怡菁

赵王榕

黄萱菁

复旦大学大数据学院

上海

21.00433

复旦大学工程与应用技术研究院

上海

22.00433

复旦大学计算机科学与技术学院

上海

23.00433

 

近年来

跨模态研究吸引了越来越多学者的关注

尤其是连接视觉和语言的相关课题

该文针对跨视觉和

——

图像描述生成

语言模态研究中的核心任务

进行文献综述

该文从基于视觉的文本生成框架

基于视觉的文

图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文

本生成研究中的关键问题

该文给出了几个未来的重点研究方向

包括跨视觉和语言模态的特征对齐

自动化评价

献进行介绍和总结

最后

指标的设计以及多样化图像描述生成

关键词

图像描述生成

跨模态特征对齐

文献综述

中图分类号

TP391

    

文献标识码

FromVisiontoTextABriefSurveforImaeCationin

       

ygpg

 

1121

,,

WAN

WEIZhonuFANZhihaoGRuizeCHENGYiin

    

gyjg

13

ZHAO

 

WanronGXuanin

 

gg

HUAN

jg

(,,;

1.SchoolofDataScienceFudanUniversitShanhai200433

China

     

yg

,,;

2.AcademforEnineerinandTechnoloFudanUniversitShanhai200433

China

    

ygggyyg

  

,,)

3.SchoolofComuterScienceandTechnoloFudanUniversitShanhai200433

China

       

pgyyg

:,

ears

AbstractInrecentincreasinattentionhasbeenattractedtotheresearchfieldrelatedtocrossodalit

            -

gy

 

eseciallvisionandlanuae.Thissurvefocusesonthetaskofimaecationinandsummarizesliteratures

           

pyggygpg

   

,,

fourasectsincludintheoverallarchitecturesomekeforcrossodalitresearch

theevalu

uestions

from

       -

 -

pgyy

   

ationofimaecationinandthestateoftheartaroachestoimaecationinInconclusion

wesuestthree

     ---       

gpgppgpg

gg

 

forfutureresearch

i.e.crossodalitreresentation

automaticevaluationmetricsanddiversetext

directions

   -

     

yp

 

eneration.

:;;

Kewordsimaecationincrossodalitalinmentliteraturereview

 -

 

gpgyg

 

包括构建能够对视觉信息进行处理的智

大的价值

 

引言

近年来

结合图像和文本的跨模态研究越来越

多地引起自然语言处理和机器视觉领域学者的关

]]

1345

--

主流的任务包括图像描述生成

机器视

、、

觉问答

相册故事生成

视觉对话生成

能聊天机器人

在社交媒体上

为图片或者相册自动

产生描述

在幼儿教育中扮演讲师的角色

帮助视觉

障碍人士感知周边环境的视觉内容等

得益于深度

学习的最新进展

视觉

文本的跨模态研究在很多

应用中取得了在自动化评价指标上的大幅度进步

本文将针对基于视觉的文本生成领域的最新研究进

展进行综述

鉴于图像描述生成是目前受到关注最

多的应用任务

同时包括了基于视觉的文本生成任

视觉

10

、,

以及从文本到图像的自动生

推理

视觉导航

11

相关的技术在很多实际应用场景中有很

收稿日期

2019031620190426

-- 

定稿日期

--

;;

基金项目

国家自然科学基金

国家社会科学基金

上海市科学技术委员会

71991471

20ZDA060

18DZ1201000

17JC1420200

20

中文信息学报

2020

务主要的技术模块

本文以图像描述生成作为切入

从基于视觉的文本生成框架

基于视觉的文本生

成的关键问题

图像描述生成模型的性能评价和图

像描述生成模型的主要发展过程四个方面对相关的

文献进行梳理

 

基于视觉的文本生成框架

基于视觉的文本生成框架主要可以分成三类

早期的基于模板匹配和检索的框架

基于神经网络

的端到端自动生成框架以及融合神经网络的组合式

生成框架

1.1

 

基于模板匹配和检索的框架

基于视觉的文本生成的早期方法大致可以分为

两类

第一类是基于模板匹配的方法

12

14

该类

方法先从图像中检测出相关的实体信息

物体

动作

),

然后将这些实体填充到手工设计的句子

模板中

存在的问题是生成的文本往往欠缺流利性

在表达的多样性方面也不能满足实际需求

第二类

是基于检索的方法

15

16

该类方法预先准备一批

与目标图像视觉上相似的图像

文本匹配语料集

然后在该语料集合上搜索与目标图片最相近的

样本

直接采用查询到的图片所对应的文本作为需

要生成的描述

该类方法的问题是依赖预先准备的

图像

文本匹配的语料集合

对于内容上差异大的

图片往往很难找到相关的匹配对象

因此在生成精

度上存在很大的缺陷

1.2

 

端到端的自动生成框架

针对早期框架所产生的文字存在流畅性欠缺和

不能产生新内容的缺点

基于深度神经网络的端到

端模型可以潜在地解决这两个问题

端到端的学习

框架

17

包括编码器和解码器两个基本部件

其中编

码器将输入的信息转换成低维稠密的隐式向量

通过解码器将该隐式向量转换成目标输出

该学习

范式最早应用在机器翻译的场景

并取得了显著的

性能提升

研究者于是将端到端的学习框架引入到

针对视觉信息的自动化描述任务中

在该框架

编码器由在大规模图像分类中被证明有效的多

层卷积神经网络

CNN

构成

以实现对图像进行视

觉信息的特征提取

18

19

解码器则由在语言模型

构建方面表现良好的循环神经网络

RNN

构成

括长短时记忆网络

20

LSTM

和带门控机制的循

环神经网络

21

GRU

),

RNN

对于句子的生成依循

逐字的方式进行

以图像特征作为初始状态

每一个

时间片使用前一个时间片产生的隐藏状态和生成单

词作为输入

产生这个时间片的单词

最近

也有学

者在编码器和解码器端使用

transformer

作为文本

生成的基本部件

22

当前

端到端的生成方式是基

于视觉的文本生成任务的主流框架

不同模型的差

别在于采用不同的视觉特征抽取方式

以及采用

RNN

的不同变种进行自动化的文本生成

基于端

到端的生成框架在生成文本的流畅性方面有很大的

提高

但是视觉和文本的关联仅仅通过中间的隐藏

表示构建

这使得生成的文本包含一些不可控的结

如生成与图片信息无关的文字

.3

 

融合神经网络的组合式的框架

针对端到端框架会产生不确定性生成结果的缺

学者研究组合式的框架进行图像描述的自动化

生成

该框架主要包含两个部件

视觉语义提取和

结合视觉语义的描述生成

文献

23

的研究首先从

图像中发现一组语义概念

以名词

动词和形容词的

形式表征

基于语义概念

语言模型被用来生成多

个候选描述

最后

多模态的相似度计算模型为候

选描述进行重要性排序

并从中选择得分最高的作

为输出

文献

24

沿用了早期基于模板匹配的图像

文本生成的思路

采用神经网络模型对两个基础模

块进行替换

以达到对传统的基于模板匹配的方法

和基于神经网络的端到端方法的调和作用

该方法

首先从整体的视觉信息中自动化地构建句子

”,

模板的每一个空格可以关联到图像中的一个局

部区域

在第二个步骤中

从槽位相关联的局部图

像中进行物体识别

并将检测的物体填充到模板中

作为最后的描述

文献

25

进一步修正文本生成模

抛弃了基于

RNN

的文本生成组件

该框架包

含两个步骤

首先

从视觉信息中发现一些明确的语

义表示单元

以短语的形式表示

其次

用短语拼接

的方法来形成最后的图像描述

组合式的框架在生

成文本的准确性上相较单纯的端到端模型有一定程

度的性能提升

但是非端到端模型在生成文本的流

畅性方面则有不可避免的缺陷

这也是目前针对该

类方法进行提升的主要方向

 

基于视觉的文本生成的关键问题

基于视觉信息的文本生成主要包含四个核心的

期魏忠钰等

从视觉到文本

图像描述生成的研究进展综述

21

研究问题

视觉端的特征表示

视觉与文本的特征

对齐

加入强化学习的图像描述生成

以及多样化图

像描述生成

2.1

 

视觉端的特征表示

当前研究在视觉端的特征提取

往往以两种基

本形式存在

视觉表示和文本概念

视觉表示代表

从图像中直接提取的特征信息

早期的工作

将图

像划分为大小相等的视觉区域

再基于

CNN

26

图像区域进行顺次的卷积处理

过程中不编码更细

粒度的信息

按照指定大小划分得到的图像区域

往往难以灵活捕捉图像中包含的实体信息

这限制

了对于图像端的语义理解

为了更好地进行图片信

息的特征提取

研究者开始采用

CNN

27

进行视

觉端的信息处理

该方法采用物体检测模型作为特

征提取器

在图片中划定大小不等的边框

并从中发

现实体信息

作为视觉信息的表示

该方法依赖于

物体检测模型的实体识别能力

同时也受限于物体

检测模型所使用的语料集合中包含的标注标签个

基于

CNN

研究者进一步设计了在实际应用

中更高效的

Faster

 

CNN

28

并得到更广泛的使

仅仅依靠图像处理的视觉信息提取方法建构视

觉信息特征无法解决视觉信息与文本之间存在的语

义鸿沟

为了在视觉端的特征提取中考虑语义信

相关研究

29

31

将图像的语义概念识别转换成多

标签分类问题

采用单词

短语作为语义的表示单

并通过不同的方式

注意力机制

嵌入到循环神

经网络的解码单元中

将这一组语义单元作用到文

本解码的过程中

最近

有研究者

32

引入场景图的

方法将视觉特征和语义信息相结合作为图片端的特

征表示

场景图中的节点代表视觉信息中发现的视

觉实体

而场景图的边则是基于语义信息的实体关

然而

为了构造场景图

需要复杂的流水线

且不能避免错误传播

这在某种程度上限制了场景

图在更多场景进行推广

2.2

 

视觉与文本的特征对齐

在跨模态的相关研究中

核心部件是不同模态

信息的联合表示学习

在端到端的学习框架中

基于卷积神经网络的视觉特征抽取模块将图像信息

表征成低维稠密向量

而基于循环神经网络的文本

生成部件则从该低维稠密向量中逐字生成图像相关

的描述

这个过程假设了整张图片的信息和待生成

文本的信息共享了一个隐空间

以低维稠密向量表

卷积神经网络和循环神经网络的参数在一个联

合训练的框架下完成

文献

使用两个任务分别

针对图像特征提取和循环神经网络的参数进行训

在卷积神经网络部分

一个图像特征和句子特

征对齐的任务被构造用来进行参数学习

在循环神

经网络部分

图像特征提取器的参数被固定

句子生

成任务被用来进行参数学习

在这种句子生成框架

图像特征以隐状态的形式仅仅直接影响首个单

词的生成

对于句子中其他单词生成的影响则是间

接的

随着句子长度的增加

图像特征对于单词生

成的影响慢慢淡化

导致句子的生成更多地受到

语言模型的影响

而不能很好地描绘图像中的具

体信息

为了进一步关联局部图像特征和句子中

字词的生成过程

采用注意力机制来进行基于视

觉信息的文本生成任务

注意力机制最早在机器

翻译领域被提出作为编码器

解码器框架的一个

补充部件

33

在解码器生成单词时

用来在输入序

列中寻找最能提供辅助信息的序列单元部件

34

引入注意力机制连接文本生成过程和图片

中的局部区域特征

在解码某个单词时

解码器计

算图片局部区域对于该单词的决策权重

并采用

加权平均的方法引入图片区域特征来计算单词的

生成概率分布

学者将这种关联图像区域特征和

文本生成的注意力框架称为自顶向下的方案

将关联图像中的实体特征和文本生成的方法称为

自底向上的方案

文献

35

结合了自顶向下和自

底向上两种模式

自底向上的机制采用

Faster

CNN

28

从图像中选取有显著意义的区域

在解

码每个单词的时候

使用其关联的局部图像特征

的重要性权重

重新调整

Faster

 

CNN

发现的实

体的重要性

用来计算单词的生成概率向量

随着预训练模型在视觉和文本单一模态场景中

的成功应用

BERT

36

ResNet

37

学者开始

研究结合视觉和文本的预训练模型

基本的研究思

路借鉴

BERT

等的预训练模型

将视觉与语言的混

合表示以序列的方式输入到基于

transformer

的框架

然后依照自监督的方式进行优化

到目前为止

出现了

VisualBert

38

Unicoder

VL

39

VL

BERT

40

ViLBERT

41

LXMERT

42

UNITER

43

等研究

工作

依据处理文本和图片的方式

相关工作可以

分成两大类

单流编码

VisualBert

Unicoder

VL

VL

BERT

UNITER

和双流编码

ViLBERT

XMERT

)。

单流编码将图片和句子拼接成一个序

22

中文信息学报

2020

输入到同一个编码器中

同时对两种模态的信息

进行编码

双流编码则认为图片和文本的底层表示

有着不同的特性

所以先采用不同的编码器对图片

和文本进行单模态编码

之后再通过互注意力机制

对两种模态进行联合编码

这些预训练模型采用的

自监督训练任务包括

遮盖语言模型

遮盖区域分

回归

视觉文本匹配以及视觉问答

遮盖语言模

型和

但在推断被遮盖

ERT

的训练任务基本类似

的单词时

更希望模型学会从视觉信息中寻找线索

)、)

动作

构造三个关键要素

即状态

stateaction

)。

状态就是解码过程中每个时间片的

奖励

reward

隐藏状态表示

而动作是对当前时刻生成单词的选

奖励一般采用自动化的评价指标

基于强化学

习的基本方法存在模型训练不稳定的问题

该问题

产生的原因是模型执行过程中计算期望梯度时会产

生较高的方差

其中一种解决办法是加上基线模型

的约束

比如在

MIXER

mixedincremental

 

基线就是一个简单的多

cross

entroreinforce

py

 

遮盖区域和遮盖语言的本质是相同的

只不过遮盖

的部件从字符变成了某个图片区域

视觉文本匹配

任务和

BERT

中的后续句子推断任务相似

通过构

造负样例的方式来判断文本和图片是否匹配

虽然

跨模态的预训练模型越来越多地引起学者的关注

但是在跨模态文本生成方面的应用还没有起步

于跨模态的联合表示学习在当前的图像描述生成研

究中并未引起足够关注

未来如何将跨模态的预训

练模型融入到图像描述生成中会是一个研究的

重点

.3

 

引入强化学习的图像描述生成

在图像描述生成任务中

基于神经网络的文本

生成解码器将每一个单词的产生看成一个分类问

并使用交叉熵损失函数来进行文本生成模型的

训练

这样的模型训练方式存在两个问题

一个被

称为暴露偏置

ex

osure

 

bias

),

即在训练时

模型当

前时刻的输入是来自训练集的真实单词

而在测试

输入的却是上一时刻的预测结果

一旦模型单步

表现不佳

就会导致误差累积

从而影响整体的生成

效果

另一个问题被称为损失评估失配

loss

evalu

tion

 

mismatchin

),

即在训练时

模型采用交叉熵

损失函数来评估生成结果的好坏

而在测试时

却采

用其他的自动化评价指标

3.2

),

存在训练和

测试评估方式不一致的问题

从而影响模型在测试

时的表现

为了解决上述问题

文献

44

引入强化学习

进行模型训练

以解决模型训练和测试过程的不

一致问题

一方面

采用计划采样

scheduled

 

sam

lin

的方法在训练时也采用上一时刻产生的词

从而解决暴露偏置的问题

另一方面

强化学

习可以在训练时通过最大化一些测试时采用的评

价指标来完成模型参数的更新

从而解决损失评

估失配问题

强化学习的方法在图像描述任务中的应用需要

个采样样本的奖励均值

SCST

45

self

critical

uence

 

trainin

这个基线采用固定策略采样

贪婪搜索或者束搜索

进行奖励计算

还有一些方

法比如

actor

critic

46

则训练一个评论

critic

网络

来估算奖励

目前

引入强化学习进行图像描述生成的模

型训练方法一般遵循以下流程

先采用交叉熵损

失函数进行模型训练

当性能达到一定程度之后

再以自动化评价指标为奖励

使用强化学习进行

模型训练

经过强化学习训练过的模型通常可以

具有更好的性能

因此当前针对图像描述的模型

往往会配置使用强化学习的版本进行有针对的性

能比较

.4

 

多样化图像描述生成

不同的人在对同一张图像进行描述时

往往

会产生不同的描述语言

为了使机器产生的文本

能够具有多样性和创新性

学者开始研究多样化

的图像描述生成方法

文献

47

在句子生成阶段

产生多个样本

并引入惩罚因子

对生成样本之间

重复的词进行惩罚以激励产生更多样化的句子

文献

48

尝试在互相不重叠的数据集分割中单独

训练文本生成器

以通过不同的文本生成器来产

生多样性的句子

文献

49

在训练的过程中生成

多个候选句子

并使用核方法来计算句子之间的

相似性

随后将相似性计算模型加入到对抗生成

网络中

以激励生成器达成生成的多样化

文献

50

在问题生成这个场景中

将问题类型和图片

信息一起建模

以达到产生多样化问题的目的

文献

51

将图片中的物体作为先验信息加入到变

分自编码器的隐空间中

引导面向不同物体的描

述生成

文献

52

更精细地在变分自编码器的隐

空间当中去建模词汇和语法结构

文献

53

认为

生成模型之所以缺乏多样性

是因为生成模型会

倾向于选择在数据集合中出现频率更高

相对来

期魏忠钰等

从视觉到文本

图像描述生成的研究进展综述

23

说更安全

的词

生成内容的多样性以及图片和

内容的相关性其实是一体两面

他们因此通过负

采样的方法

训练模型辨识图片和句子的相关性

并通过对抗生成网络来强化生成器在这方面的性

文献

54

也讨论了相同的问题

并引入了

RankGAN

该方法虽然在自动化指标上稍有逊色

但在人工评价上显示出更优越的效果

文本生成的多样性评估可以从数据集和单个样

例两个方面进行

在数据集方面

计算生成的描

述没有出现在训练数据集中的比例

计算基于图

片生成的描述中包含的词汇数量

前一个指标越

表示生成的描述在创新性方面的得分越低

后者

的指标越高

表示生成的描述的多样化程度越高

在单个样例方面

学者提出

Dist

55

mBLEU

48

来度量生成的多个句子之间的相似

不相似

而考量描述的多样化程度

Dist

统计针对单个图

像生成的多个描述中不重复的

元组个数

mBLEU

在为目标图像生成的多个描述中每次选取

一个描述

并计算它与其他描述之间的

BLEU

因为

BLEU

是基于

元组的相似性度量指标

所以

mBLEU

越低说明生成的句子之间的差异性越大

表明生成的描述多样性越好

 

图像描述生成模型的性能评价

3.1

 

图像描述生成的评测语料集

适用于图像描述生成任务的数据集主要有

Flickr8k

15

Flickr30k

56

57

MS

 

COCO

58

预训练图像识别或者特征对齐模块时

常用到的数

据集有

Ima

eNet

59

Visual

 

Genome

60

除此以

经常被使用的语料集还包括

IAPR

 

TC

12

61

62

ReferIt

63

Insta

ram

64

65

Stock3M

66

MIT

Adobe

FiveK

67

FlickrSt

le10k

68

呈现了各个语

料集的详细介绍

Flickr8k

是第一个公开的大规模

图像和描述匹配的语料集

扩充版本

Flickr30k

共包含了

31

 

783

张图片

每张图片有

个人工产生

的描述

在扩充版本中

Flickr30k

还包含了实体标

MS

 

COCO

在图片规模上有很大的提升

包含

了超过

16

万张图片

并且每张图片中有

7.7

个实体

标注

一共包括了

80

个实体类别

因此可以针对图

像物体检测和描述生成两个应用同时开展研究

Visual

 

Genome

的语料集则有更加细粒度的标注

包含与图片中局部区域相关联的较短的描述

因此

可以满足多样化描述生成的研究需求

同时

该语料

集包含了场景图的标注信息

一般用来预训练场景

图的构建模型

 

视觉文本生成相关语料集

名称

图片描述实体实体场景

数量个数种类个数图

Flickr8k

15

 

000

 

———

Flickr30k

56

67

31

 

783

 

8.9

MS

 

COCO

58

164

 

062

 

 

80

 

7.7

ma

eNet

59

14

 

197

 

122

21

 

841

 

Visual

Genome

60

108

 

077

 

50

 

76

 

340

 

16

APR

TC

12

61

62

20

 

000

 

 

255

 

5.0

ReferIt

63

19

 

894

 

6.6

4.8

nsta

ram

64

65

 

100

 

000

 

———

Stock3M

66

 

217

 

654

 

———

MIT

Adobe

Fivek

67

 

000

————

Flickr

St

le10k

68

10

 

000

 

8.9

.2

 

图像描述生成的评价方法

对图像描述生成模型的评价

指的是依据给定

的图像判断模型所生成描述的质量

当前的主流评

价方法主要包括以下三种类型

第一

人工评价

人工设计一些评价指标

表达的流畅度

与图片的相关度

表达的多样化

程度等

69

70

人工的评分结果一般通过网上众包

的形式进行收集

人工评价的方法可以准确反映图

像描述模型的性能

但是操作的过程中需要引入大

量的标注者

从而影响了评价的灵活性

第二

基于规则的自动化评价方法

该方法提

前为图片收集固定数量的人工撰写的参考描述

采用关键词匹配的技术

计算模型生成描述与参考

描述之间的重叠程度作为模型的性能评价

主流的

指标包括

ROUGE

71

BLEU

72

CIDEr

73

ME

TEOR

74

SPICE

75

BLEU

被广泛地使用在机

器翻译中

其主要计算模型生成的描述与参考描述

之间的

元组重合程度

重合程度越高

生成描述的

24

中文信息学报

2020

质量就越高

不同元组的选择可以从不同的侧面反

映生成描述的质量

单元组

的准确率可

ram

uni

以用于评估单词级别的生成准确性

更高阶的元组

准确率可以用来判断句子的整体流畅性

该指标更

关注生成的准确率

即更关心生成描述里有多少

参考描述之间的相关度

基于学习的自动化评价虽

然增加了灵活性

但是评价模型本身是参数化的

此也有被图像描述模型攻击和欺骗的风险

 

图像描述生成模型的主要发展过程

元组是对的

ROUGE

71

最早被用来评价文本摘要

模型的质量

它与

BLEU

的计算公式非常相似

它只计算召回率

考虑参考描述中有多少元组被机

器生成的描述覆盖

为了在评价过程中考虑相同语

义不同表达的句子

学者提出了

METEOR

74

引入一个外部资源库

WordNet

对词语的同义词进

行考虑

同时也考虑单词的词形

stemmin

)。

在评

价句子流畅性时

用词块

chunk

作为基本评价单

考虑了调和召回率和准确率的

值作为最终评

价指标

相比

BLEU

ROUGE

METEOR

引入

了外部资源和额外的句子分块算法

这也给其评价

结果带来一些不稳定性

CIDEr

73

是针对图像描

述任务提出的

它同样采用

元组作为基本评价单

并采用词频和倒排文档频率

TF

IDF

作为

组的权重

这样可以降低高频

元组对于结果的影

最近

学者提出

SPICE

75

来考察图像中的实体

和实体间关系是否被图像描述生成模型考虑

该指

标为机器生成描述构建场景图

并与基于图像构建

的场景图进行相关性计算

从而达到衡量生成描述

对于图像中包含的实体和实体间关系的覆盖度的

目的

第三

基于学习的自动化评价方法

该方法构

建一个机器学习模型直接计算图像描述生成模型产

生的描述和给定图片之间的相关度

文献

76

引入

对抗生成的方法

训练一个判别器

在给定图片和一

个候选描述的情况下

判定有多大概率这个候选描

述是人工产生的

分数越高则该描述的质量越高

在训练过程中

他们自动化地为给定图片产生一些

不相关的描述作为负样本

用以训练判别器

文献

77

结合了基于学习和规则的方法

综合考量机器

生成的描述与图片的相关度

以及机器生成的描述

与参考描述的相关度

在生成描述与图片相关度方

他们采用预训练的视觉和文本的对齐模块

计算

机器生成的描述与图片区域之间的关联分布向量

分布向量的集中度越高

则相关度越高

在生成描

述与参考描述的相关度计算方面

他们通过图片区

域将二者进行关联

从而细粒度地评价生成描述和

近年来

基于神经网络的端到端模型作为主流

的图像描述生成模型

在公开评测语料集上不断刷

新各种评测指标的记录

因此

在本节中

我们主要

针对这一类别的方法进行发展进程的介绍

早期的

研究工作主要集中于通过基于卷积神经网络

CNN

和循环神经网络

RNN

的基础端到端框架

来生成图像描述

23

78

79

随后

针对多模态特征

对齐问题

研究人员提出了不同的注意力机制

从图

像特征和语言特征方面对图像标注进行改

31

32

34

35

46

80

82

同时

不同于使用交叉熵作为优

化目标的方法

一些研究人员采用强化学习方法

自动评价指标

一般选用

CIDEr

METEOR

作为

优化目标来训练模型

16

32

35

46

81

84

将自动评价指

标作为优化目标已经成为目前图像描述生成工作中

主流的实验设置

最近一些研究工作通过目标检测

算法

Faster

 

CNN

提取图像中的物体区域

引入更为丰富多样的信息

如物体

属性和关系

24

32

35

随着预训练语言模型在自然语言处理领

域的兴起

也出现了跨模态预训练模型的工作

Zhou

等人

85

提出了一种视觉

语言预训练模

可以应用到视觉

文本生成和理解任务当中

最近也出现了一些从其他方面进行探究的开创

性工作

Fen

等人

86

使用了视觉概念

conce

为连接图像和文本的桥梁

将无监督学习应用到图

片标注任务当中

Sammani

等人

84

提出了一种自适

编辑

网络

可以对生成的描述进行迭代地润色

MS

 

COCO

数据集目前已经成为研究人员在图

像标注任务上进行性能评测的首选

由于官方测试

集的真实标签没有公布

大多数研究人员常使用

Kar

ath

等人

的数据集分割方式

进行离线验证

和测试

不同的图像标注模型在

MS

 

COCO

Kar

ath

测试集

上的性能如表

所示

为了和

最先进的模型进行在线性能比较

部分工作会进一

步使用

MS

 

COCO

官方测试集进行测试

并将结果

上传到评估服务器进行评测

不同的图像标注模型

MS

 

COCO

评估服务器上的性能如表

所示

期魏忠钰等

从视觉到文本

图像描述生成的研究进展综述

 

不同的图像标注模型在

上的性能

SCOCO

测试集

Karath

 

py

25

方法

BLEU1

GooleNIC

4

 

BRNN

[]

[]

MSCOCO

 

BLEU2

46.1

 

45.0

 

49.0

 

50.4

 

58.0

 

62.5

 

22.5

 

65.3

 

BLEU3

32.9

 

32.1

 

35.0

 

35.7

 

43.9

 

47.9

 

11.2

 

51.1

 

BLEU4

24.6

23.0

 

25.0

25.0

 

33.2

 

34.2

 

36.1

 

36.3

 

34.7

 

38.3

 

5.6

 

38.4

 

38.9

 

39.5

 

39.2

METEOROUGE

 

 

19.5

23.0

26.6

26.7

 

27.4

 

27.7

 

27.1

28.6

 

12.4

 

28.4

 

29.2

29.3

55.7

 

56.9

 

56.9

 

58.5

 

28.7

 

58.6

 

58.9

 

CIDEr

 

66.0

108.5

 

114.0

120.4

 

120.1

 

107.2

 

128.7

 

28.6

 

127.8

 

129.8

 

129.3

 

128.9

 

SPICE

20.4

20.9

21.4

20.1

22.1

8.1

22.1

22.4

23.2

22.6

66.6

 

62.5

 

67.0

 

71.8

 

74.2

 

RNN

[]

Hardtt

Adative

[]

[]

SCST

Att2all

81

StackCa

[]

[]

78.6

 

79.8

75.5

Uown

NBT

[]

[]

GCN

LSTM

UIC

[]

[]

80.9

41.0

 

80.8

80.2

80.6

 

SGAE

[]

AoANet

[]

UnifiedVL

 

ETN

[]

[]

代表使用了不同的测试集分割

  

 

不同的图像描述生成模型在

MSCOCO

评估服务器上的性能

 

MSCOCO

 

方法

BLEU1

C5

GooleNIC

 

[]

BLEU2

C5C40

BLEU3

C5C40

BLEU4

C5C40

METEOROUGE

 

 

C5C40C5C40

CIDEr

 

C5C40

SPICE

C5C40C40

71.39.54.20.20.79.40.98.75.44.63.08.24.34.618.23.6

 

 

 

 

 

 

 

 

 

 

 

 

 

  

[]

MSCativator

 

RNN

LRCN

[]

[]

71.50.74.31.90.71.00.80.14.83.92.68.03.13.718.00.9

 

 

 

 

 

 

 

 

 

 

 

 

 

  

71.69.04.59.80.48.79.97.54.22.52.16.61.73.517.40.0

 

 

 

 

 

 

 

 

 

 

 

 

 

  

71.89.54.80.40.99.50.68.54.73.52.87.82.13.417.79.9

 

 

 

 

 

 

 

 

 

 

 

 

 

  

70.58.12.87.98.35.87.73.74.12.21.65.46.59.317.29.8

 

 

 

 

 

 

 

 

 

 

 

 

 

  

73.10.06.51.52.40.91.69.95.03.53.58.24.35.818.23.1

 

 

 

 

 

 

 

 

 

 

 

 

 

  

74.82.08.44.54.44.43.63.76.45.95.00.504.2105.919.77.3

 

 

 

 

 

 

 

 

 

 

 

 

   

Hardtt

[]

ATTFCN

Adative

[]

[]

SCST

Att2all

81

StackCa

[]

[]

78.13.71.96.07.05.95.24.57.05.56.30.714.7116.720.78.9

 

 

 

 

 

 

 

 

 

 

 

 

   

77.83.21.66.16.86.04.94.67.05.66.20.614.8118.3

 

 

 

 

 

 

 

 

 

 

 

 

 

Uown

[]

80.25.24.18.89.19.46.98.57.66.77.12.417.9120.521.51.5

 

 

 

 

 

 

 

 

 

 

 

 

   

——

65.59.30.80.38.79.78.57.68.53.425.3126.5

 

 

 

 

 

 

 

 

 

 

 

GCN

LSTM

AoANet

[]

[]

81.05.05.89.61.41.39.41.29.18.58.94.526.9129.6

 

 

 

 

 

 

 

 

 

 

 

 

 

26

中文信息学报

2020

 

结论

本文回顾了近年来研究领域在图像描述生成模

型方面的研究进展

虽然相关研究在自动化评价指

标方面有长足发展

但受限于真实场景的复杂性

于图像的自动化描述离实际应用依然存在不小的差

以下三个方面或许是未来的研究重点

包括基

于跨模态预训练模型的图像描述生成框架研究

于视觉的文本生成评价方法

面向应用的多样化文

本生成框架研究

参考文献

 

He

 

Den

 

L.Dee

learnin

 

for

 

ima

to

text

 

enera

tion

 

technical

 

overview

.IEEE

 

Si

nal

 

Processin

Ma

azine

2017

34

):

109

116.

 

Hossain

 

 

Sohel

 

Shiratuddin

 

 

et

 

al.Acom

rehensive

 

surve

 

of

 

dee

 

learnin

 

for

 

ima

 

ca

tionin

.ACM

 

Com

utin

 

Surve

2019

51

):

36.

 

Zhan

 

Yan

 

He

 

et

 

al.Multimodal

 

intelli

ence

Re

resentation

 

learnin

information

 

fusion

and

 

pp

lications

]//

Proceedin

 

of

 

IEEE

 

Journal

 

of

Selected

 

To

ics

 

in

 

Si

nal

 

Processin

2020.

 

Vin

als

 

Toshev

 

Ben

io

 

et

 

al.Show

 

and

 

tell

 

neural

 

ima

 

ca

tion

 

enerator

]//

Proceedin

 

of

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

Reco

nition

2015

3156

3164.

 

Kar

ath

 

Fei

Fei

 

L.Dee

 

visual

semantic

 

ali

ments

 

for

 

eneratin

 

ima

 

descri

ttions

]//

Pro

ceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

and

 

Pattern

 

Reco

nition

2015

3128

3137.

 

Antol

 

rawal

 

Lu

 

et

 

al.V

visual

 

uestion

answerin

]//

Proceedin

 

of

 

the

 

International

 

Con

ference

 

on

 

Com

uter

 

Vision

2015

2425

2433.

 

Tin

Hao

 

Huan

Ferraro

 

et

 

al.Visual

 

stor

tellin

]//

Proceedin

 

of

 

the

 

2016Conference

 

of

 

the

 

North

American

 

Cha

ter

 

of

 

the

 

Association

 

for

 

Com

utation

al

 

Lin

uistics

Human

 

Lan

ua

 

Technolo

ies

2016

1233

1239.

 

Das

 

Kottur

 

Gu

ta

 

et

 

al.Visual

 

dialo

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vi

sion

 

and

 

Pattern

 

Reco

nition

2017

326

335.

 

Johnson

 

Hariharan

 

van

 

der

 

Maaten

 

et

 

al.

Clevr

 

dia

nostic

 

dataset

 

for

 

com

ositional

 

lan

ua

and

 

elementar

 

visual

 

reasonin

]//

Proceedin

 

of

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

Reco

nition

2017

2901

2910.

10

 

Zhu

 

Motta

hi

 

Kolve

 

et

 

al.Tar

et

driven

visual

 

navi

ation

 

in

 

indoor

 

scenes

 

usin

 

dee

 

rein

forcement

 

learnin

]//

Proceedin

 

of

 

the

 

2017

IEEE

 

International

 

Conference

 

on

 

Robotics

 

and

 

Auto

mation

2017

3357

3364.

11

 

Reed

 

Akata

 

Yan

 

et

 

al.Generative

 

adversari

al

 

text

 

to

 

ima

 

nthesis

.arXiv

 

re

rint

1605.

05396

2016.

12

 

Farhadi

 

He

rati

 

Sade

hi

 

 

et

 

al.Ever

icture

 

tells

 

 

stor

Generatin

 

sentences

 

from

 

ima

es

]//

Proceedin

 

of

 

the

 

Euro

ean

 

Conference

 

on

Com

uter

 

Vision.S

rin

er.Berlin.Heidelber

2010

15

29.

13

 

Kulkarni

 

Premra

 

Ordonez

 

et

 

al.Bab

talk

Understandin

 

and

 

eneratin

 

sim

le

 

ima

 

descri

tions

.IEEE

 

Transactions

 

on

 

Pattern

 

Anal

sis

 

and

Machine

 

Intelli

ence

2013

35

12

):

2891

2903.

14

 

Li

 

Kulkarni

 

Ber

 

 

et

 

al.Com

osin

 

sim

le

ima

 

descri

tions

 

usin

 

web

scale

 

rams

]//

Proceedin

 

of

 

the

 

15th

 

Conference

 

on

 

Com

utational

Natural

 

Lan

ua

 

Learnin

.Association

 

for

 

Com

tational

 

Lin

uistics

2011

220

228.

15

 

Hodosh

 

Youn

 

Hockenmaier

 

J.Framin

 

im

 

descri

tion

 

as

 

 

rankin

 

task

data

models

 

and

 

valuation

 

metrics

.Journal

 

of

 

Artificial

 

Intelli

ence

Research

2013

47

):

853

899.

16

 

Ordonez

 

Kulkarni

 

Ber

 

 

L.Im2text

Descri

bin

 

ima

es

 

usin

 

1million

 

ca

tioned

 

hoto

ra

hs

]//

Proceedin

 

of

 

the

 

Advances

 

in

 

Neural

 

Infor

mation

 

Processin

 

stems

2011

1143

1151.

17

 

Sutskever

 

Vin

als

 

Le

 

 

V.Se

uence

 

to

 

se

uence

 

learnin

 

with

 

neural

 

networks

]//

Proceed

in

 

of

 

the

 

Advances

 

in

 

Neural

 

Information

 

Process

in

 

stems

2014

3104

3112.

18

 

Krizhevsk

 

Sutskever

 

Hinton

 

 

E.Ima

enet

classification

 

with

 

dee

 

convolutional

 

neural

 

networks

]//

Proceedin

 

of

 

the

 

Advances

 

in

 

Neural

 

Infor

mation

 

Processin

 

stems

2012

1097

1105.

19

 

He

 

Zhan

 

Ren

 

et

 

al.Dee

 

residual

 

learnin

for

 

ima

 

reco

nition

]//

Proceedin

 

of

 

the

 

IEEE

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

ni

tion

2016

770

778.

20

 

Hochreiter

 

Schmidhuber

 

J.Lon

 

short

term

 

mem

or

.Neural

 

Com

utation

1997

):

1735

1780.

21

 

Chun

Gulcehre

 

Cho

 

et

 

al.Gated

 

feedback

recurrent

 

neural

 

networks

]//

Proceedin

 

of

 

the

 

In

ternational

 

Conference

 

on

 

Machine

 

Learnin

2015

2067

2075.

22

 

Herdade

 

Ka

pp

eler

 

Boak

 

et

 

al.Ima

eca

tionin

Transformin

 

ob

ects

 

into

 

words

]//

Pro

ceedin

 

of

 

the

 

Advances

 

in

 

Neural

 

Information

 

Pro

期魏忠钰等

从视觉到文本

图像描述生成的研究进展综述

27

cessin

 

stems

2019

11135

11145.

23

 

Fan

 

Gu

ta

 

Iandola

 

et

 

al.From

 

ca

tions

 

to

visual

 

conce

ts

 

and

 

back

]//

Proceedin

 

of

 

the

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

Reco

nition

2015

1473

1482.

24

 

Lu

 

Yan

 

Batra

 

et

 

al.Neural

 

bab

 

talk

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vi

sion

 

and

 

Pattern

 

Reco

nition

2018

7219

7228.

25

 

Dai

 

Fidler

 

Lin

 

D.A

 

neural

 

com

ositional

 

ara

di

 

for

 

ima

 

ca

tionin

]//

Proceedin

 

of

 

the

Advances

 

in

 

Neural

 

Information

 

Processin

 

stems

2018

658

668.

26

 

Lecun

 

Boser

 

Denker

 

et

 

al.Back

ro

ation

pp

lied

 

to

 

handwritten

 

zi

 

code

 

reco

nition

.Neu

ral

 

Com

utation

1989

):

541

551.

27

 

Girshick

 

Donahue

 

Darrell

 

et

 

al.Rich

 

feature

hierarchies

 

for

 

accurate

 

ob

ect

 

detection

 

and

 

semantic

se

mentation

]//

Proceedin

 

of

 

the

 

IEEE

 

Confer

ence

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

2014

580

587.

28

 

Ren

 

He

 

Girshick

 

et

 

al.Faster

 

cnn

To

wards

 

real

time

 

ob

ect

 

detection

 

with

 

re

ion

 

ro

osal

networks

]//

Proceedin

 

of

 

the

 

Advances

 

in

 

Neural

Information

 

Processin

 

stems

2015

91

99.

29

 

Wu

 

Shen

 

Liu

 

et

 

al.What

 

value

 

do

 

ex

licit

hi

 

level

 

conce

ts

 

have

 

in

 

vision

 

to

 

lan

ua

 

rob

lems[

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

 

on

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

2016

203

212.

30

 

Gan

 

Gan

 

He

 

et

 

al.Semantic

 

com

ositional

networks

 

for

 

visual

 

ca

tionin

]//

Proceedin

 

of

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

Reco

nition

2017

5630

5639.

31

 

You

 

Jin

 

Wan

 

et

 

al.Ima

 

ca

tionin

 

with

semantic

 

attention

]//

Proceedin

 

of

 

the

 

IEEE

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

ni

tion

2016

4651

4659.

32

 

Yao

 

Pan

 

Li

 

et

 

al.Ex

lorin

 

visual

 

relation

shi

 

for

 

ima

 

ca

tionin

]//

Proceedin

 

of

 

the

 

Eu

ro

ean

 

Conference

 

on

 

Com

uter

 

Vision

ECCV

),

2018

684

699.

33

 

Bahdanau

 

Cho

 

Ben

io

 

Y.Neural

 

machine

translation

 

 

ointl

 

learnin

 

to

 

ali

 

and

 

translate

.arXiv

 

re

rint

1409.0473

2014.

34

 

Xu

 

Ba

 

Kiros

 

et

 

al.Show

attend

 

and

 

tell

Neural

 

ima

 

ca

tion

 

eneration

 

with

 

visual

 

attention

]//

Proceedin

 

of

 

the

 

International

 

Conference

 

on

Machine

 

Learnin

2015

2048

2057.

35

 

Anderson

 

He

 

Buehler

 

et

 

al.Bottom

 

and

to

down

 

attention

 

for

 

ima

 

ca

tionin

 

and

 

visual

uestion

 

answerin

]//

Proceedin

 

of

 

the

 

IEEE

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

ni

tion

2018

6077

6086.

36

 

Devlin

 

Chan

 

 

Lee

 

et

 

al.Bert

Pre

train

in

 

of

 

dee

 

bidirectional

 

transformers

 

for

 

lan

ua

understandin

.arXiv

 

re

rint

1810.04805

2018.

37

 

He

 

Zhan

 

Ren

 

et

 

al.Dee

 

residual

 

learnin

for

 

ima

 

reco

nition

]//

Proceedin

 

of

 

the

 

IEEE

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

ni

tion

2016

770

778.

38

 

Li

 

 

Yatskar

 

Yin

 

et

 

al.Visualbert

sim

le

 

and

 

erformant

 

baseline

 

for

 

vision

 

and

 

lan

ua

.arXiv

 

re

rint

1908.03557

2019.

39

 

Li

 

Duan

 

Fan

 

et

 

al.Unicoder

vl

 

univer

sal

 

encoder

 

for

 

vision

 

and

 

lan

ua

 

 

cross

modal

re

trainin

.arXiv

 

re

rint

1908.06066

2019.

40

 

Su

 

Zhu

 

Cao

 

et

 

al.Vl

bert

Pre

trainin

 

of

eneric

 

visual

lin

uistic

 

re

resentations

.arXiv

re

rint

1908.08530

2019.

41

 

Lu

 

Batra

 

Parikh

 

et

 

al.Vilbert

Ptretrainin

task

nostic

 

visiolin

uistic

 

re

resentations

 

for

 

vision

and

lan

ua

 

tasks

]//

Proceedin

 

of

 

the

 

Advances

in

 

Neural

 

Information

 

Processin

 

stems

2019

13

23.

42

 

Tan

 

Bansal

 

M.Lxmert

learnin

 

cross

modalit

encoder

 

re

resentations

 

from

 

transformers

.arXiv

re

rint

1908.07490

2019.

43

 

Chen

 

 

Li

 

Yu

 

et

 

al.Uniter

Learnin

 

uni

versal

 

ima

text

 

re

resentations

.arXiv

 

re

rint

1909.11740

2019.

44

 

Ranzato

 

 

Cho

ra

 

Auli

 

et

 

al.Se

uence

level

 

trainin

 

with

 

recurrent

 

neural

 

networks

.arX

iv

 

re

rint

1511.06732

2015.

45

 

Rennie

 

 

Marcheret

 

Mroueh

 

et

 

al.Self

criti

cal

 

se

uence

 

trainin

 

for

 

ima

 

ca

tionin

]//

Pro

ceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

and

 

Pattern

 

Reco

nition

2017

7008

7024.

46

 

Zhan

 

Sun

 

Liu

 

et

 

al.Actor

critic

 

se

uence

trainin

 

for

 

ima

 

ca

tionin

.arXiv

 

re

rint

1706.09601

2017.

47

 

Vi

akumar

 

 

Co

swell

 

Selvara

 

 

et

 

al.

Diverse

 

beam

 

search

Decodin

 

diverse

 

solutions

 

from

neural

 

se

uence

 

models

.arXiv

 

re

rint

1610.

02424

2016.

48

 

Wan

 

Wu

 

Lu

 

et

 

al.Diverse

 

ima

 

ca

tio

nin

 

via

 

rou

talk

]//

Proceedin

 

of

 

the

 

IJCAI

2016

2957

2964.

49

 

Shett

 

Rohrbach

 

Anne

 

Hendricks

 

et

 

al.

eakin

 

the

 

same

 

lan

ua

Matchin

 

machine

 

to

human

 

ca

tions

 

 

adversarial

 

trainin

]//

Proceed

in

 

of

 

the

 

IEEE

 

International

 

Conference

 

on

 

Com

28

中文信息学报

2020

uter

 

Vision

2017

4135

4144.

50

 

Fan

 

Wei

 

Li

 

et

 

al.A

 

uestion

 

yp

 

driven

framework

 

to

 

diversif

 

visual

 

uestion

 

eneration

]//

Proceedin

 

of

 

the

 

IJCAI

2018

4048

4054.

51

 

Wan

 

Schwin

 

Lazebnik

 

S.Diverse

 

and

 

accu

rate

 

ima

 

descri

tion

 

usin

 

 

variational

 

auto

encoder

with

 

an

 

additive

 

aussian

 

encodin

 

ace

]//

Pro

ceedin

 

of

 

the

 

Advances

 

in

 

Neural

 

Information

 

Pro

cessin

 

stems

2017

5756

5766.

52

 

Chen

 

Ji

 

Ji

 

et

 

al.Variational

 

structured

 

se

mantic

 

inference

 

for

 

diverse

 

ima

 

ca

tionin

]//

Proceedin

 

of

 

the

 

Advances

 

in

 

Neural

 

Information

Processin

 

stems

2019

1929

1939.

53

 

Dai

 

Fidler

 

Urtasun

 

et

 

al.Towards

 

diverse

and

 

natural

 

ima

 

descri

tions

 

via

 

 

conditional

 

an

]//

Proceedin

 

of

 

the

 

IEEE

 

International

 

Confer

ence

 

on

 

Com

uter

 

Vision

2017

2970

2979.

54

 

Li

 

Huan

 

He

 

et

 

al.Generatin

 

diverse

 

and

accurate

 

visual

 

ca

tions

 

 

com

arative

 

adversarial

learnin

.arXiv

 

re

rint

1804.00861

2018.

55

 

Li

 

Galle

 

Brockett

 

et

 

al.A

 

diversit

romo

tin

 

ob

ective

 

function

 

for

 

neural

 

conversation

 

models

.arXiv

 

re

rint

1510.03055

2015.

56

 

Youn

 

Lai

 

Hodosh

 

et

 

al.From

 

ima

 

de

scri

tions

 

to

 

visual

 

denotations

New

 

similarit

 

met

rics

 

for

 

semantic

 

inference

 

over

 

event

 

descri

tions

Transactions

 

of

 

the

 

Association

 

for

 

Com

utational

Lin

uistics

2014

67

78.

57

 

Plummer

 

 

Wan

 

Cervantes

 

 

et

 

al.

Flickr30kentities

collectin

 

re

ion

to

hrase

 

corre

ondences

 

for

 

richer

 

ima

to

sentence

 

models

]//

Proceedin

 

of

 

the

 

IEEE

 

International

 

Conference

 

on

Com

uter

 

Vision

2015

2641

2649.

58

 

Lin

 

 

Maire

 

Belon

ie

 

et

 

al.Microsoft

 

co

co

Common

 

ob

ects

 

in

 

context

]//

Proceedin

 

of

the

 

Euro

ean

 

Conference

 

on

 

Com

uter

 

Vision.

rin

er

Cham

2014

740

755.

59

 

Den

 

Don

 

Socher

 

et

 

al.Ima

enet

lar

scale

 

hierarchical

 

ima

 

database

]//

Proceed

in

 

of

 

the

 

2009IEEE

 

Conference

 

on

 

Com

uter

 

Vi

sion

 

and

 

Pattern

 

Reco

nition

2009

248

255.

60

 

Krishna

 

Zhu

 

Groth

 

et

 

al.Visual

 

enome

Connectin

 

lan

ua

 

and

 

vision

 

usin

 

crowdsourced

dense

 

ima

 

annotations

.International

 

Journal

 

of

Com

uter

 

Vision

2017

123

):

32

73.

61

 

Grubin

er

 

Clou

 

Müller

 

et

 

al.The

 

ia

tc

12benchmark

 

new

 

evaluation

 

resource

 

for

 

visu

al

 

information

 

stems

]//

Proceedin

 

of

 

the

 

Inter

national

 

Worksho

 

onto

 

Ima

2006

13

22.

62

 

Escalante

 

 

Hernández

 

 

Gonzalez

 

 

et

 

al.

The

 

se

mented

 

and

 

annotatedia

 

tc

12benchmark

.Com

uter

 

Vision

 

and

 

Ima

 

Understandin

2010

114

):

419

428.

63

 

Kazemzadeh

 

Ordonez

 

Matten

 

et

 

al.Referit

ame

Referrin

 

to

 

ob

ects

 

in

 

hoto

ra

hs

 

of

 

natural

scenes

]//

Proceedin

 

of

 

the

 

2014Conference

 

on

Em

irical

 

Methods

 

in

 

Natural

 

Lan

ua

 

Processin

EMNLP

),

2014

787

798.

64

 

Tran

 

He

 

Zhan

 

et

 

al.Rich

 

ima

 

ca

tio

nin

 

in

 

the

 

wild

]//

Proceedin

 

of

 

the

 

IEEE

 

Con

ference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

Worksho

2016

49

56.

65

 

Chunseon

 

Park

 

Kim

 

Kim

 

G.Attend

 

to

 

ou

Personalized

 

ima

 

ca

tionin

 

with

 

context

 

se

uence

memor

 

networks

]//

Proceedin

 

of

 

the

 

IEEE

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

ni

tion

2017

895

903.

66

 

Wan

 

Lin

 

Shen

 

et

 

al.Skeleton

 

ke

Ima

ca

tionin

 

 

skeleton

attribute

 

decom

osition

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vi

sion

 

and

 

Pattern

 

Reco

nition

2017

7272

7281.

67

 

chkovsk

 

Paris

 

Chan

 

et

 

al.Learnin

 

ho

to

ra

hic

 

lobal

 

tonal

 

ad

ustment

 

with

 

 

database

 

of

in

ut

out

ut

 

ima

 

airs

]//

Proceedin

 

of

 

the

CVPR.IEEE

2011

97

104.

68

 

Gan

 

Gan

 

He

 

et

 

al.St

lenet

Generatin

 

at

tractive

 

visual

 

ca

tions

 

with

 

st

les

]//

Proceedin

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pa

ttern

 

Reco

nition

2017

3137

3146.

69

 

Wan

 

Chen

 

Wan

 

 

et

 

al.No

 

metrics

 

are

erfect

Adversarial

 

reward

 

learnin

 

for

 

visual

 

stor

tellin

.arXiv

 

re

rint

1804.09160

2018.

70

 

Fan

 

Wei

 

Wan

 

et

 

al.Brid

in

 

 

word

Im

 

rounded

 

vocabular

 

construction

 

for

 

visual

 

ca

tionin

]//

Proceedin

 

of

 

the

 

57th

 

Annual

 

Meetin

of

 

the

 

Association

 

for

 

Com

utational

 

Lin

uistics

2019

6514

6524.

71

 

Lin

 

 

Hov

 

E.Automatic

 

evaluation

 

of

 

summa

ries

 

usin

 

ram

 

co

occurrence

 

statistics

]//

Pro

ceedin

 

of

 

the

 

2003Human

 

Lan

ua

 

Technolo

gy

Conference

 

of

 

the

 

North

 

American

 

Cha

ter

 

of

 

the

 

As

sociation

 

for

 

Com

utational

 

Lin

uistics

2003

150

157.

72

 

Pa

ineni

 

Roukos

 

Ward

 

et

 

al.Bleu

 

meth

od

 

for

 

automatic

 

evaluation

 

of

 

machine

 

translation

]//

Proceedin

 

of

 

the

 

40th

 

Annual

 

Meetin

 

on

 

As

sociation

 

for

 

Com

utational

 

Lin

uistics.Association

for

 

Com

utational

 

Lin

uistics

2002

311

318.

73

 

Vedantam

 

Lawrence

 

Zitnick

 

Parikh

 

D.Cider

consensus

based

 

ima

 

descri

tion

 

evaluation

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vi

sion

 

and

 

Pattern

 

Reco

nition

2015

4566

4575.

期魏忠钰等

从视觉到文本

图像描述生成的研究进展综述

29

74

 

Baner

ee

 

Lavie

 

A.Meteor

An

 

automatic

 

metric

for

 

mt

 

evaluation

 

with

 

im

roved

 

correlation

 

with

 

hu

man

 

ud

ments

]//

Proceedin

 

of

 

the

 

ACL

 

Work

sho

 

on

 

Intrinsic

 

and

 

Extrinsic

 

Evaluation

 

Measures

for

 

Machine

 

Translation

 

and

or

 

Summarization

2005

65

72.

75

 

Anderson

 

Fernando

 

Johnson

 

et

 

al.S

ice

semantic

 

ro

ositional

 

ima

 

ca

tion

 

evaluation

]//

Proceedin

 

of

 

the

 

Euro

ean

 

Conference

 

on

 

Com

uter

Vision.S

rin

er

Cham

2016

382

398.

76

 

Cui

 

Yan

 

Veit

 

et

 

al.Learnin

 

to

 

evaluate

ima

 

ca

tionin

]//

Proceedin

 

of

 

the

 

IEEE

 

Con

ference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

2018

5804

5812.

77

 

Jian

 

Huan

 

Zhan

 

et

 

al.Ti

er

Text

to

ima

 

roundin

 

for

 

ima

 

ca

tion

 

evaluation

arXiv

 

re

rint

1909.02050

2019.

78

 

Mao

 

Xu

 

Yan

 

et

 

al.Dee

 

ca

tionin

 

with

multimodal

 

recurrent

 

neural

 

networks

RNN

)[

arXiv

 

re

rint

1412.6632

2014.

79

 

Donahue

 

Hendricks

 

 

Rohrbach

 

et

 

al.

Lon

term

 

recurrent

 

convolutional

 

networks

 

for

 

visu

al

 

reco

nition

 

and

 

descri

tion

]//

Proceedin

 

of

 

the

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

Reco

nition

2015

2625

2634.

80

 

Lu

 

Xion

 

Parikh

 

et

 

al.Knowin

 

when

 

to

魏忠钰

1987

—),

博士

副教授

主要研究领域为

跨视觉文本的相关研究

论辩挖掘

机器学习

化学习

mail

wei

fudan.edu.cn

王瑞泽

1996

—),

硕士研究生

主要研究领域为

跨视觉文本的相关研究

mail

rzwan

18

fudan.edu.cn

look

Ada

tive

 

attention

 

via

 

 

visual

 

sentinel

 

for

 

im

 

ca

tionin

]//

Proceedin

 

of

 

the

 

IEEE

 

Confer

ence

 

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

2017

375

383.

81

 

Gu

 

Cai

 

Wan

 

et

 

al.Stack

ca

tionin

coarse

to

fine

 

learnin

 

for

 

ima

 

ca

tionin

]//

Proceed

in

 

of

 

the

 

32nd

 

AAAI

 

Conference

 

on

 

Artificial

 

Intel

li

ence

2018.

82

 

Huan

 

Wan

 

Chen

 

et

 

al.Attention

 

on

 

at

tention

 

for

 

ima

 

ca

tionin

]//

Proceedin

 

of

 

the

IEEE

 

International

 

Conference

 

on

 

Com

uter

 

Vision

2019

4634

4643.

83

 

Yan

 

Tan

 

Zhan

 

et

 

al.Auto

encodin

scene

 

ra

hs

 

for

 

ima

 

ca

tionin

]//

Proceedin

of

 

the

 

IEEE

 

Conference

 

on

 

Com

uter

 

Vision

 

and

 

Pa

ttern

 

Reco

nition

2019

10685

10694.

84

 

Sammani

 

Melas

riazi

 

L.Show

edit

 

and

 

tell

framework

 

for

 

editin

 

ima

 

ca

tions

.arXiv

 

re

rint

2003.03107

2020.

85

 

Zhou

 

Palan

 

Zhan

 

et

 

al.Unified

 

vision

lan

ua

 

re

trainin

 

for

 

ima

 

ca

tionin

 

and

 

.arXiv

 

re

rint

1909.11059

2019.

86

 

Fen

 

Ma

 

Liu

 

et

 

al.Unsu

ervised

 

ima

ca

tionin

]//

Proceedin

 

of

 

the

 

IEEE

 

Conference

on

 

Com

uter

 

Vision

 

and

 

Pattern

 

Reco

nition

2019

4125

4134.

范智昊

1996

—),

硕士研究生

主要研究领域为

跨视觉文本的相关研究

mail

fanzh18

fudan.edu.cn


本文标签: 生成 描述 图像 模型 文本