admin 管理员组文章数量: 1086019
2024年4月12日发(作者:聊天机器人api)
第
34
卷
第
7
期
2020
年
7
月
中文信息学报
JOURNALOFCHINESEINFORMATIONPROCESSING
Vol.34
,
No.7
,
2020
Jul
y
()
文章编号
:
10030077202007001911
---
从视觉到文本
:
图像描述生成的研究进展综述
魏忠钰
1
,
范智昊
1
,
王瑞泽
2
,
承怡菁
1
,
赵王榕
1
,
黄萱菁
3
(
复旦大学大数据学院
,
上海
21.00433
;
复旦大学工程与应用技术研究院
,
上海
22.00433
;
)
复旦大学计算机科学与技术学院
,
上海
23.00433
摘
要
:
近年来
,
跨模态研究吸引了越来越多学者的关注
,
尤其是连接视觉和语言的相关课题
。
该文针对跨视觉和
——
图像描述生成
,
语言模态研究中的核心任务
—
进行文献综述
。
该文从基于视觉的文本生成框架
、
基于视觉的文
图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文
本生成研究中的关键问题
、
该文给出了几个未来的重点研究方向
,
包括跨视觉和语言模态的特征对齐
、
自动化评价
献进行介绍和总结
。
最后
,
指标的设计以及多样化图像描述生成
。
关键词
:
图像描述生成
;
跨模态特征对齐
;
文献综述
中图分类号
:
TP391
文献标识码
:
A
:
FromVisiontoTextABriefSurveforImaeCationin
ygpg
1121
,,
WAN
,
WEIZhonuFANZhihaoGRuizeCHENGYiin
gyjg
,
13
ZHAO
WanronGXuanin
gg
,
HUAN
jg
(,,;
1.SchoolofDataScienceFudanUniversitShanhai200433
,
China
yg
,,;
2.AcademforEnineerinandTechnoloFudanUniversitShanhai200433
,
China
ygggyyg
,,)
3.SchoolofComuterScienceandTechnoloFudanUniversitShanhai200433
,
China
pgyyg
:,
ears
AbstractInrecentincreasinattentionhasbeenattractedtotheresearchfieldrelatedtocrossodalit
-
m
y
gy
,
eseciallvisionandlanuae.Thissurvefocusesonthetaskofimaecationinandsummarizesliteratures
pyggygpg
,,
fourasectsincludintheoverallarchitecturesomekeforcrossodalitresearch
,
theevalu
uestions
from
-
m
-
pgyy
q
ationofimaecationinandthestateoftheartaroachestoimaecationinInconclusion
,
wesuestthree
---
gpgppgpg
.
gg
,
forfutureresearch
,
i.e.crossodalitreresentation
,
automaticevaluationmetricsanddiversetext
directions
-
m
yp
eneration.
g
:;;
Kewordsimaecationincrossodalitalinmentliteraturereview
-
m
gpgyg
y
包括构建能够对视觉信息进行处理的智
大的价值
,
0
引言
近年来
,
结合图像和文本的跨模态研究越来越
多地引起自然语言处理和机器视觉领域学者的关
]]
1345
--
。
主流的任务包括图像描述生成
[
、
注
[
机器视
6
]
7
]
、、
觉问答
[
相册故事生成
[
视觉对话生成
[
8
]
能聊天机器人
;
在社交媒体上
,
为图片或者相册自动
产生描述
;
在幼儿教育中扮演讲师的角色
;
帮助视觉
障碍人士感知周边环境的视觉内容等
。
得益于深度
学习的最新进展
,
视觉
—
文本的跨模态研究在很多
应用中取得了在自动化评价指标上的大幅度进步
。
本文将针对基于视觉的文本生成领域的最新研究进
展进行综述
。
鉴于图像描述生成是目前受到关注最
多的应用任务
,
同时包括了基于视觉的文本生成任
、
视觉
9
]
10
]
、,
以及从文本到图像的自动生
推理
[
视觉导航
[
11
]
成
[
等
。
相关的技术在很多实际应用场景中有很
收稿日期
:
2019031620190426
--
定稿日期
:
--
;;
基金项目
:
国家自然科学基金
(
国家社会科学基金
(
上海市科学技术委员会
(
71991471
)
20ZDA060
)
18DZ1201000
,
)
17JC1420200
20
中文信息学报
2020
年
务主要的技术模块
,
本文以图像描述生成作为切入
点
,
从基于视觉的文本生成框架
、
基于视觉的文本生
成的关键问题
、
图像描述生成模型的性能评价和图
像描述生成模型的主要发展过程四个方面对相关的
文献进行梳理
。
1
基于视觉的文本生成框架
基于视觉的文本生成框架主要可以分成三类
:
早期的基于模板匹配和检索的框架
、
基于神经网络
的端到端自动生成框架以及融合神经网络的组合式
生成框架
。
1.1
基于模板匹配和检索的框架
基于视觉的文本生成的早期方法大致可以分为
两类
。
第一类是基于模板匹配的方法
[
12
-
14
]
。
该类
方法先从图像中检测出相关的实体信息
(
物体
、
属
性
、
动作
),
然后将这些实体填充到手工设计的句子
模板中
,
存在的问题是生成的文本往往欠缺流利性
,
在表达的多样性方面也不能满足实际需求
。
第二类
是基于检索的方法
[
15
-
16
]
。
该类方法预先准备一批
与目标图像视觉上相似的图像
—
文本匹配语料集
合
,
然后在该语料集合上搜索与目标图片最相近的
样本
,
直接采用查询到的图片所对应的文本作为需
要生成的描述
。
该类方法的问题是依赖预先准备的
图像
—
文本匹配的语料集合
,
对于内容上差异大的
图片往往很难找到相关的匹配对象
,
因此在生成精
度上存在很大的缺陷
。
1.2
端到端的自动生成框架
针对早期框架所产生的文字存在流畅性欠缺和
不能产生新内容的缺点
,
基于深度神经网络的端到
端模型可以潜在地解决这两个问题
。
端到端的学习
框架
[
17
]
包括编码器和解码器两个基本部件
,
其中编
码器将输入的信息转换成低维稠密的隐式向量
,
再
通过解码器将该隐式向量转换成目标输出
。
该学习
范式最早应用在机器翻译的场景
,
并取得了显著的
性能提升
。
研究者于是将端到端的学习框架引入到
针对视觉信息的自动化描述任务中
[
4
]
。
在该框架
中
,
编码器由在大规模图像分类中被证明有效的多
层卷积神经网络
(
CNN
)
构成
,
以实现对图像进行视
觉信息的特征提取
[
18
-
19
]
。
解码器则由在语言模型
构建方面表现良好的循环神经网络
(
RNN
)
构成
,
包
括长短时记忆网络
[
20
]
(
LSTM
)
和带门控机制的循
环神经网络
[
21
]
(
GRU
),
RNN
对于句子的生成依循
逐字的方式进行
,
以图像特征作为初始状态
,
每一个
时间片使用前一个时间片产生的隐藏状态和生成单
词作为输入
,
产生这个时间片的单词
。
最近
,
也有学
者在编码器和解码器端使用
transformer
作为文本
生成的基本部件
[
22
]
。
当前
,
端到端的生成方式是基
于视觉的文本生成任务的主流框架
,
不同模型的差
别在于采用不同的视觉特征抽取方式
,
以及采用
RNN
的不同变种进行自动化的文本生成
。
基于端
到端的生成框架在生成文本的流畅性方面有很大的
提高
,
但是视觉和文本的关联仅仅通过中间的隐藏
表示构建
,
这使得生成的文本包含一些不可控的结
果
,
如生成与图片信息无关的文字
。
.3
融合神经网络的组合式的框架
针对端到端框架会产生不确定性生成结果的缺
点
,
学者研究组合式的框架进行图像描述的自动化
生成
。
该框架主要包含两个部件
,
视觉语义提取和
结合视觉语义的描述生成
。
文献
[
23
]
的研究首先从
图像中发现一组语义概念
,
以名词
、
动词和形容词的
形式表征
。
基于语义概念
,
语言模型被用来生成多
个候选描述
。
最后
,
多模态的相似度计算模型为候
选描述进行重要性排序
,
并从中选择得分最高的作
为输出
。
文献
[
24
]
沿用了早期基于模板匹配的图像
文本生成的思路
,
采用神经网络模型对两个基础模
块进行替换
,
以达到对传统的基于模板匹配的方法
和基于神经网络的端到端方法的调和作用
。
该方法
首先从整体的视觉信息中自动化地构建句子
“
模
板
”,
模板的每一个空格可以关联到图像中的一个局
部区域
。
在第二个步骤中
,
从槽位相关联的局部图
像中进行物体识别
,
并将检测的物体填充到模板中
作为最后的描述
。
文献
[
25
]
进一步修正文本生成模
块
,
抛弃了基于
RNN
的文本生成组件
。
该框架包
含两个步骤
,
首先
,
从视觉信息中发现一些明确的语
义表示单元
,
以短语的形式表示
。
其次
,
用短语拼接
的方法来形成最后的图像描述
。
组合式的框架在生
成文本的准确性上相较单纯的端到端模型有一定程
度的性能提升
,
但是非端到端模型在生成文本的流
畅性方面则有不可避免的缺陷
。
这也是目前针对该
类方法进行提升的主要方向
。
基于视觉的文本生成的关键问题
基于视觉信息的文本生成主要包含四个核心的
1
2
7
期魏忠钰等
:
从视觉到文本
:
图像描述生成的研究进展综述
21
研究问题
:
视觉端的特征表示
、
视觉与文本的特征
对齐
、
加入强化学习的图像描述生成
,
以及多样化图
像描述生成
。
2.1
视觉端的特征表示
当前研究在视觉端的特征提取
,
往往以两种基
本形式存在
:
视觉表示和文本概念
。
视觉表示代表
从图像中直接提取的特征信息
。
早期的工作
,
将图
像划分为大小相等的视觉区域
,
再基于
CNN
[
26
]
对
图像区域进行顺次的卷积处理
,
过程中不编码更细
粒度的信息
。
按照指定大小划分得到的图像区域
,
往往难以灵活捕捉图像中包含的实体信息
,
这限制
了对于图像端的语义理解
。
为了更好地进行图片信
息的特征提取
,
研究者开始采用
R
-
CNN
[
27
]
进行视
觉端的信息处理
,
该方法采用物体检测模型作为特
征提取器
,
在图片中划定大小不等的边框
,
并从中发
现实体信息
,
作为视觉信息的表示
。
该方法依赖于
物体检测模型的实体识别能力
,
同时也受限于物体
检测模型所使用的语料集合中包含的标注标签个
数
。
基于
R
-
CNN
,
研究者进一步设计了在实际应用
中更高效的
Faster
R
-
CNN
[
28
]
,
并得到更广泛的使
用
。
仅仅依靠图像处理的视觉信息提取方法建构视
觉信息特征无法解决视觉信息与文本之间存在的语
义鸿沟
。
为了在视觉端的特征提取中考虑语义信
息
,
相关研究
[
29
-
31
]
将图像的语义概念识别转换成多
标签分类问题
,
采用单词
、
短语作为语义的表示单
元
,
并通过不同的方式
(
注意力机制
,
嵌入到循环神
经网络的解码单元中
)
将这一组语义单元作用到文
本解码的过程中
。
最近
,
有研究者
[
32
]
引入场景图的
方法将视觉特征和语义信息相结合作为图片端的特
征表示
。
场景图中的节点代表视觉信息中发现的视
觉实体
,
而场景图的边则是基于语义信息的实体关
系
。
然而
,
为了构造场景图
,
需要复杂的流水线
,
并
且不能避免错误传播
。
这在某种程度上限制了场景
图在更多场景进行推广
。
2.2
视觉与文本的特征对齐
在跨模态的相关研究中
,
核心部件是不同模态
信息的联合表示学习
。
在端到端的学习框架中
[
4
]
,
基于卷积神经网络的视觉特征抽取模块将图像信息
表征成低维稠密向量
,
而基于循环神经网络的文本
生成部件则从该低维稠密向量中逐字生成图像相关
的描述
。
这个过程假设了整张图片的信息和待生成
文本的信息共享了一个隐空间
,
以低维稠密向量表
示
。
卷积神经网络和循环神经网络的参数在一个联
合训练的框架下完成
。
文献
[
5
]
使用两个任务分别
针对图像特征提取和循环神经网络的参数进行训
练
。
在卷积神经网络部分
,
一个图像特征和句子特
征对齐的任务被构造用来进行参数学习
。
在循环神
经网络部分
,
图像特征提取器的参数被固定
,
句子生
成任务被用来进行参数学习
。
在这种句子生成框架
中
,
图像特征以隐状态的形式仅仅直接影响首个单
词的生成
,
对于句子中其他单词生成的影响则是间
接的
。
随着句子长度的增加
,
图像特征对于单词生
成的影响慢慢淡化
,
导致句子的生成更多地受到
语言模型的影响
,
而不能很好地描绘图像中的具
体信息
。
为了进一步关联局部图像特征和句子中
字词的生成过程
,
采用注意力机制来进行基于视
觉信息的文本生成任务
。
注意力机制最早在机器
翻译领域被提出作为编码器
—
解码器框架的一个
补充部件
[
33
]
,
在解码器生成单词时
,
用来在输入序
列中寻找最能提供辅助信息的序列单元部件
。
文
献
[
34
]
引入注意力机制连接文本生成过程和图片
中的局部区域特征
,
在解码某个单词时
,
解码器计
算图片局部区域对于该单词的决策权重
,
并采用
加权平均的方法引入图片区域特征来计算单词的
生成概率分布
。
学者将这种关联图像区域特征和
文本生成的注意力框架称为自顶向下的方案
,
而
将关联图像中的实体特征和文本生成的方法称为
自底向上的方案
。
文献
[
35
]
结合了自顶向下和自
底向上两种模式
,
自底向上的机制采用
Faster
-
CNN
[
28
]
从图像中选取有显著意义的区域
,
在解
码每个单词的时候
,
使用其关联的局部图像特征
的重要性权重
,
重新调整
Faster
R
-
CNN
发现的实
体的重要性
,
用来计算单词的生成概率向量
。
随着预训练模型在视觉和文本单一模态场景中
的成功应用
,
如
BERT
[
36
]
、
ResNet
[
37
]
等
,
学者开始
研究结合视觉和文本的预训练模型
。
基本的研究思
路借鉴
BERT
等的预训练模型
,
将视觉与语言的混
合表示以序列的方式输入到基于
transformer
的框架
中
,
然后依照自监督的方式进行优化
。
到目前为止
,
出现了
VisualBert
[
38
]
、
Unicoder
-
VL
[
39
]
、
VL
-
BERT
[
40
]
、
ViLBERT
[
41
]
、
LXMERT
[
42
]
和
UNITER
[
43
]
等研究
工作
。
依据处理文本和图片的方式
,
相关工作可以
分成两大类
:
单流编码
(
VisualBert
、
Unicoder
-
VL
、
VL
-
BERT
和
UNITER
)
和双流编码
(
ViLBERT
和
XMERT
)。
单流编码将图片和句子拼接成一个序
R
L
22
中文信息学报
2020
年
列
,
输入到同一个编码器中
,
同时对两种模态的信息
进行编码
。
双流编码则认为图片和文本的底层表示
有着不同的特性
,
所以先采用不同的编码器对图片
和文本进行单模态编码
,
之后再通过互注意力机制
对两种模态进行联合编码
。
这些预训练模型采用的
自监督训练任务包括
,
遮盖语言模型
、
遮盖区域分
类
/
回归
、
视觉文本匹配以及视觉问答
。
遮盖语言模
型和
B
但在推断被遮盖
ERT
的训练任务基本类似
,
的单词时
,
更希望模型学会从视觉信息中寻找线索
。
)、)
动作
(
与
构造三个关键要素
,
即状态
(
stateaction
)。
状态就是解码过程中每个时间片的
奖励
(
reward
隐藏状态表示
,
而动作是对当前时刻生成单词的选
择
,
奖励一般采用自动化的评价指标
。
基于强化学
习的基本方法存在模型训练不稳定的问题
。
该问题
产生的原因是模型执行过程中计算期望梯度时会产
生较高的方差
,
其中一种解决办法是加上基线模型
[
4
]
(
的约束
。
比如在
MIXER
4
mixedincremental
)
中
,
基线就是一个简单的多
cross
entroreinforce
-
py
遮盖区域和遮盖语言的本质是相同的
,
只不过遮盖
的部件从字符变成了某个图片区域
。
视觉文本匹配
任务和
BERT
中的后续句子推断任务相似
,
通过构
造负样例的方式来判断文本和图片是否匹配
。
虽然
跨模态的预训练模型越来越多地引起学者的关注
,
但是在跨模态文本生成方面的应用还没有起步
。
鉴
于跨模态的联合表示学习在当前的图像描述生成研
究中并未引起足够关注
,
未来如何将跨模态的预训
练模型融入到图像描述生成中会是一个研究的
重点
。
.3
引入强化学习的图像描述生成
在图像描述生成任务中
,
基于神经网络的文本
生成解码器将每一个单词的产生看成一个分类问
题
,
并使用交叉熵损失函数来进行文本生成模型的
训练
。
这样的模型训练方式存在两个问题
,
一个被
称为暴露偏置
(
ex
p
osure
bias
),
即在训练时
,
模型当
前时刻的输入是来自训练集的真实单词
,
而在测试
时
,
输入的却是上一时刻的预测结果
,
一旦模型单步
表现不佳
,
就会导致误差累积
,
从而影响整体的生成
效果
;
另一个问题被称为损失评估失配
(
loss
-
evalu
-
tion
mismatchin
g
),
即在训练时
,
模型采用交叉熵
损失函数来评估生成结果的好坏
,
而在测试时
,
却采
用其他的自动化评价指标
(
见
3.2
节
),
存在训练和
测试评估方式不一致的问题
,
从而影响模型在测试
时的表现
。
为了解决上述问题
,
文献
[
44
]
引入强化学习
进行模型训练
,
以解决模型训练和测试过程的不
一致问题
。
一方面
,
采用计划采样
(
scheduled
sam
-
lin
g
)
的方法在训练时也采用上一时刻产生的词
语
,
从而解决暴露偏置的问题
;
另一方面
,
强化学
习可以在训练时通过最大化一些测试时采用的评
价指标来完成模型参数的更新
,
从而解决损失评
估失配问题
。
强化学习的方法在图像描述任务中的应用需要
个采样样本的奖励均值
。
在
SCST
[
45
]
(
self
-
critical
e
q
uence
trainin
g
)
中
,
这个基线采用固定策略采样
(
贪婪搜索或者束搜索
)
进行奖励计算
。
还有一些方
法比如
actor
-
critic
[
46
]
,
则训练一个评论
(
critic
)
网络
来估算奖励
。
目前
,
引入强化学习进行图像描述生成的模
型训练方法一般遵循以下流程
:
先采用交叉熵损
失函数进行模型训练
,
当性能达到一定程度之后
,
再以自动化评价指标为奖励
,
使用强化学习进行
模型训练
。
经过强化学习训练过的模型通常可以
具有更好的性能
,
因此当前针对图像描述的模型
往往会配置使用强化学习的版本进行有针对的性
能比较
。
.4
多样化图像描述生成
不同的人在对同一张图像进行描述时
,
往往
会产生不同的描述语言
,
为了使机器产生的文本
能够具有多样性和创新性
,
学者开始研究多样化
的图像描述生成方法
。
文献
[
47
]
在句子生成阶段
产生多个样本
,
并引入惩罚因子
,
对生成样本之间
重复的词进行惩罚以激励产生更多样化的句子
。
文献
[
48
]
尝试在互相不重叠的数据集分割中单独
训练文本生成器
,
以通过不同的文本生成器来产
生多样性的句子
。
文献
[
49
]
在训练的过程中生成
多个候选句子
,
并使用核方法来计算句子之间的
相似性
,
随后将相似性计算模型加入到对抗生成
网络中
,
以激励生成器达成生成的多样化
。
文献
[
50
]
在问题生成这个场景中
,
将问题类型和图片
信息一起建模
,
以达到产生多样化问题的目的
。
文献
[
51
]
将图片中的物体作为先验信息加入到变
分自编码器的隐空间中
,
引导面向不同物体的描
述生成
,
文献
[
52
]
更精细地在变分自编码器的隐
空间当中去建模词汇和语法结构
。
文献
[
53
]
认为
生成模型之所以缺乏多样性
,
是因为生成模型会
倾向于选择在数据集合中出现频率更高
(
相对来
2
a
p
s
2
7
期魏忠钰等
:
从视觉到文本
:
图像描述生成的研究进展综述
23
说更安全
)
的词
。
生成内容的多样性以及图片和
内容的相关性其实是一体两面
。
他们因此通过负
采样的方法
,
训练模型辨识图片和句子的相关性
,
并通过对抗生成网络来强化生成器在这方面的性
能
。
文献
[
54
]
也讨论了相同的问题
,
并引入了
RankGAN
,
该方法虽然在自动化指标上稍有逊色
,
但在人工评价上显示出更优越的效果
。
文本生成的多样性评估可以从数据集和单个样
例两个方面进行
。
在数据集方面
:
①
计算生成的描
述没有出现在训练数据集中的比例
,
②
计算基于图
片生成的描述中包含的词汇数量
。
前一个指标越
高
,
表示生成的描述在创新性方面的得分越低
;
后者
的指标越高
,
表示生成的描述的多样化程度越高
。
在单个样例方面
,
学者提出
Dist
-
n
[
55
]
和
mBLEU
[
48
]
来度量生成的多个句子之间的相似
(
不相似
)
性
,
从
而考量描述的多样化程度
。
Dist
-
n
统计针对单个图
像生成的多个描述中不重复的
n
元组个数
。
mBLEU
在为目标图像生成的多个描述中每次选取
一个描述
,
并计算它与其他描述之间的
BLEU
值
。
因为
BLEU
是基于
n
元组的相似性度量指标
,
所以
mBLEU
越低说明生成的句子之间的差异性越大
,
表明生成的描述多样性越好
。
3
图像描述生成模型的性能评价
3.1
图像描述生成的评测语料集
适用于图像描述生成任务的数据集主要有
:
Flickr8k
[
15
]
、
Flickr30k
[
56
-
57
]
和
MS
COCO
[
58
]
。
在
预训练图像识别或者特征对齐模块时
,
常用到的数
据集有
:
Ima
g
eNet
[
59
]
和
Visual
Genome
[
60
]
。
除此以
外
,
经常被使用的语料集还包括
IAPR
TC
-
12
[
61
-
62
]
、
ReferIt
[
63
]
、
Insta
g
ram
[
64
-
65
]
、
Stock3M
[
66
]
、
MIT
-
Adobe
FiveK
[
67
]
、
FlickrSt
y
le10k
[
68
]
等
。
表
1
呈现了各个语
料集的详细介绍
。
Flickr8k
是第一个公开的大规模
图像和描述匹配的语料集
,
扩充版本
Flickr30k
一
共包含了
31
783
张图片
,
每张图片有
5
个人工产生
的描述
。
在扩充版本中
,
Flickr30k
还包含了实体标
注
。
MS
COCO
在图片规模上有很大的提升
,
包含
了超过
16
万张图片
,
并且每张图片中有
7.7
个实体
标注
,
一共包括了
80
个实体类别
,
因此可以针对图
像物体检测和描述生成两个应用同时开展研究
。
Visual
Genome
的语料集则有更加细粒度的标注
,
包含与图片中局部区域相关联的较短的描述
,
因此
可以满足多样化描述生成的研究需求
;
同时
,
该语料
集包含了场景图的标注信息
,
一般用来预训练场景
图的构建模型
。
表
1
视觉文本生成相关语料集
名称
图片描述实体实体场景
数量个数种类个数图
Flickr8k
[
15
]
8
000
5
———
Flickr30k
[
56
,
67
]
31
783
5
—
8.9
—
MS
COCO
[
58
]
164
062
5
80
7.7
—
ma
g
eNet
[
59
]
14
197
122
—
21
841
1
—
Visual
Genome
[
60
]
108
077
50
76
340
16
是
APR
TC
-
12
[
61
-
62
]
20
000
2
255
5.0
—
ReferIt
[
63
]
19
894
6.6
—
4.8
—
nsta
g
ram
[
64
-
65
]
1
100
000
1
———
Stock3M
[
66
]
3
217
654
1
———
MIT
-
Adobe
Fivek
[
67
]
5
000
————
Flickr
-
St
y
le10k
[
68
]
10
000
7
—
8.9
—
.2
图像描述生成的评价方法
对图像描述生成模型的评价
,
指的是依据给定
的图像判断模型所生成描述的质量
。
当前的主流评
价方法主要包括以下三种类型
。
第一
,
人工评价
。
人工设计一些评价指标
,
比
如
,
表达的流畅度
、
与图片的相关度
、
表达的多样化
程度等
[
69
-
70
]
。
人工的评分结果一般通过网上众包
的形式进行收集
。
人工评价的方法可以准确反映图
像描述模型的性能
,
但是操作的过程中需要引入大
量的标注者
,
从而影响了评价的灵活性
。
第二
,
基于规则的自动化评价方法
。
该方法提
前为图片收集固定数量的人工撰写的参考描述
,
并
采用关键词匹配的技术
,
计算模型生成描述与参考
描述之间的重叠程度作为模型的性能评价
。
主流的
指标包括
ROUGE
[
71
]
、
BLEU
[
72
]
、
CIDEr
[
73
]
、
ME
-
TEOR
[
74
]
和
SPICE
[
75
]
。
BLEU
被广泛地使用在机
器翻译中
,
其主要计算模型生成的描述与参考描述
之间的
n
元组重合程度
,
重合程度越高
,
生成描述的
I
I
I
3
24
中文信息学报
2020
年
质量就越高
。
不同元组的选择可以从不同的侧面反
映生成描述的质量
,
单元组
(
的准确率可
ram
)
uni
-
g
以用于评估单词级别的生成准确性
,
更高阶的元组
准确率可以用来判断句子的整体流畅性
。
该指标更
关注生成的准确率
,
即更关心生成描述里有多少
n
参考描述之间的相关度
。
基于学习的自动化评价虽
然增加了灵活性
,
但是评价模型本身是参数化的
,
因
此也有被图像描述模型攻击和欺骗的风险
。
4
图像描述生成模型的主要发展过程
元组是对的
。
ROUGE
[
71
]
最早被用来评价文本摘要
模型的质量
,
它与
BLEU
的计算公式非常相似
,
但
它只计算召回率
,
考虑参考描述中有多少元组被机
器生成的描述覆盖
。
为了在评价过程中考虑相同语
义不同表达的句子
,
学者提出了
METEOR
[
74
]
,
它
引入一个外部资源库
(
WordNet
)
对词语的同义词进
行考虑
,
同时也考虑单词的词形
(
stemmin
g
)。
在评
价句子流畅性时
,
用词块
(
chunk
)
作为基本评价单
元
,
考虑了调和召回率和准确率的
F
值作为最终评
价指标
。
相比
BLEU
和
ROUGE
,
METEOR
引入
了外部资源和额外的句子分块算法
,
这也给其评价
结果带来一些不稳定性
。
CIDEr
[
73
]
是针对图像描
述任务提出的
,
它同样采用
n
元组作为基本评价单
元
,
并采用词频和倒排文档频率
(
TF
-
IDF
)
作为
n
元
组的权重
,
这样可以降低高频
n
元组对于结果的影
响
。
最近
,
学者提出
SPICE
[
75
]
来考察图像中的实体
和实体间关系是否被图像描述生成模型考虑
。
该指
标为机器生成描述构建场景图
,
并与基于图像构建
的场景图进行相关性计算
,
从而达到衡量生成描述
对于图像中包含的实体和实体间关系的覆盖度的
目的
。
第三
,
基于学习的自动化评价方法
。
该方法构
建一个机器学习模型直接计算图像描述生成模型产
生的描述和给定图片之间的相关度
。
文献
[
76
]
引入
对抗生成的方法
,
训练一个判别器
,
在给定图片和一
个候选描述的情况下
,
判定有多大概率这个候选描
述是人工产生的
,
分数越高则该描述的质量越高
。
在训练过程中
,
他们自动化地为给定图片产生一些
不相关的描述作为负样本
,
用以训练判别器
。
文献
[
77
]
结合了基于学习和规则的方法
,
综合考量机器
生成的描述与图片的相关度
,
以及机器生成的描述
与参考描述的相关度
。
在生成描述与图片相关度方
面
,
他们采用预训练的视觉和文本的对齐模块
,
计算
机器生成的描述与图片区域之间的关联分布向量
。
分布向量的集中度越高
,
则相关度越高
。
在生成描
述与参考描述的相关度计算方面
,
他们通过图片区
域将二者进行关联
,
从而细粒度地评价生成描述和
近年来
,
基于神经网络的端到端模型作为主流
的图像描述生成模型
,
在公开评测语料集上不断刷
新各种评测指标的记录
。
因此
,
在本节中
,
我们主要
针对这一类别的方法进行发展进程的介绍
。
早期的
研究工作主要集中于通过基于卷积神经网络
(
CNN
)
和循环神经网络
(
RNN
)
的基础端到端框架
来生成图像描述
[
4
-
5
,
23
,
78
-
79
]
;
随后
,
针对多模态特征
对齐问题
,
研究人员提出了不同的注意力机制
,
从图
像特征和语言特征方面对图像标注进行改
进
[
31
-
32
,
34
-
35
,
46
,
80
-
82
]
;
同时
,
不同于使用交叉熵作为优
化目标的方法
,
一些研究人员采用强化学习方法
,
将
自动评价指标
(
一般选用
CIDEr
或
METEOR
)
作为
优化目标来训练模型
[
16
,
32
,
35
,
46
,
81
-
84
]
。
将自动评价指
标作为优化目标已经成为目前图像描述生成工作中
主流的实验设置
。
最近一些研究工作通过目标检测
算法
(
如
Faster
R
-
CNN
)
提取图像中的物体区域
,
来
引入更为丰富多样的信息
,
如物体
、
属性和关系
等
[
24
,
32
,
35
]
。
随着预训练语言模型在自然语言处理领
域的兴起
,
也出现了跨模态预训练模型的工作
。
比
如
,
Zhou
等人
[
85
]
提出了一种视觉
—
语言预训练模
型
,
可以应用到视觉
—
文本生成和理解任务当中
;
此
外
,
最近也出现了一些从其他方面进行探究的开创
性工作
:
Fen
g
等人
[
86
]
使用了视觉概念
(
conce
p
t
)
作
为连接图像和文本的桥梁
,
将无监督学习应用到图
片标注任务当中
;
Sammani
等人
[
84
]
提出了一种自适
应
“
编辑
”
网络
,
可以对生成的描述进行迭代地润色
。
MS
COCO
数据集目前已经成为研究人员在图
像标注任务上进行性能评测的首选
。
由于官方测试
集的真实标签没有公布
,
大多数研究人员常使用
Kar
p
ath
y
等人
[
5
]
的数据集分割方式
,
进行离线验证
和测试
,
不同的图像标注模型在
MS
COCO
Kar
p
ath
y
测试集
[
5
]
上的性能如表
2
所示
。
为了和
最先进的模型进行在线性能比较
,
部分工作会进一
步使用
MS
COCO
官方测试集进行测试
,
并将结果
上传到评估服务器进行评测
,
不同的图像标注模型
在
MS
COCO
评估服务器上的性能如表
3
所示
。
7
期魏忠钰等
:
从视觉到文本
:
图像描述生成的研究进展综述
[
5
]
表
2
不同的图像标注模型在
M
上的性能
SCOCO
测试集
(
Karath
py
)
25
方法
BLEU1
-
GooleNIC
4
g
BRNN
5
[]
[]
MSCOCO
BLEU2
-
46.1
45.0
49.0
50.4
58.0
—
62.5
—
—
—
22.5
—
—
—
65.3
BLEU3
-
32.9
32.1
35.0
35.7
43.9
—
47.9
—
—
—
11.2
—
—
—
51.1
BLEU4
-
24.6
23.0
25.0
25.0
33.2
34.2
36.1
36.3
34.7
38.3
5.6
38.4
38.9
39.5
39.2
METEOROUGE
R
-
L
—
19.5
—
23.0
26.6
26.7
27.4
27.7
27.1
28.6
12.4
28.4
29.2
29.3
—
—
—
—
—
—
55.7
56.9
56.9
—
58.5
28.7
58.6
—
—
58.9
CIDEr
—
66.0
—
—
108.5
114.0
120.4
120.1
107.2
128.7
28.6
127.8
129.8
129.3
128.9
SPICE
—
—
—
—
20.4
—
20.9
21.4
20.1
22.1
8.1
22.1
22.4
23.2
22.6
66.6
62.5
67.0
71.8
74.2
8
m
-
RNN
7
[]
4
Hardtt
3
-
A
0
Adative
8
p
[]
[]
6
SCST
:
Att2all
4
81
StackCa
p
[]
[]
—
78.6
79.8
75.5
5
Uown
3
-
D
p
4
NBT
2
[]
[]
2
GCN
-
LSTM
3
6
UIC
8
[]
[]
80.9
41.0
80.8
80.2
—
80.6
3
SGAE
8
[]
2
AoANet
8
[]
5
UnifiedVL
8
4
ETN
8
[]
[]
代表使用了不同的测试集分割
。
注
:
表
3
不同的图像描述生成模型在
MSCOCO
评估服务器上的性能
MSCOCO
方法
BLEU1
-
C5
GooleNIC
4
g
[]
BLEU2
-
C5C40
BLEU3
-
C5C40
BLEU4
-
C5C40
METEOROUGE
R
-
L
C5C40C5C40
CIDEr
C5C40
SPICE
C5C40C40
71.39.54.20.20.79.40.98.75.44.63.08.24.34.618.23.6
8
5
8
4
6
3
5
2
3
5
6
9
9
6
[]
3
MSCativator
2
p
8
m
-
RNN
7
9
LRCN
7
[]
[]
71.50.74.31.90.71.00.80.14.83.92.68.03.13.718.00.9
9
5
8
4
7
3
6
2
3
5
6
9
9
6
71.69.04.59.80.48.79.97.54.22.52.16.61.73.517.40.0
8
5
7
4
6
2
5
2
3
5
6
9
9
6
71.89.54.80.40.99.50.68.54.73.52.87.82.13.417.79.9
8
5
8
4
6
3
5
2
3
5
6
9
9
5
70.58.12.87.98.35.87.73.74.12.21.65.46.59.317.29.8
8
5
7
3
6
2
5
2
3
5
6
8
8
5
73.10.06.51.52.40.91.69.95.03.53.58.24.35.818.23.1
9
5
8
4
7
3
5
2
3
5
6
9
9
6
74.82.08.44.54.44.43.63.76.45.95.00.504.2105.919.77.3
9
5
8
4
7
3
6
2
3
5
7
1
6
4
Hardtt
3
-
A
[]
1
ATTFCN
3
-
0
Adative
8
p
[]
[]
6
SCST
:
Att2all
4
81
StackCa
p
[]
[]
78.13.71.96.07.05.95.24.57.05.56.30.714.7116.720.78.9
9
6
8
4
7
3
6
2
3
5
7
1
6
77.83.21.66.16.86.04.94.67.05.66.20.614.8118.3
—
9
6
8
4
7
3
6
2
3
5
7
1
—
5
Uown
3
-
D
p
[]
80.25.24.18.89.19.46.98.57.66.77.12.417.9120.521.51.5
9
6
8
4
7
3
6
2
3
5
7
1
7
——
65.59.30.80.38.79.78.57.68.53.425.3126.5
—
8
5
8
3
6
2
3
5
7
1
—
—
2
GCN
-
LSTM
3
2
AoANet
8
[]
[]
81.05.05.89.61.41.39.41.29.18.58.94.526.9129.6
—
9
6
8
5
8
3
7
2
3
5
7
1
26
中文信息学报
2020
年
5
结论
本文回顾了近年来研究领域在图像描述生成模
型方面的研究进展
。
虽然相关研究在自动化评价指
标方面有长足发展
,
但受限于真实场景的复杂性
,
对
于图像的自动化描述离实际应用依然存在不小的差
距
。
以下三个方面或许是未来的研究重点
,
包括基
于跨模态预训练模型的图像描述生成框架研究
、
基
于视觉的文本生成评价方法
、
面向应用的多样化文
本生成框架研究
。
参考文献
[
1
]
He
X
,
Den
g
L.Dee
p
learnin
g
for
ima
g
e
-
to
-
text
g
enera
-
tion
:
A
technical
overview
[
J
]
.IEEE
Si
g
nal
Processin
g
Ma
g
azine
,
2017
,
34
(
6
):
109
-
116.
[
2
]
Hossain
M
Z
,
Sohel
F
,
Shiratuddin
M
F
,
et
al.Acom
-
p
rehensive
surve
y
of
dee
p
learnin
g
for
ima
g
e
ca
p
tionin
g
[
J
]
.ACM
Com
p
utin
g
Surve
y
s
,
2019
,
51
(
6
):
1
-
36.
[
3
]
Zhan
g
C
,
Yan
g
Z
,
He
X
,
et
al.Multimodal
intelli
-
g
ence
:
Re
p
resentation
learnin
g
,
information
fusion
,
and
a
pp
lications
[
C
]//
Proceedin
g
s
of
IEEE
Journal
of
Selected
To
p
ics
in
Si
g
nal
Processin
g
,
2020.
[
4
]
Vin
y
als
O
,
Toshev
A
,
Ben
g
io
S
,
et
al.Show
and
tell
:
A
neural
ima
g
e
ca
p
tion
g
enerator
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2015
:
3156
-
3164.
[
5
]
Kar
p
ath
y
A
,
Fei
-
Fei
L.Dee
p
visual
-
semantic
ali
g
n
-
ments
for
g
eneratin
g
ima
g
e
descri
p
ttions
[
C
]//
Pro
-
ceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2015
:
3128
-
3137.
[
6
]
Antol
S
,
A
g
rawal
A
,
Lu
J
,
et
al.V
q
a
:
visual
q
uestion
answerin
g
[
C
]//
Proceedin
g
s
of
the
International
Con
-
ference
on
Com
p
uter
Vision
,
2015
:
2425
-
2433.
[
7
]
Tin
g
-
Hao
Huan
g
,
Ferraro
F
,
et
al.Visual
stor
y
tellin
g
[
C
]//
Proceedin
g
s
of
the
2016Conference
of
the
North
American
Cha
p
ter
of
the
Association
for
Com
p
utation
-
al
Lin
g
uistics
:
Human
Lan
g
ua
g
e
Technolo
g
ies
,
2016
:
1233
-
1239.
[
8
]
Das
A
,
Kottur
S
,
Gu
p
ta
K
,
et
al.Visual
dialo
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vi
-
sion
and
Pattern
Reco
g
nition
,
2017
:
326
-
335.
[
9
]
Johnson
J
,
Hariharan
B
,
van
der
Maaten
L
,
et
al.
Clevr
:
A
dia
g
nostic
dataset
for
com
p
ositional
lan
g
ua
g
e
and
elementar
y
visual
reasonin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2017
:
2901
-
2910.
[
10
]
Zhu
Y
,
Motta
g
hi
R
,
Kolve
E
,
et
al.Tar
g
et
-
driven
visual
navi
g
ation
in
indoor
scenes
usin
g
dee
p
rein
-
forcement
learnin
g
[
C
]//
Proceedin
g
s
of
the
2017
IEEE
International
Conference
on
Robotics
and
Auto
-
mation
,
2017
:
3357
-
3364.
[
11
]
Reed
S
,
Akata
Z
,
Yan
X
,
et
al.Generative
adversari
-
al
text
to
ima
g
e
s
y
nthesis
[
J
]
.arXiv
p
re
p
rint
:
1605.
05396
,
2016.
[
12
]
Farhadi
A
,
He
j
rati
M
,
Sade
g
hi
M
A
,
et
al.Ever
y
p
icture
tells
a
stor
y
:
Generatin
g
sentences
from
ima
-
g
es
[
C
]//
Proceedin
g
s
of
the
Euro
p
ean
Conference
on
Com
p
uter
Vision.S
p
rin
g
er.Berlin.Heidelber
g
,
2010
:
15
-
29.
[
13
]
Kulkarni
G
,
Premra
j
V
,
Ordonez
V
,
et
al.Bab
y
talk
:
Understandin
g
and
g
eneratin
g
sim
p
le
ima
g
e
descri
p
-
tions
[
J
]
.IEEE
Transactions
on
Pattern
Anal
y
sis
and
Machine
Intelli
g
ence
,
2013
,
35
(
12
):
2891
-
2903.
[
14
]
Li
S
,
Kulkarni
G
,
Ber
g
T
L
,
et
al.Com
p
osin
g
sim
p
le
ima
g
e
descri
p
tions
usin
g
web
-
scale
n
-
g
rams
[
C
]//
Proceedin
g
s
of
the
15th
Conference
on
Com
p
utational
Natural
Lan
g
ua
g
e
Learnin
g
.Association
for
Com
p
u
-
tational
Lin
g
uistics
,
2011
:
220
-
228.
[
15
]
Hodosh
M
,
Youn
g
P
,
Hockenmaier
J.Framin
g
im
-
a
g
e
descri
p
tion
as
a
rankin
g
task
:
data
,
models
and
e
-
valuation
metrics
[
J
]
.Journal
of
Artificial
Intelli
g
ence
Research
,
2013
,
47
(
1
):
853
-
899.
[
16
]
Ordonez
V
,
Kulkarni
G
,
Ber
g
T
L.Im2text
:
Descri
-
bin
g
ima
g
es
usin
g
1million
ca
p
tioned
p
hoto
g
ra
p
hs
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Infor
-
mation
Processin
g
S
y
stems
,
2011
:
1143
-
1151.
[
17
]
Sutskever
I
,
Vin
y
als
O
,
Le
Q
V.Se
q
uence
to
se
-
q
uence
learnin
g
with
neural
networks
[
C
]//
Proceed
-
in
g
s
of
the
Advances
in
Neural
Information
Process
-
in
g
S
y
stems
,
2014
:
3104
-
3112.
[
18
]
Krizhevsk
y
A
,
Sutskever
I
,
Hinton
G
E.Ima
g
enet
classification
with
dee
p
convolutional
neural
networks
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Infor
-
mation
Processin
g
S
y
stems
,
2012
:
1097
-
1105.
[
19
]
He
K
,
Zhan
g
X
,
Ren
S
,
et
al.Dee
p
residual
learnin
g
for
ima
g
e
reco
g
nition
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
ni
-
tion
,
2016
:
770
-
778.
[
20
]
Hochreiter
S
,
Schmidhuber
J.Lon
g
short
-
term
mem
-
or
y
[
J
]
.Neural
Com
p
utation
,
1997
,
9
(
8
):
1735
-
1780.
[
21
]
Chun
g
J
,
Gulcehre
C
,
Cho
K
,
et
al.Gated
feedback
recurrent
neural
networks
[
C
]//
Proceedin
g
s
of
the
In
-
ternational
Conference
on
Machine
Learnin
g
,
2015
:
2067
-
2075.
[
22
]
Herdade
S
,
Ka
pp
eler
A
,
Boak
y
e
K
,
et
al.Ima
g
eca
p
-
tionin
g
:
Transformin
g
ob
j
ects
into
words
[
C
]//
Pro
-
ceedin
g
s
of
the
Advances
in
Neural
Information
Pro
-
7
期魏忠钰等
:
从视觉到文本
:
图像描述生成的研究进展综述
27
cessin
g
S
y
stems
,
2019
:
11135
-
11145.
[
23
]
Fan
g
H
,
Gu
p
ta
S
,
Iandola
F
,
et
al.From
ca
p
tions
to
visual
conce
p
ts
and
back
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2015
:
1473
-
1482.
[
24
]
Lu
J
,
Yan
g
J
,
Batra
D
,
et
al.Neural
bab
y
talk
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vi
-
sion
and
Pattern
Reco
g
nition
,
2018
:
7219
-
7228.
[
25
]
Dai
B
,
Fidler
S
,
Lin
D.A
neural
com
p
ositional
p
ara
-
di
g
m
for
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Information
Processin
g
S
y
stems
,
2018
:
658
-
668.
[
26
]
Lecun
Y
,
Boser
B
,
Denker
J
,
et
al.Back
p
ro
p
a
g
ation
-
a
pp
lied
to
handwritten
zi
p
code
reco
g
nition
[
J
]
.Neu
-
ral
Com
p
utation
,
1989
,
1
(
4
):
541
-
551.
[
27
]
Girshick
R
,
Donahue
J
,
Darrell
T
,
et
al.Rich
feature
hierarchies
for
accurate
ob
j
ect
detection
and
semantic
se
g
mentation
[
C
]//
Proceedin
g
s
of
the
IEEE
Confer
-
ence
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2014
:
580
-
587.
[
28
]
Ren
S
,
He
K
,
Girshick
R
,
et
al.Faster
r
-
cnn
:
To
-
wards
real
-
time
ob
j
ect
detection
with
re
g
ion
p
ro
p
osal
networks
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Information
Processin
g
S
y
stems
,
2015
:
91
-
99.
[
29
]
Wu
Q
,
Shen
C
,
Liu
L
,
et
al.What
value
do
ex
p
licit
hi
g
h
level
conce
p
ts
have
in
vision
to
lan
g
ua
g
e
p
rob
-
lems[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2016
:
203
-
212.
[
30
]
Gan
Z
,
Gan
C
,
He
X
,
et
al.Semantic
com
p
ositional
networks
for
visual
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2017
:
5630
-
5639.
[
31
]
You
Q
,
Jin
H
,
Wan
g
Z
,
et
al.Ima
g
e
ca
p
tionin
g
with
semantic
attention
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
ni
-
tion
,
2016
:
4651
-
4659.
[
32
]
Yao
T
,
Pan
Y
,
Li
Y
,
et
al.Ex
p
lorin
g
visual
relation
-
shi
p
for
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
Eu
-
ro
p
ean
Conference
on
Com
p
uter
Vision
(
ECCV
),
2018
:
684
-
699.
[
33
]
Bahdanau
D
,
Cho
K
,
Ben
g
io
Y.Neural
machine
translation
b
y
j
ointl
y
learnin
g
to
ali
g
n
and
translate
[
J
]
.arXiv
p
re
p
rint
:
1409.0473
,
2014.
[
34
]
Xu
K
,
Ba
J
,
Kiros
R
,
et
al.Show
,
attend
and
tell
:
Neural
ima
g
e
ca
p
tion
g
eneration
with
visual
attention
[
C
]//
Proceedin
g
s
of
the
International
Conference
on
Machine
Learnin
g
,
2015
:
2048
-
2057.
[
35
]
Anderson
P
,
He
X
,
Buehler
C
,
et
al.Bottom
-
u
p
and
to
p
-
down
attention
for
ima
g
e
ca
p
tionin
g
and
visual
q
uestion
answerin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
ni
-
tion
,
2018
:
6077
-
6086.
[
36
]
Devlin
J
,
Chan
g
M
W
,
Lee
K
,
et
al.Bert
:
Pre
-
train
-
in
g
of
dee
p
bidirectional
transformers
for
lan
g
ua
g
e
understandin
g
[
J
]
.arXiv
p
re
p
rint
:
1810.04805
,
2018.
[
37
]
He
K
,
Zhan
g
X
,
Ren
S
,
et
al.Dee
p
residual
learnin
g
for
ima
g
e
reco
g
nition
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
ni
-
tion
,
2016
:
770
-
778.
[
38
]
Li
L
H
,
Yatskar
M
,
Yin
D
,
et
al.Visualbert
:
A
sim
p
le
and
p
erformant
baseline
for
vision
and
lan
-
g
ua
g
e
[
J
]
.arXiv
p
re
p
rint
:
1908.03557
,
2019.
[
39
]
Li
G
,
Duan
N
,
Fan
g
Y
,
et
al.Unicoder
-
vl
:
A
univer
-
sal
encoder
for
vision
and
lan
g
ua
g
e
b
y
cross
-
modal
p
re
-
trainin
g
[
J
]
.arXiv
p
re
p
rint
:
1908.06066
,
2019.
[
40
]
Su
W
,
Zhu
X
,
Cao
Y
,
et
al.Vl
-
bert
:
Pre
-
trainin
g
of
g
eneric
visual
-
lin
g
uistic
re
p
resentations
[
J
]
.arXiv
p
re
p
rint
:
1908.08530
,
2019.
[
41
]
Lu
J
,
Batra
D
,
Parikh
D
,
et
al.Vilbert
:
Ptretrainin
g
task
-
a
g
nostic
visiolin
g
uistic
re
p
resentations
for
vision
-
and
-
lan
g
ua
g
e
tasks
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Information
Processin
g
S
y
stems
,
2019
:
13
-
23.
[
42
]
Tan
H
,
Bansal
M.Lxmert
:
learnin
g
cross
-
modalit
y
encoder
re
p
resentations
from
transformers
[
J
]
.arXiv
p
re
p
rint
:
1908.07490
,
2019.
[
43
]
Chen
Y
C
,
Li
L
,
Yu
L
,
et
al.Uniter
:
Learnin
g
uni
-
versal
ima
g
e
-
text
re
p
resentations
[
J
]
.arXiv
p
re
p
rint
:
1909.11740
,
2019.
[
44
]
Ranzato
M
A
,
Cho
p
ra
S
,
Auli
M
,
et
al.Se
q
uence
level
trainin
g
with
recurrent
neural
networks
[
J
]
.arX
-
iv
p
re
p
rint
:
1511.06732
,
2015.
[
45
]
Rennie
S
J
,
Marcheret
E
,
Mroueh
Y
,
et
al.Self
-
criti
-
cal
se
q
uence
trainin
g
for
ima
g
e
ca
p
tionin
g
[
C
]//
Pro
-
ceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2017
:
7008
-
7024.
[
46
]
Zhan
g
L
,
Sun
g
F
,
Liu
F
,
et
al.Actor
-
critic
se
q
uence
trainin
g
for
ima
g
e
ca
p
tionin
g
[
J
]
.arXiv
p
re
p
rint
:
1706.09601
,
2017.
[
47
]
Vi
j
a
y
akumar
A
K
,
Co
g
swell
M
,
Selvara
j
u
R
R
,
et
al.
Diverse
beam
search
:
Decodin
g
diverse
solutions
from
neural
se
q
uence
models
[
J
]
.arXiv
p
re
p
rint
:
1610.
02424
,
2016.
[
48
]
Wan
g
Z
,
Wu
F
,
Lu
W
,
et
al.Diverse
ima
g
e
ca
p
tio
-
nin
g
via
g
rou
p
talk
[
C
]//
Proceedin
g
s
of
the
IJCAI
,
2016
:
2957
-
2964.
[
49
]
Shett
y
R
,
Rohrbach
M
,
Anne
Hendricks
L
,
et
al.
S
p
eakin
g
the
same
lan
g
ua
g
e
:
Matchin
g
machine
to
human
ca
p
tions
b
y
adversarial
trainin
g
[
C
]//
Proceed
-
in
g
s
of
the
IEEE
International
Conference
on
Com
-
28
中文信息学报
2020
年
p
uter
Vision
,
2017
:
4135
-
4144.
[
50
]
Fan
Z
,
Wei
Z
,
Li
P
,
et
al.A
q
uestion
t
yp
e
driven
framework
to
diversif
y
visual
q
uestion
g
eneration
[
C
]//
Proceedin
g
s
of
the
IJCAI
,
2018
:
4048
-
4054.
[
51
]
Wan
g
L
,
Schwin
g
A
,
Lazebnik
S.Diverse
and
accu
-
rate
ima
g
e
descri
p
tion
usin
g
a
variational
auto
-
encoder
with
an
additive
g
aussian
encodin
g
s
p
ace
[
C
]//
Pro
-
ceedin
g
s
of
the
Advances
in
Neural
Information
Pro
-
cessin
g
S
y
stems
,
2017
:
5756
-
5766.
[
52
]
Chen
F
,
Ji
R
,
Ji
J
,
et
al.Variational
structured
se
-
mantic
inference
for
diverse
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
Advances
in
Neural
Information
Processin
g
S
y
stems
,
2019
:
1929
-
1939.
[
53
]
Dai
B
,
Fidler
S
,
Urtasun
R
,
et
al.Towards
diverse
and
natural
ima
g
e
descri
p
tions
via
a
conditional
g
an
[
C
]//
Proceedin
g
s
of
the
IEEE
International
Confer
-
ence
on
Com
p
uter
Vision
,
2017
:
2970
-
2979.
[
54
]
Li
D
,
Huan
g
Q
,
He
X
,
et
al.Generatin
g
diverse
and
accurate
visual
ca
p
tions
b
y
com
p
arative
adversarial
learnin
g
[
J
]
.arXiv
p
re
p
rint
:
1804.00861
,
2018.
[
55
]
Li
J
,
Galle
y
M
,
Brockett
C
,
et
al.A
diversit
y
-
p
romo
-
tin
g
ob
j
ective
function
for
neural
conversation
models
[
J
]
.arXiv
p
re
p
rint
:
1510.03055
,
2015.
[
56
]
Youn
g
P
,
Lai
A
,
Hodosh
M
,
et
al.From
ima
g
e
de
-
scri
p
tions
to
visual
denotations
:
New
similarit
y
met
-
rics
for
semantic
inference
over
event
descri
p
tions
[
J
]
.
Transactions
of
the
Association
for
Com
p
utational
Lin
g
uistics
,
2014
,
2
:
67
-
78.
[
57
]
Plummer
B
A
,
Wan
g
L
,
Cervantes
C
M
,
et
al.
Flickr30kentities
:
collectin
g
re
g
ion
-
to
-
p
hrase
corre
-
s
p
ondences
for
richer
ima
g
e
-
to
-
sentence
models
[
C
]//
Proceedin
g
s
of
the
IEEE
International
Conference
on
Com
p
uter
Vision
,
2015
:
2641
-
2649.
[
58
]
Lin
T
Y
,
Maire
M
,
Belon
g
ie
S
,
et
al.Microsoft
co
-
co
:
Common
ob
j
ects
in
context
[
C
]//
Proceedin
g
s
of
the
Euro
p
ean
Conference
on
Com
p
uter
Vision.
S
p
rin
g
er
,
Cham
,
2014
:
740
-
755.
[
59
]
Den
g
J
,
Don
g
W
,
Socher
R
,
et
al.Ima
g
enet
:
A
lar
g
e
-
scale
hierarchical
ima
g
e
database
[
C
]//
Proceed
-
in
g
s
of
the
2009IEEE
Conference
on
Com
p
uter
Vi
-
sion
and
Pattern
Reco
g
nition
,
2009
:
248
-
255.
[
60
]
Krishna
R
,
Zhu
Y
,
Groth
O
,
et
al.Visual
g
enome
:
Connectin
g
lan
g
ua
g
e
and
vision
usin
g
crowdsourced
dense
ima
g
e
annotations
[
J
]
.International
Journal
of
Com
p
uter
Vision
,
2017
,
123
(
1
):
32
-
73.
[
61
]
Grubin
g
er
M
,
Clou
g
h
P
,
Müller
H
,
et
al.The
ia
p
r
tc
-
12benchmark
:
A
new
evaluation
resource
for
visu
-
al
information
s
y
stems
[
C
]//
Proceedin
g
s
of
the
Inter
-
national
Worksho
p
onto
Ima
g
e
,
2006
:
13
-
22.
[
62
]
Escalante
H
J
,
Hernández
C
A
,
Gonzalez
J
A
,
et
al.
The
se
g
mented
and
annotatedia
p
r
tc
-
12benchmark
[
J
]
.Com
p
uter
Vision
and
Ima
g
e
Understandin
g
,
2010
,
114
(
4
):
419
-
428.
[
63
]
Kazemzadeh
S
,
Ordonez
V
,
Matten
M
,
et
al.Referit
-
g
ame
:
Referrin
g
to
ob
j
ects
in
p
hoto
g
ra
p
hs
of
natural
scenes
[
C
]//
Proceedin
g
s
of
the
2014Conference
on
Em
p
irical
Methods
in
Natural
Lan
g
ua
g
e
Processin
g
(
EMNLP
),
2014
:
787
-
798.
[
64
]
Tran
K
,
He
X
,
Zhan
g
L
,
et
al.Rich
ima
g
e
ca
p
tio
-
nin
g
in
the
wild
[
C
]//
Proceedin
g
s
of
the
IEEE
Con
-
ference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
Worksho
p
s
,
2016
:
49
-
56.
[
65
]
Chunseon
g
Park
C
,
Kim
B
,
Kim
G.Attend
to
y
ou
:
Personalized
ima
g
e
ca
p
tionin
g
with
context
se
q
uence
memor
y
networks
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
ni
-
tion
,
2017
:
895
-
903.
[
66
]
Wan
g
Y
,
Lin
Z
,
Shen
X
,
et
al.Skeleton
ke
y
:
Ima
g
e
ca
p
tionin
g
b
y
skeleton
-
attribute
decom
p
osition
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vi
-
sion
and
Pattern
Reco
g
nition
,
2017
:
7272
-
7281.
[
67
]
B
y
chkovsk
y
V
,
Paris
S
,
Chan
E
,
et
al.Learnin
g
p
ho
-
to
g
ra
p
hic
g
lobal
tonal
ad
j
ustment
with
a
database
of
in
p
ut
/
out
p
ut
ima
g
e
p
airs
[
C
]//
Proceedin
g
s
of
the
CVPR.IEEE
,
2011
:
97
-
104.
[
68
]
Gan
C
,
Gan
Z
,
He
X
,
et
al.St
y
lenet
:
Generatin
g
at
-
tractive
visual
ca
p
tions
with
st
y
les
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pa
-
ttern
Reco
g
nition
,
2017
:
3137
-
3146.
[
69
]
Wan
g
X
,
Chen
W
,
Wan
g
Y
F
,
et
al.No
metrics
are
p
erfect
:
Adversarial
reward
learnin
g
for
visual
stor
y
-
tellin
g
[
J
]
.arXiv
p
re
p
rint
:
1804.09160
,
2018.
[
70
]
Fan
Z
,
Wei
Z
,
Wan
g
S
,
et
al.Brid
g
in
g
b
y
word
:
Im
-
a
g
e
g
rounded
vocabular
y
construction
for
visual
ca
p
-
tionin
g
[
C
]//
Proceedin
g
s
of
the
57th
Annual
Meetin
g
of
the
Association
for
Com
p
utational
Lin
g
uistics
,
2019
:
6514
-
6524.
[
71
]
Lin
C
Y
,
Hov
y
E.Automatic
evaluation
of
summa
-
ries
usin
g
n
-
g
ram
co
-
occurrence
statistics
[
C
]//
Pro
-
ceedin
g
s
of
the
2003Human
Lan
g
ua
g
e
Technolo
gy
Conference
of
the
North
American
Cha
p
ter
of
the
As
-
sociation
for
Com
p
utational
Lin
g
uistics
,
2003
:
150
-
157.
[
72
]
Pa
p
ineni
K
,
Roukos
S
,
Ward
T
,
et
al.Bleu
:
a
meth
-
od
for
automatic
evaluation
of
machine
translation
[
C
]//
Proceedin
g
s
of
the
40th
Annual
Meetin
g
on
As
-
sociation
for
Com
p
utational
Lin
g
uistics.Association
for
Com
p
utational
Lin
g
uistics
,
2002
:
311
-
318.
[
73
]
Vedantam
R
,
Lawrence
Zitnick
C
,
Parikh
D.Cider
:
consensus
-
based
ima
g
e
descri
p
tion
evaluation
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vi
-
sion
and
Pattern
Reco
g
nition
,
2015
:
4566
-
4575.
7
期魏忠钰等
:
从视觉到文本
:
图像描述生成的研究进展综述
29
[
74
]
Baner
j
ee
S
,
Lavie
A.Meteor
:
An
automatic
metric
for
mt
evaluation
with
im
p
roved
correlation
with
hu
-
man
j
ud
g
ments
[
C
]//
Proceedin
g
s
of
the
ACL
Work
-
sho
p
on
Intrinsic
and
Extrinsic
Evaluation
Measures
for
Machine
Translation
and
/
or
Summarization
,
2005
:
65
-
72.
[
75
]
Anderson
P
,
Fernando
B
,
Johnson
M
,
et
al.S
p
ice
:
semantic
p
ro
p
ositional
ima
g
e
ca
p
tion
evaluation
[
C
]//
Proceedin
g
s
of
the
Euro
p
ean
Conference
on
Com
p
uter
Vision.S
p
rin
g
er
,
Cham
,
2016
:
382
-
398.
[
76
]
Cui
Y
,
Yan
g
G
,
Veit
A
,
et
al.Learnin
g
to
evaluate
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Con
-
ference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2018
:
5804
-
5812.
[
77
]
Jian
g
M
,
Huan
g
Q
,
Zhan
g
L
,
et
al.Ti
g
er
:
Text
-
to
-
ima
g
e
g
roundin
g
for
ima
g
e
ca
p
tion
evaluation
[
J
]
.
arXiv
p
re
p
rint
:
1909.02050
,
2019.
[
78
]
Mao
J
,
Xu
W
,
Yan
g
Y
,
et
al.Dee
p
ca
p
tionin
g
with
multimodal
recurrent
neural
networks
(
m
-
RNN
)[
J
]
.
arXiv
p
re
p
rint
:
1412.6632
,
2014.
[
79
]
Donahue
J
,
Hendricks
L
A
,
Rohrbach
M
,
et
al.
Lon
g
-
term
recurrent
convolutional
networks
for
visu
-
al
reco
g
nition
and
descri
p
tion
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2015
:
2625
-
2634.
[
80
]
Lu
J
,
Xion
g
C
,
Parikh
D
,
et
al.Knowin
g
when
to
魏忠钰
(
1987
—),
博士
,
副教授
,
主要研究领域为
跨视觉文本的相关研究
、
论辩挖掘
、
机器学习
、
强
化学习
。
E
-
mail
:
z
y
wei
@
fudan.edu.cn
王瑞泽
(
1996
—),
硕士研究生
,
主要研究领域为
跨视觉文本的相关研究
。
E
-
mail
:
rzwan
g
18
@
fudan.edu.cn
look
:
Ada
p
tive
attention
via
a
visual
sentinel
for
im
-
a
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Confer
-
ence
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2017
:
375
-
383.
[
81
]
Gu
J
,
Cai
J
,
Wan
g
G
,
et
al.Stack
-
ca
p
tionin
g
:
coarse
-
to
-
fine
learnin
g
for
ima
g
e
ca
p
tionin
g
[
C
]//
Proceed
-
in
g
s
of
the
32nd
AAAI
Conference
on
Artificial
Intel
-
li
g
ence
,
2018.
[
82
]
Huan
g
L
,
Wan
g
W
,
Chen
J
,
et
al.Attention
on
at
-
tention
for
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
International
Conference
on
Com
p
uter
Vision
,
2019
:
4634
-
4643.
[
83
]
Yan
g
X
,
Tan
g
K
,
Zhan
g
H
,
et
al.Auto
-
encodin
g
scene
g
ra
p
hs
for
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pa
-
ttern
Reco
g
nition
,
2019
:
10685
-
10694.
[
84
]
Sammani
F
,
Melas
-
K
y
riazi
L.Show
,
edit
and
tell
:
a
framework
for
editin
g
ima
g
e
ca
p
tions
[
J
]
.arXiv
p
re
-
p
rint
:
2003.03107
,
2020.
[
85
]
Zhou
L
,
Palan
g
i
H
,
Zhan
g
L
,
et
al.Unified
vision
-
lan
g
ua
g
e
p
re
-
trainin
g
for
ima
g
e
ca
p
tionin
g
and
v
q
a
[
J
]
.arXiv
p
re
p
rint
:
1909.11059
,
2019.
[
86
]
Fen
g
Y
,
Ma
L
,
Liu
W
,
et
al.Unsu
p
ervised
ima
g
e
ca
p
tionin
g
[
C
]//
Proceedin
g
s
of
the
IEEE
Conference
on
Com
p
uter
Vision
and
Pattern
Reco
g
nition
,
2019
:
4125
-
4134.
范智昊
(
1996
—),
硕士研究生
,
主要研究领域为
跨视觉文本的相关研究
。
E
-
mail
:
fanzh18
@
fudan.edu.cn
版权声明:本文标题:从视觉到文本图像描述生成的研究进展综述 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1712895084a611270.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论