首页编程正文内容

阅读小结：A Comprehensive Study of Deep Learning for Image Captioning

编程

更新时间：2026-04-03 09:57:56 105

admin 管理员组

文章数量: 1184232

阅读小结：A Comprehensive Study of Deep Learning for Image Captioning

What

作者：

题目：A Comprehensive Study of Deep Learning for Image Captioning

出处：arXiv:1810.04020v2 [cs.CV] 14 Oct 2018

What

这是Image Captioning 领域的最新review，感觉非常好。

首先，做Cap的大概分三个类别：

Temple-based Image Cap
Retrieval-based Image Cap
Novel image caption generation

而，DL-based是第三类 Novel Image Caption Generation的一种。基于深度学习的Cap是目前做的最多的一个方向，像我这样的渣渣跟大佬后面慢慢学、慢慢做吧。

基于深度学习的Cap方法总结：看看作者的总结图。论文的主体也是分6个部分详细介绍。

1. Visual Space vs. Multimodal Space

Bulk of Cap methods 使用的都是 visual space 生成cap。下面2-5都是基于视觉空间生成Cap的。

而 Multimodal Space 多了Language Encoder来提取单词的特征。典型的 多模态空间 结构有四个部分：

a Language Encoder part：提取单词特征并学习每个单词的特征嵌入；
a vision part，即Image Encoder部分：使用深度CNN提取图像的特征；
a multimodal space part：将图像特征映射到（map-into）具有单词特征的公共空间；
a language decoder part：通过解码map生成Cap。

2. Supervised Learning vs. Other Deep Learning

3. Dense Captioning vs. Captions for the whole scene

说完基于多模态的Cap和dense Cap，下面的都是基于视觉空间、使用监督学和整个区域生成Cap

4. Encoder-Decoder Architecture vs. Compositional Architecture

5. Others（attention-based）

基于Attention的方法和其他方法的不同点是，attention-based可以注意到图片中的显著部分，同时生成相应的单词。

5. Others（Semantic Concept-Based Image）

5. Others（Semantic Concept-Based Image）

5. Other（Stylized Caption）
上面的的方法都是基于图片内容生产Cap，是一种力求Cap符合图片内容的客观描述，而这个方法考虑生产一直风格化的Cap，比如上次幽默、搞笑等等。

这篇综述后面还有内容，放在以后再写。

end

本文标签：小结 Study Comprehensive deep Image

版权声明：本文标题：阅读小结：A Comprehensive Study of Deep Learning for Image Captioning 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1758732928a3089815.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

ECCV 2016 A Deep Learning-Based Approach to Progressive Vehicle Re-identification

编程

4月前

文章目录摘要 1.引言 2.相关工作 3.提出的方法（PROVID） 3.1 概述 3.2 外观特征提取（by CNN） 3.3 基于SNN的车牌识别 3.4 基于时空关系重排序 4.实验 4.1 数据集 4.2 实验设置 4.3 车牌验

论文阅读”A deep variational approach to clustering survival data“(ICLR2022)

编程

4月前

论文标题 A deep variational approach to clustering survival data 论文作者、链接作者： Manduchi, Laura and Marcinkevi{v{c}}s, Ri{

Deep Recurrent Q-Learning for Partially Observable MDPs（DRQN）

编程

4月前

Abstract 深度RL已经为复杂的任务提供了精通的控制器。但是，这些控制器的内存有限，并且依赖于能够在每个决策点感知完整的游戏画面。为了解决这些缺点，本文研究了用循环LS

【论文翻译】Deep Recurrent Q-Learning for Partially Observable MDPs

编程

4月前

部分可观察MDP的深度循环Q学习摘要：Deep Reinforcement Learning已经为复杂的任务提供了熟练的控制器。然而，这些控制器具有有限的存储器并且依赖于能够在每个决策点处感知

PIL.UnidentifiedImageError:cannot identify image file ‘xxx.jpg‘

编程

4月前

问题当图像大小为0KB时，使用下面的代码读取图像时出现如下错误。 from PIL import Image img = Image.open('xxx.jpg')if img is None:print(�

OSError: cannot identify image的三种解决方案

编程

4月前

报错语句主要是这一句： PIL.Image.open(self.image_path_at(i))问题出在前面一些图片可以运行，所以可以利用try语句，将不能运行的那张图像

python——报错解决：UnidentifiedImageError: cannot identify image file

编程

4月前

我在使用网上的远古代码的时候遇到了该错误解决方法把import Image替换成from PIL import Image错误原因为：Image已经被并入PIL库，所以需要从PIL中imp

猫狗二分法遇到cannot identify image file ＜_io.BytesIO object at 0x000002A881819678＞

编程

4月前

这个错误是数据集中有图片格式出错打不开，只需把它删除即可。但是如何找出错误图片的位置 import osfrom PIL import Imagefolder_path = ''#写入你图片所在的文件夹，即包含

出现“cannot identify image file 'Users.DS_Store'”问题的解决办法

编程

4月前

“cannot identify image file Users.DS_Store”在用mac跑深度学习tensorflow框架是制作图片格式向tfrecord格式转化中，读取文件夹中的图片出现系统文件时候报错

Qwen-Image-Edit-2509在汽车广告换色换景中的效率提升

编程

3月前

Qwen-Image-Edit-2509在汽车广告换色换景中的效率提升🚗 想象一下：某车企准备上线一款新车的全球推广，北美要“落基山雪道飞驰”，中东

基于Qwen-Image的大模型图像生成实战：从文本到1024×1024高清图

编程

3月前

基于Qwen-Image的大模型图像生成实战：从文本到1024×1024高清图你有没有试过这样一种场景——刚跟客户开完会，对方说：“我们要一个东方赛博朋克风格的茶馆&

Qwen-Image-Edit-2509在房地产宣传册制作中的实际效用

编程

3月前

Qwen-Image-Edit-2509在房地产宣传册制作中的实际效用你有没有经历过这样的场景：楼盘刚开盘，价格还没印上宣传册，市场部就急着要发；客户

读论文CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

编程

3月前

研究背景：在自动驾驶领域，多模态大语言模型的应用多限于理解复杂环境或生成高级指令，而少有涉及端到端路径规划，主要因缺乏包含视觉、语言和行动的大规模注释数据集。为解决此问题，本文提出了CoVLA数据集，含80小时真实驾驶视频，通过自动数据处理

论文略读： a Comprehensive Vector Dataset of Bus Networks across China for the Year 2024

编程

3月前

scientifc data 20240 intro生成了全国范围的公交网络矢量数据集有助于分析不同城市之间的共性与差异，揭示在不同城市规模、发展水平与地理分布下，城市交通系统在可持续性、可达性和

Comprehensive Rust项目揭秘：打造安全高效系统级应用

编程

3月前

Comprehensive Rust项目揭秘：打造安全高效系统级应用【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学习R

Comprehensive Rust测试驱动开发：从单元测试到集成测试

编程

3月前

Comprehensive Rust测试驱动开发：从单元测试到集成测试【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学习

Comprehensive Rust性能分析：基准测试与优化技巧

编程

3月前

Comprehensive Rust性能分析：基准测试与优化技巧【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学习Rus

Comprehensive Rust实战教程：从Hello World到多线程并发

编程

3月前

Comprehensive Rust实战教程：从Hello World到多线程并发【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提

Rust测试与调试指南：Comprehensive Rust质量保障实践

编程

3月前

Rust测试与调试指南：Comprehensive Rust质量保障实践【免费下载链接】comprehensive-rust 这是谷歌Android团队采用的Rust语言课程，它为你提供了快速学

如何为Qwen-Image实现跨平台兼容（WindowsLinuxMac）？

编程

2月前

如何为 Qwen-Image 实现跨平台兼容（WindowsLinuxMac）？在如今 AIGC 爆炸式发展的时代，设计师、开发者和内容创作者都希望

发表评论

全部评论 0

暂无评论

推荐文章

从Flash到Web：Adobe Flash Player的前端演进之路

新手指南：TP Link TL-WR702N迷你路由器后台进入技巧

ESET NOD32全攻略：快速申请单机、企业、中、英文版及90天个人ID，提升网络安全！

推荐可靠的电脑软件平台

如何设置内网打印机端口网络穿透到公网_打印机端口映射

热门文章

最新文章