admin 管理员组

文章数量: 1184232

论文标题

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning 视觉 CoT:使用综合数据集和基准测试来推进多模态语言模型的链式思维推理

论文链接

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning论文下载

论文作者

Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li

内容简介

本文提出了Visual CoT,一个大型视觉链式思维数据集,包含438,000个问答对,并为每个问答对标注了关键区域的边界框,以提高多模态大型语言模型(MLLMs)在视觉问答(VQA)任务中的表现。该数据集的98,000对问答还附有详细的推理步骤,旨在指导模型进行逻辑推理。为了解决现有MLLMs在处理复杂视觉输入时的可解释性和准确性问题,本文还提出了一种多轮处理管道,能够动态关注视觉输入并提供可解释的推理过程。通过大量实验,验证了该框架的有效性,并为更好的推理策略提供了启示。Visual CoT数据集、基准和预训练模型均可在相关网页上获取,以支持该领域的进一步研究。

分点关键点

  1. Visual CoT数据集

    • 本文构建了一个包含438,000个问答对的视觉链式思维数据集,标注了关键区域的边界框,以帮助模型更好地理解和回答问题。数据集涵盖五个不同领域,确保了视觉数据风格的广泛代表性。
  2. 多轮处理管道

    • 提出了一个新颖的多轮处理管道,能够动态聚焦于视觉输入,并提供可解释的中间推理过程。这种方法旨在模拟人类的推理行为,通过识别和聚焦于图像中的关键区域来提高模型的响应准确性。
  3. 推理能力的增强

    • 通过引入链式思维(CoT)推理,本文展示了如何增强MLLMs的推理能力。该方法允许模型在回答问题时生成连贯的中间推理步骤,从而提高最终答案的准确性和相关性。
  4. 基准测试与评估

    • 本文还引入了视觉链式思维基准,用于评估MLLMs在需要关注特定局部区域或理由来识别物体的场景中的表现。这为未来的研究提供了标准化的评估框架。

论文代码

代码链接:https://github/VisualCoT

中文关键词

  1. 多模态大型语言模型
  2. 视觉问答
  3. 链式思维推理
  4. 数据集
  5. 可解释性
  6. 推理策略

Neurlps2024论文合集:

Neurlps2024论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

本文标签: 论文 CoT Advancing visual Multi