Linux大棚 – 不忘初心的技术博客,浮躁时代的安静角落
  •  首页
  •  技术日记
  •  编程
  •  旅游
  •  数码
  •  登录
  1. 标签
  2. 多模
  • 多模态提示工程:让AI理解更全面、更深入

    多模态提示工程:让AI理解更全面、更深入 引言 背景:从“单模态孤岛”到“多模态交互”的AI革命 2023年3月,OpenAI发布GPT-4,首次公开支持图像输入;同年12月,Google Gemini Pro宣布“原生支持文本、图像
    更深入 多模 提示 工程 AI
    admin 3月前
    49 0
  • 为什么FLUX.1-dev是研究者首选的多模态开发平台?

    为什么FLUX.1-dev是研究者首选的多模态开发平台?在生成式AI狂飙突进的今天,我们早已不满足于“画一只猫”这种基础操作。研究者们真正关心的是:模型能不能理解“穿维多利
    研究者 首选 多模 平台 FLUX
    admin 3月前
    27 0
  • FLUX.1-dev为何成为多模态生成新宠?技术拆解来了

    FLUX.1-dev为何成为多模态生成新宠?技术拆解来了在创意工作者还在为“画不出脑中画面”而焦头烂额时,AI已经悄悄把想象力的边界推到了另一个维度。你有没有试过输入一句:
    来了 新宠 多模 技术 FLUX
    admin 3月前
    43 0
  • Janus:双重视角解码视觉信息,多模态大模型迎来范式革新

    在人工智能领域,多模态技术正经历着从“专精”到“全能”的跨越。近日,DeepSeek团队推出的Janus模型以突破性的“解耦视觉编码”设计,重新定义了多模态理解与生成的统一范
    范式 视角 模型 多模 视觉
    admin 3月前
    28 0
  • MLLM | Mini-Gemini: 挖掘多模态视觉语言大模型的潜力

    香港中文、SmartMore论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language ModelsCode and models
    潜力 模型 多模 视觉 语言
    admin 3月前
    70 0
  • 百度文心4.5系列模型全面开源:10款多模态大模型突破性能边界,开源生态再升级

    百度文心4.5系列模型全面开源:10款多模态大模型突破性能边界,开源生态再升级 【免费下载链接】ERNIE-4.5-300B-A47B-Paddle项目地址: https:ai.git
    开源 模型 边界 多模 生态
    admin 3月前
    68 0
  • 8G显存玩转多模态大模型:MiniCPM-Llama3-V 2.5-int4量化版深度评测

    8G显存玩转多模态大模型:MiniCPM-Llama3-V 2.5-int4量化版深度评测 【免费下载链接】MiniCPM-Llama3-V-2_5-int4项目地址: https:ai.gitcodeO
    显存 玩转 深度 模型 多模
    admin 4月前
    80 0
  • 9GB显存革新:MiniCPM-Llama3-V 2.5-int4量化版重新定义端侧多模态体验

    导语 【免费下载链接】MiniCPM-Llama3-V-2_5-int4项目地址: https:ai.gitcodeOpenBMBMiniCPM-Llama3-V-2_5-int4 面壁智能最新发布的MiniCPM
    显存 多模 定义 MiniCPM GB
    admin 4月前
    71 0
  • 阿里开源多模态巨无霸Qwen3-VL:手机电脑全操控,多项能力超越GPT-5

    阿里开源多模态巨无霸Qwen3-VL:手机电脑全操控,多项能力超越GPT-5 【免费下载链接】Qwen3-VL-30B-A3B-Instruct-FP8项目地址: https:ai.g
    巨无霸 阿里 多项 开源 多模
    admin 4月前
    68 0
  • 多模态 AI 穿戴设备 Looki L1 发布,具备多模态感知能力;豆包负责人否认「推出手机计划」丨日报

    开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement&
    多模 豆包 穿戴 负责人 能力
    admin 4月前
    79 0
  • 文小言全新升级!多模型协作与智能语音功能带来更流畅的AI体验

    文小言全新升级!多模型协作与智能语音功能带来更流畅的AI体验 在3月31日的百度AI DAY上,文小言正式宣布了一系列令人兴奋的品牌焕新与功能升级。此次更新不仅带来了全新的品牌视觉形象&
    流畅 语音 多模 功能 智能
    admin 4月前
    54 0
  • OpenAI将发布DALL·E 3,多模态ChatGPT来了!

    来源:机器之心集成 ChatGPT 后,DALL・E 3 对上下文的理解上了一个大台阶。终于,OpenAI 的文生图 AI 工具 DALL-E 系列迎来了最新版本 DALL・
    来了 多模 OpenAI DALL ChatGpt
    admin 6月前
    124 0
  • ICLR 2025 | 多模态大模型能否胜任工业异常检测?MMAD基准揭示真相

    本文由南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学合作完成,已被 ICLR 2025 会议接收。完整论文、数据和代码均已开源。论文标题:MMAD: The First-Ever Com
    基准 真相 模型 多模 异常
    admin 6月前
    159 0
  • [论文速读] Multimodal Fusion on Low-quality Data:A Comprehensive Survey 低质多模态数据融合综述

    摘要:多模态融合侧重于整合多种模态的信息,以实现更准确的预测,在自动驾驶和医疗诊断等广泛场景中取得了显着进展。然而,多模态融合的可靠性在很大程度上仍未得
    速读 多模 低质 数据 论文
    admin 6月前
    143 0
  • MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language ModelsMME:多模态大语言模型综合评估基准

    Abstract 多模态大语言模型(MLLM)依靠强大的LLM来执行多模态任务,在最近的研究中显示出惊人的新兴能力,例如基于图像写诗。然而&#
    基准 模型 多模 语言 evaluation
    admin 6月前
    164 0
  • 多模态知识图谱论文阅读(一)Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph

    Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph 一、Richpedia是一个图像多模态知识图谱,顾名思义实体分为了文本实体和图像实体,由这些实体构成三
    图谱 多模 知识 论文 Richpedia
    admin 6月前
    95 0
  • 多模态知识图谱:Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph(文献综述)

    本文主要对Richpedia: A Large-Scale, Comprehensive Multi-Modal Knowledge Graph这篇论文中的 第2.2节Richpedia images processing (图像处理)以及
    图谱 文献 多模 知识 Richpedia
    admin 6月前
    111 0
  • 360发布多模态创作引擎纳米搜索,近屿智能带你了解多模态大模型

    11月27日晚,360集团正式发布了全新的多模态内容创作引擎——纳米搜索。这款引擎以“搜学写创”为核心能力,不仅打破了传统网页搜索的局限,还超越了现有的答案引擎&#x
    多模 带你 纳米 模型 引擎
    admin 7月前
    171 0
  • 三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

    克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI o1的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。正如英伟达AI科学家Ji
    模型 多模 提示 工程
    admin 7月前
    141 0
  • AI创作系统ChatGPT网站源码+详细搭建部署教程+支持DALL-E3文生图支持最新GPT-4-Turbo-With-Vision-128K多模态模型

    一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完
    源码 模型 多模 教程 详细
    admin 7月前
    76 0
  • 1
  • 2
  • 3
  • »
CopyRight © 2022 All Rights Reserved 豫ICP备2021025688号-21
Processed: 0.018 , SQL: 9