admin 管理员组

文章数量: 1184232

在本博客中,我们将探讨如何使用 Dashscope 和通义千问 API 来实现多模态对话和图像识别。我们会详细介绍几个代码示例,展示如何通过 API 调用进行图片转文字和生成交互式对话。

 多模态对话示例

首先,我们来看一个简单的多模态对话示例,该示例允许用户上传一张图片并提出一个问题,模型会根据图片和问题生成回答。

```python
from http import HTTPStatus
import dashscope
from dashscope.api_entities.dashscope_response import Role

# 设置API密钥
dashscope.api_key = "your_api_key_here"

def simple_multimodal_conversation_call(img, question):
    messages = [
        {
            "role": "user",
            "content": [
                {"image": f"{img}"},
                {"text": f"{question}"}
            ]
        }
    ]
    response = dashscope.MultiModalConversation.call(model='qwen-vl-pl

本文标签: 图像 多模 Dashscope 通义千问