admin 管理员组

文章数量: 1184232

Office2MD 多功能文档转换服务技术文档

【免费下载链接】office2md 【大模型必备】office 转 markdown 的服务实现,基于微软markitdown。 项目地址: https://gitcode/pig-mesh/office2md

1. 项目概述

Office2MD 是一款基于 Markdown 格式的多功能转换服务,支持将 PowerPoint、Word、Excel、图像、音频和 HTML 等文件转化为 Markdown 格式。项目整合了 Gitee AI、智谱 AI 的 GLM-4V 模型以及阿里云百炼平台的 Qwen-VL-Max 模型,提供高效的文本识别能力。

2. 安装指南

2.1 Docker 安装方式(推荐)

2.1.1 基础安装(内置测试模型)
docker run -p 8000:8000 registry-hangzhou.aliyuncs/dockerhub_mirror/markitdown
2.1.2 使用 Gitee AI
docker run -d \
 -p 8000:8000 \
 -e API_KEY=gitee_ai_key \
 -e MODEL=InternVL2_5-26B \
 -e BASE_URL=https://ai.gitee/v1 \
 registry-hangzhou.aliyuncs/dockerhub_mirror/markitdown
2.1.3 使用阿里云百炼平台
docker run -d \
  -p 8000:8000 \
  -e API_KEY=your_aliyun_api_key \
  -e MODEL=qwen-vl-max \
  -e BASE_URL=https://dashscope.aliyuncs/api/v1 \
  registry-hangzhou.aliyuncs/dockerhub_mirror/markitdown

2.2 源码安装方式

  1. 克隆项目仓库:
git clone https://gitcode/pig-mesh/office2md.git
cd office2md
  1. 创建并激活虚拟环境:
python3 -m venv venvdev
source venvdev/bin/activate
  1. 安装依赖:
pip install -r requirements.txt
  1. 启动服务:
uvicorn main:app --reload

3. 环境变量配置

环境变量说明默认值
API_KEYAI 平台的 API 密钥XXXX
BASE_URLAI 平台的 API 基础 URLhttps://open.bigmodel/api/paas/v4
MODEL使用的模型名称glm-4v-flash
DELETE_DELAY临时文件删除延迟(秒)300
PROMPT文本提取提示词提取图片中全部的文本,不需要任何推理和总结,只需要原文

3.1 支持的模型配置

智谱 AI
  • MODEL=glm-4v-flash
  • BASE_URL=https://open.bigmodel/api/paas/v4
Gitee AI
  • MODEL=InternVL2_5-26B
  • BASE_URL=https://ai.gitee/v1
阿里云百炼
  • MODEL=qwen-vl-max
  • BASE_URL=https://dashscope.aliyuncs/compatible-mode/v1

4. API 使用文档

4.1 上传图片并提取文本

Endpoint: POST /upload/

请求格式: multipart/form-data

参数:

  • file: 图片文件

响应示例:

{
  "text": "提取的文本内容"
}

4.2 文档图像矫正

Endpoint: POST /uvdoc/unwarp

请求格式: multipart/form-data

参数:

  • file: 需要进行展平处理的文档图片文件

响应格式: image/png

说明:

  • 该接口用于处理弯曲变形的文档图片,返回展平后的图片
  • 支持常见图片格式(PNG、JPEG等)
  • 返回的是展平后的PNG格式图片数据

错误响应:

{
  "detail": "Error message"
}

5. 使用说明

  1. 服务启动后默认监听 8000 端口
  2. 上传的文件会在处理后自动删除(默认5分钟后删除)
  3. 使用前请确保已获取相应AI平台的API密钥
  4. 不同AI平台的接口配置略有不同,请确保使用正确的环境变量配置

6. 注意事项

  1. 使用商业AI服务前需获取对应平台的API密钥
  2. 内置的GLM-4V-FLASH模型仅用于测试,性能有限
  3. 文档转换结果可能因原始文件格式复杂程度而有所不同
  4. 服务默认监听8000端口,如需更改端口请修改docker run命令的端口映射参数

【免费下载链接】office2md 【大模型必备】office 转 markdown 的服务实现,基于微软markitdown。 项目地址: https://gitcode/pig-mesh/office2md

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

本文标签: 文档 多功能 技术 Office2MD