首页编程正文内容

Langchain-Chatchat 0.3.1 Windows部署指南

编程

更新时间：2026-04-03 11:37:44 36

admin 管理员组

文章数量: 1184232

Langchain-Chatchat 0.3.1 Windows部署实战：从零搭建本地RAG系统

在企业数据安全日益受重视的今天，越来越多团队开始转向本地化大模型应用。一个典型的场景是：HR部门需要快速回答员工关于年假、报销流程的问题，但又不能把内部文档上传到公有云AI服务中——这时候，一套运行在本地的知识库问答系统就成了刚需。

而 Langchain-Chatchat + Xinference 的组合，正是目前开源生态中最成熟、最灵活的解决方案之一。它不仅支持主流LLM和Embedding模型，还能通过RAG（检索增强生成）机制实现精准问答，所有数据全程不离内网。

本文将带你从零开始，在 Windows 11 + NVIDIA GPU 环境下完整部署 Langchain-Chatchat v0.3.1，并结合 Xinference 实现模型推理服务托管。过程中会重点解决几个“Windows特供”难题，比如中文路径报错、CUDA兼容性问题、依赖包编译失败等，确保你少走弯路。

双环境隔离：为什么必须分两个Conda环境？

Langchain-Chatchat 的设计哲学很清晰：职责分离。主程序负责业务逻辑（如文档切片、向量化、提示词工程），而模型推理则交由独立的服务处理。这种架构带来了三大好处：

模型可以热更新，不影响前端服务
多个应用可共享同一套模型集群
不同模型能使用不同的Python依赖（避免冲突）

因此我们第一步就是创建两个独立的 Conda 虚拟环境：

conda create -n chatchat python=3.10
conda create -n xinference python=3.10

小贴士：建议统一使用 Python 3.10，因为部分底层库（如 llama_cpp_python）对高版本支持不稳定。

激活 chatchat 环境后安装核心包：

conda activate chatchat
pip install "langchain-chatchat[xinference]" -U -i https://pypi.tuna.tsinghua.edu/simple

清华源在这里非常关键——国内网络环境下，直接走 PyPI 经常超时，尤其是拉取 fastapi、httpx 这类大型依赖时。

验证是否安装成功：

chatchat --help

如果输出命令帮助信息，说明基础环境已就绪。

模型推理中枢：Xinference环境搭建

切换到第二个环境：

conda activate xinference

先确认你的CUDA版本

打开 CMD 执行：

nvidia-smi

查看顶部显示的 CUDA Version，比如 12.4。注意！这不代表你必须装 CUDA 12.4 工具包，而是指驱动支持的最高版本。PyTorch 官方预编译包只要 ≤ 这个值即可。

例如我的显卡支持 CUDA 12.4，则安装命令为：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch/whl/cu124

测试GPU可用性：

python -c "import torch; print(torch.cuda.is_available())"

输出 True 才算真正跑通了CUDA链路。如果返回 False，请检查：
- 是否安装了NVIDIA显卡驱动
- 是否安装了对应版本的cuDNN（通常PyTorch自带）
- 是否有多余的旧版PyTorch干扰

安装 Xinference 主体

pip install "xinference[all]"

听起来简单？但在 Windows 上，这一行命令大概率会卡在 llama_cpp_python 编译环节：

ERROR: Could not build wheels for llama-cpp-python...

原因在于该项目依赖 C++ 扩展，在 Windows 下默认用 MSVC 编译，且对 CUDA 支持较弱。官方 wheel 包又没提供完整的 Windows-CUDA 构建版本。

破局之道：手动下载预编译 wheel

前往 llama-cpp-python releases 页面，找一个匹配你环境的 .whl 文件：

cp310 → Python 3.10
win_amd64 → Windows 64位
带 -cu121 或 -cu124 → 表示支持CUDA

比如我选的是：

llama_cpp_python-0.3.4-cp310-cp310-win_amd64.whl

下载后执行：

pip install D:\downloads\llama_cpp_python-0.3.4-cp310-cp310-win_amd64.whl

然后再运行：

pip install "xinference[all]"

这次应该能顺利完成了。

启动 Xinference 服务

别急着用 0.0.0.0，那是Linux的习惯写法。在 Windows 上更稳妥的方式是指定本地回环地址：

xinference-local --host 127.0.0.1 --port 9997

浏览器访问 http://127.0.0.1:9997，看到Web界面就算成功。

但如果你遇到这个错误：

ValueError: Unable to configure handler 'file_handler'

八成是因为用户名带中文字符（比如 C:\Users\张三\xinference\logs），日志模块无法正确解析路径。

解决方案：自定义工作目录

mkdir D:\xinference_data
mkdir D:\xinference_data\logs
set XINFERENCE_HOME=D:\xinference_data

然后重新启动服务。这个环境变量最好加入系统PATH永久生效，否则每次都要手动设置。

另一个常见问题是：

RuntimeError: Cluster is not available after multiple attempts

排查方向：
- 9997端口是否被占用（可用 netstat -ano | findstr :9997 查看）
- 防火墙是否阻止本地通信
- 是否误用了 0.0.0.0

坚持用 127.0.0.1 基本都能避开这些坑。

部署模型：Qwen2.5 + BGE-M3 实战

进入 Xinference Web UI，点击 Launch Model。

部署 Qwen2.5-Instruct

选择 Large Language Model → 搜索 qwen → 选 qwen2.5-instruct

配置建议：
- Name: qwen2.5-instruct（后面要引用）
- Format: ggufv2（推荐，兼容性好）
- Quantization: f16（显存≥12GB），或 q4_k_m（8GB可用）
- Max Sequences: 4096（够用）
- GPUs: 自动识别

点 🚀 Launch 开始加载。首次会自动从 HuggingFace 下载模型文件（约4~6GB），建议提前缓存或科学上网。

提示：可以在 XINFERENCE_HOME/model_cache 目录下手动放置 .gguf 文件，避免重复下载。

等待状态变为 “Running”，说明LLM已就绪。

部署 BGE-M3 Embedding 模型

回到首页，选择 Embedding Model → 搜索 bge → 选 bge-m3

设置名称为 bge-m3，其余保持默认即可。

BGE-M3 是当前最强的开源多语言Embedding模型之一，支持三种模式：
- Dense（常规向量）
- Sparse（关键词权重）
- Hybrid（混合检索）

这对提升中文语义匹配准确率特别有用。部署完成后，你会在运行列表里看到两个模型都在线。

配置 Langchain-Chatchat 连接远程模型

回到 chatchat 环境：

conda activate chatchat
chatchat init

该命令会在当前目录生成标准项目结构：

.
├── configs/
│   └── model_settings.yaml
├── knowledge_base/
└── web_configs.yaml

编辑 model_settings.yaml，添加LLM连接配置：

llm_models:
  - model_name: qwen2.5-instruct
    provider: xinference
    api_key: none
    server_address: http://127.0.0.1:9997

再配置Embedding模型：

embeddings:
  - model_name: bge-m3
    provider: xinference
    server_address: http://127.0.0.1:9997

⚠️ 注意事项：
- model_name 必须与 Xinference 中完全一致（大小写敏感）
- server_address 不要加 /v1 后缀，Chatchat会自动拼接
- 如果启用了API Key认证，记得填写正确的密钥

保存退出。

构建知识库：让AI读懂你的文档

将需要问答的资料放入：

knowledge_base/sample/content/

支持格式包括 .txt, .pdf, .docx, .md, .pptx 等。

执行重建命令：

chatchat kb -r

-r 参数表示清空原有向量库并重新构建。处理过程会经历以下步骤：
1. 文档解析（PDF用pymupdf，Word用python-docx）
2. 文本分块（按段落或固定长度）
3. 调用BGE-M3生成向量
4. 存入本地向量数据库（默认FAISS）

成功后输出类似：

Document parsed and embedded successfully.
Total chunks: 124

这就意味着你的知识已经被“喂”给AI了。

启动Web服务：开启智能问答

最后一步：

chatchat start -a

-a 表示同时启动 API 接口和 Web UI。

打开浏览器访问：

http://127.0.0.1:8777

你应该能看到一个简洁的对话界面：
- 左侧选择知识库
- 右侧输入问题
- 回答附带原文引用链接

试着问一句：“公司年假政策是什么？”
如果答案来自你上传的《员工手册》，并且标注了具体页码，那就说明整条链路完全打通！

常见问题避坑指南

❌ httpx.ConnectError 怎么办？

这是版本兼容性经典问题。Langchain-Chatchat 对 httpx 版本敏感，过高会导致SSL握手失败。

降级到稳定版本：

pip install httpx==0.27.2

这是经过社区广泛验证的兼容版本。

❌ 模型调用超时或无响应？

先看三件事：
1. Xinference 服务是否仍在运行？
2. model_settings.yaml 中的 server_address 是否拼错？
3. 模型名称是否与 Xinference 中一致？

还可以打开 Xinference 日志窗口，观察是否有如下提示：
- 模型未加载完成
- 显存不足导致OOM
- 请求参数不合法

❌ GPU显存不够怎么办？

不是人人都有3090/4090。对于8GB甚至6GB显卡，也有办法：

使用量化模型：如 q4_k_m 精度，内存占用减少40%
减小 context_length 至 2048
关闭其他图形程序（Chrome吃显存很猛）
实在不行改用CPU推理（性能下降明显，但可用）

经验值：Qwen2.5-7B + f16 需要约 14GB 显存；q4_k_m 只需 6~8GB。

❌ 中文PDF乱码或解析失败？

优先检查编码。如果是扫描件PDF，普通文本提取器无效。

解决方案：
1. 启用OCR功能，在 web_configs.yaml 中添加：

document_loader_kwargs:
  pdf: {"use_openss": true}

安装 PaddleOCR 支持：

pip install paddlepaddle paddleocr

不过OCR会显著增加处理时间，建议仅对必要文件启用。

写在最后：如何让这套系统真正落地？

部署成功只是第一步。要想让它在实际工作中发挥作用，还需要一些工程化思维：

✅ 建立模型缓存机制

HuggingFace 模型动辄几GB，反复下载太浪费时间。建议：
- 手动将 .gguf 文件存入 XINFERENCE_HOME/model_cache
- 或挂载NAS共享目录，供多台机器共用

✅ 编写启动脚本

写个 .bat 脚本一键拉起服务：

@echo off
set XINFERENCE_HOME=D:\xinference_data

start "Xinference" cmd /k "conda activate xinference && xinference-local --host 127.0.0.1 --port 9997"
timeout /t 10
start "Chatchat" cmd /k "conda activate chatchat && chatchat start -a"

双击就能全自动启动两大服务。

✅ 分类管理知识库

不要把所有文档塞进一个KB。建议按主题划分：
- kb_hr_policy：人事制度
- kb_tech_docs：技术手册
- kb_sales_faq：销售话术

这样既能提升检索精度，也方便权限控制。

✅ 性能优化方向

未来可尝试：
- 用 ONNX Runtime 加速推理
- GGUF + Vulkan 实现跨平台部署
- 引入 Redis 缓存高频查询结果

如今，你的本地私有知识库问答系统已经全面就绪。无论是用于企业内部知识查询、客户支持助手，还是个人学习资料整理，这套方案都能在保障数据安全的前提下，提供强大而可控的AI能力。

更重要的是，整个技术栈完全开源、可审计、可定制——这才是真正的“自主可控”的AI落地路径。

本文标签：指南 Chatchat langchain Windows

版权声明：本文标题：Langchain-Chatchat 0.3.1 Windows部署指南内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1767764497a3502542.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

Langchain-Chatchat 0.3.1 Windows部署指南

Langchain-Chatchat 0.3.1 Windows部署实战：从零搭建本地RAG系统

双环境隔离：为什么必须分两个Conda环境？

模型推理中枢：Xinference环境搭建

先确认你的CUDA版本

安装 Xinference 主体

启动 Xinference 服务

部署模型：Qwen2.5 + BGE-M3 实战

部署 Qwen2.5-Instruct

部署 BGE-M3 Embedding 模型

配置 Langchain-Chatchat 连接远程模型

构建知识库：让AI读懂你的文档

启动Web服务：开启智能问答

常见问题避坑指南

❌ httpx.ConnectError 怎么办？

❌ 模型调用超时或无响应？

❌ GPU显存不够怎么办？

❌ 中文PDF乱码或解析失败？

写在最后：如何让这套系统真正落地？

✅ 建立模型缓存机制

✅ 编写启动脚本

✅ 分类管理知识库

✅ 性能优化方向

更多相关文章

windows系统python查看已安装模块pip命令

Windows系统安装Java环境并配置环境变量

Hackintosh-OpenCore系列篇-Windows install

Windows系统下YOLOv4目标检测环境搭建

基于STM32从零写操作系统系列---熟悉纯windows交叉编译环境

windows下ElasticSearch下载和ElasticHD可视化操作工具

CobaltStrike在Windows环境上线Linux主机

查看windows登陆日志_如何在Windows登录屏幕上查看以前的登录信息

windows修复双系统引导失败过程

windows电脑使用Edge浏览器过程中偶发自动重启

Windows浏览器访问虚拟机RabbitMQ失败解决

Packet Tracer下载安装指南：新手入门必看教程

Windows XP + VC 6.0 + WinXP_DDK + DriverStudio 3.2

GTA5大神之路：揭秘YimMenu全面配置手册

从入门到精通，Body Scroll Lock安装与配置超详细指南！

DG分区全攻略：新手入门指南，教你快速搞定新电脑系统的硬盘分隔

新手操作指南：面对无线网卡、蓝牙适配器的安装困境，这里有解决之道！

OpenWRT新手迷途指南：无线上不了网怎么办？

危机解除指南：轻松应对Explorer.exe对系统的影响

Linux CentOS 清理内存指南

发表评论

推荐文章

Linux 中如何查询默认网关_linux查看默认网关

网络基础：理解IP地址、默认网关与网段（IP地址是什么，默认网关是什么，网段是什么，IP地址、默认网关与网段）

7z.dll 100%卡顿？找回《穿越火线》安装进程的策略_抽取7z.dll100%不动了

找回消失的回收站图标

windows 系统如何清除垃圾文件_windows垃圾清理

热门文章

移动硬盘提示数据错误？学会这些，数据恢复不在话下！

解决IP地址冲突不再难？超详细教程，让你成为网络管理高手！

手把手教你清理电脑垃圾，SWF、Flash中心、Adobe Flash Player一扫而光"

无法访问2019 server服务器共享目录_server2019共享文件无法访问

参考文献自动编号，删除参考文献后文中编号自动更新，正文插入引用的参考文献_参考文献[1][2][3]自动生成

究竟什么占用了你的显存容量_什么东西占显存

计算机十二种常用密码破解法（非常详细），零基础入门到精通，看这一篇就够了_电脑某个软件的密码怎么找

给系统打补丁，出现“您可能是软件盗版的受害者”

最终幻想16"新手困境：WPCAP.DLL丢失，游戏卡顿怎么办？答案在这里！

从192.168.1.1开始：Adobe Flash Player官方入口的全面解读

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历