首页技术日记正文内容

VIM查看中文编码文件显示为乱码的解决办法

技术日记

更新时间：2026-04-03 20:32:54 117

admin 管理员组

文章数量: 1184232

2024年12月25日发(作者：html代码由什么组成)

如果你需要在Linux中操作windows下的文件，那么你可能会经常遇到文件编码转换的问题。

Windows中默认的文件格式是GBK(gb2312)，而Linux一般都是UTF-8。下面介绍一下，在

Linux中如何查看文件的编码及如何进行对文件进行编码转换。

查看文件编码

在Linux中查看文件编码可以通过以下几种方式：

1.在Vim中可以直接查看文件编码

:set fileencoding

即可显示文件编码格式。

如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以

在

~/.vimrc 文件中添加以下内容：

let &termencoding=&encoding

set fileencodings=utf-8,ucs-bom,gbk,cp936

这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实

就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用

latin-1(ASCII)编码打开。

文件编码转换

1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式

:set fileencoding=utf-8

2. iconv 转换，iconv的命令格式如下：

iconv -f encoding -t encoding inputfile

比如将一个UTF- 8 编码的文件转换成GBK编码

iconv -f GBK -t UTF-8 file1 -o file2

Linux 对一个3G的文本进行编码转换全过程

本过程中涉及到的Linux的命令有：split, iconv, cat

问题：有一个3G 的文本，编码格式为gbk，现在需要对其进行转换成为utf-8。

难点：iconv的转换是在内存中进行的，因此3G大小的文本，无法进行直接转换。

思路：先利用split进行文件切分，然后对每一个字文件进行ivonv转换，最后进行cat合

并。

1) ll -h 查看文件的大小，2.9G

2) wc -l 查看文件的行数，9千200万行

3) split -l 20000000 chunk 按照每个文件2千万行进行切割，共分成5个文件

4) 进行转换

iconv -f gbk -t utf-8 chunka > chunka_utf8 -c

iconv -f gbk -t utf-8 chunkb > chunkb_utf8 -c

iconv -f gbk -t utf-8 chunkc > chunkc_utf8 -c

iconv -f gbk -t utf-8 chunkd > chunkd_utf8 -c

iconv -f gbk -t utf-8 chunke > chunke_utf8 -c

5) rm chunka chunkb chunkc chunkd chunke 删除原文件

6) cat chunk* > _utf8 进行合并

至此，工作完成

二、

批量文件编码转换

本操作有风险，请注意操作前备份文件。

1.将原来所有编码为gb2312的*.java文件转换为编码为utf-8 的*.文件

for i in `find . -name "*.java"`; do iconv -f gb2312 -t utf-8 $i -o $; done

2.将*.文件的.new扩展名去除

find . -name "*.new" | sed 's/(.*).new$/mv "&" "1"/' | sh

三、

linux下有许多方便的小工具来转换编码，

文本内容转换 iconv

文件名转换 convmv

mp3标签转换 python-mutagen

四、

用法： iconv [选项...] [文件...]

转换给定文件的编码。

输入/输出格式规范：

-f, --from-co

de=名称原始文本编码

-t, --to-code=名称输出编码

信息：

-l, --list 列举所有已知的字符集

输出控制：

-c 从输出中忽略无效的字符

-o, --output=FILE 输出文件

-s, --silent 关闭警告

--verbose 打印进度信息

-?, --help 给出该系统求助列表

--usage 给出简要的用法信息

-V, --version 打印程序版本号

五、

find default -type d -exec mkdir -p utf/{} ;

find default -type f -exec iconv -f GBK -t UTF-8 {} -o utf/{} ;

这两行命令将default目录下的文件由GBK编码转换为UTF-8编码，目录结构不变，转码后

的文件保存在utf/default目录下。

六、

Linux下文件名编码批量转换convmv

由于FC将字符编码统一成了UTF8，原来在gb18030下建立的ext3分区中的文件和目录，

一挂载到FC上就显示成乱码。google遍整个互联网，说对于目录名和文件名，有一个叫

convmv的软件可以对其进行自动转换。

今日下载了convmv，摸索了一套使用方法如下：

convmv -f code1 -t code2 -r

code1:分区原来使用的字符集编码。支持gb2312、gbk、 big5，不支持gb18030和big5-hkscs。

code2：预转换到的字符集编码。对于FC，这里填写utf8

-r 参数：转换子目录。

dir：要转换的目录，当前目录用./表示。

回车执行，这个时候convmv会显示执行的结果，但不会真正对文件进行修改。并提示使用

--replace参数进行修改。

七、

批量转换文件的编码

for i in `find ./ -name *.htm` ; do echo $i;iconv -f gb18030 -t utf8 $i -o

/tmp/;mv /tmp/ $i; done

find -name “*.htm“

-exec iconv -f gb2312 -t utf8 ‘{}‘ -o /tmp/ ;

-exec mv /tmp/ ‘{}‘ ;

--------------------------------------------------------------------------------

--------------

修改你的.vimrc文件，让其支持 gb2312就行，会自动识别的。

可以参考我的设置

代码:

"设定文件编码类型，彻底解决中文编码问题

let &termencoding=&encoding

set fileencodings=utf-8,gbk,ucs-bom,cp936

--------------------------------------------------------------------------------

oldniu

按照karron的方法解决了终端中vi看中文字问题。谢谢

略微查了一下.vimrc中添加内容的含意，这篇文章有相关解释。

/?type=trackback&entry_id=59

内容如下：

vim中编辑不同编码的文件时需要注意的一些地方

此文讲解的是vim编辑多字节编码文档（中文）所要了解的一些基础知识，注意其没有涉及

gvim，纯指字符终端下的vim。

[vim编码方面的基础知识]

1，存在3个变量：

encoding----该选项使用于缓冲的文本(你正在编辑的文件)，寄存器，Vim 脚本文件等等。

你可以把 'encoding' 选项当作是对 Vim 内部运行机制的设定。

fileencoding----该选项是vim写入文件时采用的编码类型。

termencoding----该选项代表输出到客户终端（Term）采用的编码类型。

2，此3个变量的默认值：

encoding----与系统当前locale相同，所以编辑文件的时候要考虑当前locale，否则要设

置的东西就比较多了。

fileencoding----vim打开文件时自动辨认其编码，fileencoding就为辨认的值。为空则保

存文件时采用encoding的编码，如果没有修改encoding，那值就是系统当前locale了。

termencoding----默认空值，也就是输出到终端不进行编码转换。

由此可见，编辑不同编码文件需要注意的地方不仅仅是这3个变量，还有系统当前locale

和、文件本身编码以及自动编码识别、客户运行vim的终端所使用的编码类型3个关键点，

这3个关键点影响着3个变量的设定。

如果有人问：为什么我用vim打开中文文档的时候出现乱码？

答案是不确定的，原因上面已经讲了，不搞清楚这3个关键点和这3个变量的设定值，出现

乱码是正常的，倒是不出现乱码那反倒是凑巧的。

再来看一下常见情况下这三个关键点的值以及在这种情况下这3个变量的值：

----目前大部分Linux系统已经将utf-8作为默认 locale了，不过也有可能不是，

例如有些系统使用中文locale zh_18030。在locale为utf-8的情况下，启动vim后

encoding将会设置为utf-8，这是兼容性最好的方式，因为内部处理使用utf-8的话，无论

外部存储编码为何都可以进行无缺损转换。locale决定了vim内部处理数据的编码，也就是

encoding。

2.文件的编码以及自动编码识别----这方面牵扯到各种编码的规则，就不一一细讲了。但需

要明白的是，文件编码类型并不是保存在文件内的，也就是说没有任何描述性的字段来记录

文档是何种编码类型的。因此我们在编辑文档的时候，要么必须知道这文档保存时是以什么

编码保存的，要么通过另外的一些手段来断定编码类型，这另外的手段，就是通过某些编码

的码表特征来断定，例如每个字符占用的字节数，每个字符的ascii值是否都大于某个字段

来断定这个文件属于何种编码。这种方式vim也使用了，这就是vim的自动编码识别机制了。

但这种机制由于编码各式各样，不可能每种编码都有显著的特征来辨别，所以是不可能 100%

准确的。对于我们GB2312编码，由于其中文是使用了2个acsii值高于127的字符组成汉字

字符的，因此不可能把gb2312编码的文件与 latin1编码区分开来，因此自动识别编码的机

制对于gb2312是不成功的，它只会将文件辨识为latin1编码。此问题同样出现在gbk，big5

上等。因此我们在编辑此类文档时，需要手工设定encoding和fileencoding。如果文档编

码为utf-8时，一般vim都能自动识别正确的编码。

3.客户运行vim的终端所使用的编码类型----同第二条一样，这也是一个比较难以断定的关

键点。第二个关键点决定着从文件读取内容和写入内容到文件时使用的编码，而此关键点则

决定vim输出内容到终端时使用的编码，如果此编码类型和终端认为它收到的数据的编码类

型不同，则又会产生乱码问题。在 linux本地X环境下，一般终端都认为其接收的数据的编

码类型和系统locale类型相符，因此不需关心此方面是否存在问题。但如果牵涉到远程终端，

例如ssh登录服务器，则问题就有可能出现了。例如从1台locale为GB2310的系统（称作

客户机）ssh到locale为utf-8的系统（称作服务器）并开启vim编辑文档，在不加任何

改动的情况下，服务器返回的数据为utf-8的，但客户机认为服务器返回的数据是gb2312

的，按照 gb2312来解释数据，则肯定就是乱码了，这时就需要设置termencoding为gb2312

来解决这个问题。此问题更多出现在我们的 windows desktop机远程ssh登录服务器的情况

下，这里牵扯到不同系统的编码转换问题。所以又与windows本身以及ssh客户端有很大相

关性。在 windows下存在两种编码类型的软件，一种是本身就为unicode编码方式编写的软

件，一种是ansi软件，也就是程序处理数据直接采用字节流，不关心编码。前一种程序可

以在任何语言的windows上正确显示多国语言，而后一种则编写在何种语言的系统上则只能

在何种语言的系统上显示正确的文字。对于这两种类型的程序，我们需要区别对待。以ssh

客户端为例，我们使用的putty是unicode软件，而secure CRT则是ansi 软件。对于前者，

我们要正确处理中文，只要保证vim输出到终端的编码为utf-8即可，就是

termencoding=utf-8。但对于后者，一方面我们要确认我们的windows系统默认代码页为

cp936（中文windows默认值），另一方面要确认vim设置的termencoding= cp936。

最后来看看处理中文文档最典型的几种情况和设置方式：

1.系统locale是utf-8（很多linux系统默认的locale形式），编辑的文档是GB2312或GBK

形式的（Windows记事本默认保存形式，大部分编辑器也默认保存为这个形式，所以最常见），

终端类型utf- 8（也就是假定客户端是putty类的unicode软件）

则vim打开文档后，encoding=utf-8（locale决定的），fileencoding=latin1（自动编码判

断机制不准导致的），termencoding=空（默认无需转换term编码），显示文件为乱码。

解决方案1：首先要修正fileencoding为cp936或者euc-cn（二者一样的，只不过叫法不同），

注意修正的方法不是:set fileencoding=cp936，这只是将文件保存为cp936，正确的方法是

重新以cp936的编码方式加载文件为:edit ++enc=cp936，可以简写为:e ++enc=cp936。

解决方案2：临时改变vim运行的locale环境，方法是以LANG=zh_CN vim 的方式

来启动vim，则此时encoding=euc-cn（locale决定的），fileencoding=空（此locale下文

件编码自动判别功能不启用，所以fileencoding为文件本身编码方式不变，也就是euc-cn），

termencoding=空（默认值，为空则等于encoding）此时还是乱码的，因为我们的ssh终端

认为接受的数据为utf-8，但vim发送数据为euc-cn，所以还是不对。此时再用命令: set

termencoding=utf-8将终端数据输出为utf-8，则显示正常。

2.情况与1基本相同，只是使用的ssh软件为secure CRT类ansi类软件。

vim打开文档后，encoding=utf-8（locale决定的），fileencoding=latin1（自动编码判断

机制不准导致的），termencoding=空（默认无需转换term编码），显示文件为乱码。

解决方案1：首先要保证运行secure CRT的windows机器的默认代码页为CP936，这一点中

文windows已经是默认设置了。其他的与上面方案1相同，只是要增加一步，:set

termencoding=cp936

解决方案2：与上面方案2类似，不过最后一步修改termencoding省略即可，在此情况下需

要的修改最少，只要以locale为zh_CN开启 vim，则encoding=euc-cn，fileencoding和

termencoding都为空即为encoding的值，是最理想的一种情况。

本文标签：编码文件转换进行终端

版权声明：本文标题：VIM查看中文编码文件显示为乱码的解决办法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1735205335a1641847.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

VIM查看中文编码文件显示为乱码的解决办法

更多相关文章

Macbook 显示隐藏的文件文件夹_mac显示隐藏文件夹

电脑垃圾清理全攻略

隐藏文件无法显示的解决方法_修改注册表windows隐藏文件无法显示

解决无法显示所有文件和文件夹，无法显示隐藏文件和文件夹_dontshowsuperhidden

Windows虚拟机中镜像文件_虚拟机镜像iso文件

VMware还原Windows11 ghost镜像_vmware ghost

迅雷极速版任务出错的解决办法（亲测可用）_极速版报错任务出错的处理方法

把VOB格式转换成其它格式的工具_vob转mepg2

将DVD中的VOB文件无损转换为MP4等常用视频格式的方法_dvd转mp4

Kvsc autorun.inf病毒

macbook pro忘记开机密码怎么办_macbookpro密码忘记

浏览器FTP详解

EasyRecovery：Windows系统下的神奇文件恢复工具，让你的SWF文件起死回生！

EasyRecovery数据恢复软件教学视频，从零开始，助你轻松掌握数据保护

EasyRecovery实战指南：从新手到高手，Windows文件恢复轻松搞定！

小米AX1800 WiFi6路由器：解锁SSH与IPv6网关设置

游戏无法打开？可能只是因为少了一个WPCAP.dll！

让Flash焕发生机，快速解决wpcap.dll丢失，防患于未然

不再为文件安全担忧！用WinRAR轻松实现压缩文件的终极保护！

Python助力：快速上手zip文件的压缩与解压

发表评论

推荐文章

硬盘低格的有关问题 _低格伤硬盘吗

MAC电脑连接外接显示屏，颜色显示有问题，又粉、紫色蒙版，问题处理（1）_mac外接显示器颜色变紫

Windows Vista Aero效果应用全攻略 _vista areo

CPU使用率：原理、监控与优化_cpu利用率

Adobe Flash Player进阶之路：从基础到精通

热门文章

网约车市场新挑战：2024年7月22日，揭秘司机使用的作弊软件

白加黑样本揭秘：Adobe Flash Player的优缺点分析

斐讯K2路由器+Pandorabox+Drcom_drcom Web认证插件，打造你的私人网络乐园！

Android模拟器网络地址详解：从入门到精通

程序链接步骤1：符号解析(符号 和 符号表)_第1关:全局符号的解析

系统修复指南

解决wineQQ崩溃假死后图标还在任务栏无法退出

CPU使用率飙升至100%的诊断与解决方案_cpu飙升原因排查

彻底清除U盘Autorun.inf病毒的自动化脚本

菜鸟也能学会！Windows 10系统还原轻松指南

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

程序链接步骤1：符号解析(符号和符号表)_第1关:全局符号的解析