首页技术日记正文内容

编码知多少

技术日记

更新时间：2026-04-03 22:50:47 90

admin 管理员组

文章数量: 1184232

2024年3月14日发(作者：administrators权限怎么获得win10)

编程中常见编码介绍

摘要：本文在对各种资料整理后详细介绍各种常见编码的转换算法。

一、通用字符集（UCS）

ISO/IEC 10646-1 [ISO-10646]定义了一种多于8比特字节的字符集，称作通用

字符集（UCS），它包含了世界上大多数可书写的字符系统。已定义了两种多8

比特字节编码，对每一个字符采用四个8比特字节编码的称为UCS-4，对每一个

字符采用两个8比特字节编码的称为UCS-2。它们仅能够对UCS的前64K字符

进行编址，超出此范围的其它部分当前还没有分配编址。

二、基本多语言面（BMP）

ISO 10646 定义了一个31位的字符集。然而，在这巨大的编码空间中，迄今

为止只分配了前65534个码位 (0x0000 到 0xFFFD)。这个UCS的16位子集

称为 “基本多语言面 ”(Basic Multilingual Plane, BMP)。

三、Unicode编码

历史上，有两个独立的，创立单一字符集的尝试。一个是国际标准化组织(ISO)

的 ISO 10646 项目；另一个是由(一开始大多是美国的)多语言软件制造商组

成的协会组织的 Unicode 项目。幸运的是， 1991年前后, 两个项目的参与者

都认识到：世界不需要两个不同的单一字符集。它们合并双方的工作成果，并

为创立一个单一编码表而协同工作。两个项目仍都存在并独立地公布各自的标

准，但 Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode 和 ISO

10646 标准的码表兼容，并紧密地共同调整任何未来的扩展。Unicode 标准额

外定义了许多与字符有关的语义符号学，一般而言是对于实现高质量的印刷出

版系统的更好的参考。

四、UTF-8编码

UCS-2和UCS-4编码很难在许多当前的应用和协议中使用，这些应用和协议假

定字符为一个8或7比特的字节。即使新的可以处理16比特字符的系统，却不

能处理UCS-4数据。这种情况导致一种称为UCS转换格式（UTF）的发展，它

每一种有不同的特征。 UTF-8(RFC 2279)，使用了8比特字节的所有位，保持

全部US-ASCII取值范围的性质：US-ASCII字符用一个8比特字节编码，采用通

常的US-ASCII值，因此，在此值下的任何一个8比特位字节仅仅代表一个

US-ASCII字符，而不会为其他字符。它有如下的特性：

1）UTF-8向UCS-4，UCS-2两者中任一个进行相互转换比较容易。

2）多8比特字节序列的第一个8比特字节指明了系列中8比特字节的数目。

3）8比特字节值FE和FF永远不会出现。

4）在8比特字符流中字符边界从哪里开始较容易发现。

UTF-8定义:

在UTF-8中，字符采用1到6个8比特字节的序列进行编码。仅仅一个8比特

字节的一个序列中，字节的高位为0，其他的7位用于字符值编码。n（n>1）

个8比特字节的一个序列中，初始的8比特字节中高n位为1，接着一位为0，

此字节余下的位包含被编码字符值的位。接着的所有8比特字节的最高位为1，

接着下一位为0，余下每个字节6位包含被编码字符的位。

下表总结了这些不同的8比特字节类型格式。字母x指出此位来自于进行编码的

UCS-4字符值。

UCS-4范围（16进制） UTF-8 系列（二进制）

0000 0000<->0000 007F 0xxxxxxx

0000 0080<->0000 07FF 110xxxxx 10xxxxxx

0000 0800<->0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000<->001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0020 0000<->03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx

10xxxxxx

0400 0000<->7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

从UCS-4 到 UTF-8编码规则如下：

1）从字符值和上表第一列中决定需要的8比特字节数目。着重指出的是上表中

的行是相互排斥的，也就是说，对于一个给定的UCS-4字符，仅仅有一个有效

的编码。

2）按照上表中第二列每行那样准备8比特字节的高位。

3）将UCS字符值的位，从低位起填充在标记为x地方。从UTF8序列中最后一

个字节填起，然后剩下的字符值依次放到前一个字节中，如此重复，直到所有标

记位x的位都进行了填充。

这里我们仅仅实现Unicode到UTF8的转换，Unicode都是两个字节，定义为:

typedef usigned short WCHAR

本文标签：字节字符编码进行范围

版权声明：本文标题：编码知多少内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1710391269a570981.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。