字符编码介绍-摩杜云开发者社区

前言通过本文你能了解以下内容：

字符编码是什么，起什么作用？
字符编码的发展过程。
常见字符编码ASCII、Unicode、UTF-8作用与区别。
异常乱码的原因。

我们知道，计算机的世界里只有0和1，一切的文件、音乐、图片、视频等等都是由0和1的数据组成。那我们日常使用的输入法打出的文字，符号是如何被计算机识别的呢？复杂的世界语言、符号计算机又是如何管理区分的呢？这些问题将通过本文进行探讨。

一、什么是字符编码？

字符编码是将字符映射成其他形式的数据编译在计算机中存储和传输的映射规则。以较为熟悉的数字来说：

十进制	二进制	十六进制
10	1010	0x0A
66	0100 0010	0x42

这样我们熟悉的十进制数就转为了计算机熟悉的0/1。类似的，字符也可以进行特殊的编码，转为为计算机能够熟悉的数据，以大名鼎鼎的ASCII编码为例:

二进制	十进制	十六进制	缩写	含义/作用
0000 0000	0	0x00	NULL	空字符(Null)
0000 0001	1	0x01	SOH	标题开始
0000 0010	2	0x02	STX	文本开始
0000 0011	3	0x03	ETX	文本结束
0000 0100	4	0x04	EOT	传输结束
0000 0101	5	0x05	ENQ	请求
0000 0110	6	0x06	ACK	确认回应
0000 0111	7	0x07	BEL	响铃
0000 1000	8	0x08	BS	退格
0000 1001	9	0x09	HT	水平定位符号
0000 1010	10	0x0A	LF	换行键
0000 1011	11	0x0B	VT	垂直定位符号
0000 1100	12	0x0C	FF	换页键
0000 1101	13	0x0D	CR	CR(字符)
0000 1110	14	0x0E	SO	取消变换(Shift out)
0000 1111	15	0x0F	SI	启用变换(Shift in)
0001 0000	16	0x10	DEL	跳出数据通讯
0001 0001	17	0x11	DC1	设备控制一 (XON激活软件速度控制)
0001 0010	18	0x12	DC2	设备控制二
0001 0011	29	0x13	DC3	设备控制三 (XOFF停用软件速度控制)
0001 0100	20	0x14	DC4	设备控制四
0001 0101	21	0x15	NAK	确认失败回应
0001 0110	22	0x16	SYN	同步暂停
0001 0111	23	0x17	ETB	区块传输结束
0001 1000	24	0x18	CAN	取消
0001 1001	25	0x19	EM	连线介质中断
0001 1010	26	0x1A	SUB	替换
0001 1011	27	0x1B	ESC	退出键
0001 1100	28	0x1C	FS	文件分隔符
0001 1101	29	0x1D	GS	组群分隔符
0001 1110	30	0x1E	RS	记录分隔符
0001 1111	31	0x1F	US	单元分割符
0111 1111	127	0x7F	DEL	Delete字符

二进制	十进制	十六进制	字符
0010 0000	32	0x20	(space)
0010 0001	33	0x21	!
0010 0010	34	0x22	"
0010 0011	35	0x23	#
0010 0100	36	0x24	$
0010 0101	37	0x25	%
0010 0110	38	0x26	&
0010 0111	39	0x27	'
0010 1000	40	0x28	(
0010 1001	41	0x29	)
0010 1010	42	0x2A	*
0010 1011	43	0x2B	+
0010 1100	44	0x2C	,
0010 1101	45	0x2D	-
0010 1110	46	0x2E	.
0010 1111	47	0x2F	/
0011 0000	48	0x30	0
0011 0001	49	0x31	1
0011 0010	50	0x32	2
0011 0011	51	0x33	3
0011 0100	52	0x34	4
0011 0101	53	0x35	5
0011 0110	54	0x36	6
0011 0111	55	0x37	7
0011 1000	56	0x38	8
0011 1001	57	0x39	9
0011 1010	58	0x3A	:
0011 1011	59	0x3B	;
0011 1100	60	0x3C	<
0011 1101	61	0x3D	=
0011 1110	62	0x3E	>
0011 1111	63	0x3F	?
0100 0000	64	0x40	@
0100 0001	65	0x41	A
0100 0010	66	0x42	B
0100 0011	67	0x43	C
0100 0100	68	0x44	D
0100 0101	69	0x45	E
0100 0110	70	0x46	F
0100 0111	71	0x47	G
0100 1000	72	0x48	H
0100 1001	73	0x49	I
0100 1010	74	0x4A	J
0100 1011	75	0x4B	K
0100 1100	76	0x4C	L
0100 1101	77	0x4D	M
0100 1110	78	0x4E	N
0100 1111	79	0x4F	O
0101 0000	80	0x50	P
0101 0001	81	0x51	Q
0101 0010	82	0x52	R
0101 0011	83	0x53	S
0101 0100	84	0x54	T
0101 0101	85	0x55	U
0101 0110	86	0x56	V
0101 0111	87	0x57	W
0101 1000	88	0x58	X
0101 1001	89	0x59	Y
0101 1010	90	0x5A	Z
0101 1011	91	0x5B	[
0101 1100	92	0x5C	\|
0101 1101	93	0x5D	]
0101 1110	94	0x5E	^
0101 1111	95	0x5F	_
0110 0000	96	0x60	`
0110 0001	97	0x61	a
0110 0010	98	0x62	b
0110 0011	99	0x63	c
0110 0100	100	0x64	d
0110 0101	101	0x65	e
0110 0110	102	0x66	f
0110 0111	103	0x67	g
0110 1000	104	0x68	h
0110 1001	105	0x69	i
0110 1010	106	0x6A	j
0110 1011	107	0x6B	k
0110 1100	108	0x6C	l
0110 1101	109	0x6D	m
0110 1110	110	0x6E	n
0110 1111	111	0x6F	o
0111 0000	112	0x70	p
0111 0001	113	0x71	q
0111 0010	114	0x72	r
0111 0011	115	0x73	s
0111 0100	116	0x74	t
0111 0101	117	0x75	u
0111 0110	118	0x76	v
0111 0111	119	0x77	w
0111 1000	120	0x78	x
0111 1001	121	0x79	y
0111 1010	122	0x7A	z
0111 1011	123	0x7B	{
0111 1100	124	0x7C	\|
0111 1101	125	0x7D	}
0111 1110	126	0x7E	~

从上面可以发现，ASCII表共128个元素，分为了两部分(33 + 95)：

0x00~0x31 + 0x127：用来操控已处理的文字控制符，共33个，多数已弃用。
0x32~0x126：可显示字符，共95个,包含数字、26个大小写英文字母，常见英文标点符号。

通过ASCII能够将常用的英文字母和符号在计算机中进行表示，但中文、日文、韩文等其他文字和符号如何能让计算机识别并显示呢？

二、字符编码的发展

2.1 ASCII的诞生

1837以前文字信息通常以书面的方式进行传递，而这之后进入现代信息时代，摩斯电报的发明将文字信息转为电子信息来传递，在影视作品中经常可以见到通讯士兵使用通讯设备滴答滴答的发送情报，而这正是使用的摩斯电报。摩斯代码的数字化并不是指转为为0/1，而是基于电流的开/关两种状态。基于“开”的时长，长“开”用"-"表示，短“开”用“.”表示，每个字母用1 ~ 4个“-”和“.”表示，后经过改良形成不同版本的摩斯代码：

字符编码介绍_字符编码

再到后来，计算机的发明使用，急需字符的编码，方便人机的交互。初代计算机的数据识别是通过纸带打孔的方式，纸带固定位置的孔位是否打孔被计算机处理为它能够识别和处理的0或1。

字符编码介绍_字符编码_02

此时的人机交互繁琐困难，初代程序员面向打孔纸带编程，使用机器语言与计算机进行交互十分繁琐，低效，耗资源，易错。为了使这个过程变得高效，更符合人类交互特点，于是将字符进行编码，计算机对编码的字符进行解码成自己能够理解的0/1编码。于是ASCII(American Standard Code for Information Interchange美国信息交换标注代码)与1967年由美国制定了，是基于拉丁字母的编码系统，主要用于显示现代英语和其他西欧语言。所占字节为8bit，最早仅上述128个字符，后经过不断迭代扩展，后128个也被定义为其他字图案，例如：

二进制	十进制	十六进制	字符
1110 0011	227	0xE3	π
1110 1100	236	0xEC	∞

前128为ASCII码被称为基础ASCII码或标准ASCII码，后128个称为扩展ASCII码。

2.2 字符编码百花齐放和统一

前面提到ASCII编码主要适用英语和西欧语言，但对于其他语言却不适用，例如中文、日语、韩语、泰语、阿拉伯语等等，并且ASCII码仅8位，最多表示256字符，而中文大约共有10万多种字，需要更大容量、更灵活的编码方式，于是不同国家语系对自己的语言文字制定编码规则，例如GBK和GB2312（中国）、EUC-JP(日本)等等。

2.3 GB2312

这里以GB2312为例进行简单介绍：1980年我国推出GB2312,向上兼容了ASCII。GB2312采用双字节编码，字符编码占16bit。编码范围A1A1 ~ 0xFEFE,其中汉字编码范围0xB0A1 ~ 0xF7FE，共收录6763个汉字，虽然没有收录全部汉字，但基本满足日常生活、生产场景需要，同时GB2312还收录了包括拉丁字母、希腊字母、日文平/片假名字母，俄语西里尔字母在内的682个全角字符。 GB2312编码对所收录的字符进行了分区处理，共94个区(GB2312字符表)，例如：

第16区	0	1	2	3	4	5	6	7	8	9	A	B
B0A0		啊	阿	埃	挨	哎	唉	哀	皑	癌	蔼	矮
B0B0	鞍	氨	安	俺	按	暗	岸	胺	案	肮	昂	盎

"啊"字的GB2312编码就是0xB0A1。

这样不同国家的编码系统满足的自己国家文字编辑的需求，并且向下兼容ASCII，但问题却又出现了。试想这样的场景：你的阿拉伯朋友给你发了一封邮件，由于邮件内容采用阿拉伯字符编码，你收到邮件后GB2312由于没有收录阿拉伯语字符，导致不能解码出预期字符的问题，从而极易导致文字乱码的现象，这就是由于字符编码和解码出现了混乱。为了避免这跨编码导致的乱码尴尬，于是Unicode闪亮登场。

2.4 Unicode

国际标准组织1991年制作统一的标准字符集Unicode,又称统一码，万国码。它为每种语言的每个字符设定了统一并且唯一的二进制编码，以满足跨语言，跨平台的文本转换、处理要求。Unicode编码范围为0x0000000 ~ 0x010FFFF,最多可以容纳17*2^16=1114112个码位。使用17个平面，每个平面有2 ^16=65536个码位。

字符编码介绍_字符编码_03

例如“汉字”的Unicode编码为：U+6C49、U+5B57 (Unicode编码查询)

2.5 UTF-8

Unicode虽然解决了跨语言字符处理的问题，但也带来新的问题：

字符'a'在ASCII编码方式下编码为：0x61, 占1字节；字符'a'在Unicode编码方式下编码为：0x00000061，占4字节，这使得一本英文书以两种字符编码方式存储，文件大小差别巨大。

也就是说，虽然Unicode容量大，字符全，但编码占用空间大，使用效率低，基于节约原则，1992年便对Unicode进行了改良，诞生了UTF-8(8位元，Universal Character Set/Unicode Transformation Format)可变长度字符编码，将Unicode字符根据编码数字大小分为1~4字节，常用的英语2字节，汉字3字节，生僻字符4字节等，例如：（UTF-8编码查询）

字符	ASCII	Unicode	UTF-8
A	0100 0001	0000 0000 0000 0000 0000 0000 0100 0001	0100 0001
中		0000 0000 0000 0000 0100 1110 0010 1101	1110 0100 1011 1000 1010 1101

注:这里的Unicode是指Unicode-32,后续版本中对编码长度进度了改良。由此可以看出UTF-8节省了字符存储空间，尤其是对于英文字母。除了常见的UTF-8编码，还有UTF-16可变长字符编码、UTF-32固定长度字符编码。

三、总结

上文从字符编码发展历程的角度介绍了几种常见的字符编码的作用及其优缺点，已经乱码产生的背景和原因，通过字符编码使得全世界范围内的文字、符号得到表达和记录，还包括扩展的图案。