编码的种类

日本游戏进口到中国----》中国的电影没有 日本的编码集----》导致乱码

要想不乱----》装语言包----》能够正常显示日文   

联合国       万国码   -----》支持全球所有的语言

1. unicode ,   2-4个字节,已经收录136690个字符(中文就有2万多个字符),并且一直在不断扩张中。。。。。

2. 还可以与全球各个 语言进行转换, unicode----》gbk 等等                1990年左右    

   1. 1980年,当时很多软件都基于gb2312开发的,转向unicode 的话基本等于推到重来

   2. Unicode = 英语,gbk = 汉语,没有强烈的需求全都转为Unicode

   全球计算机厂商出厂的都支持Unicode,大多数软件的程序都支持Unicode

中国的windows 电脑上都是gbk编码的

Unicode 又带来一个新问题, 在内存里空间大没问题 ,如果要传输或者存在硬盘上,空间大了一倍浪费+效率低

针对unicode的传输+存储,做了一个utf-8(全称:Unicode Transformation Format ,学术名UTF ),总共有三个版本,utf - 8 ,utf - 16 ,utf - 32

UTF - 8 :使用1、2、3、4个字节表示所有字符;优先使用1个字符,没法满足则使增加1个字节,最多4个字节,英文占1个字节,欧洲语系占2个,东亚占3个,其他及特殊字符占4个字节

 

字符 ACSII Unicode UTF -8
A 01000001 00000000 01000001 01000001
x 01001110 00101101    11100100 10111000 10101101

                                                                                                               分享图片分享图片

py 2 = ACSII

py 3 = Unicode

编写程序前需要先声明用什么方式编码

相关文章
相关标签/搜索