收藏官网首页
查看: 18155|回复: 1

[经验分享] UTF8 与 UTF8 +BOM 区别

65

主题

123

帖子

787

积分

高级会员

Rank: 4

积分
787
跳转到指定楼层
楼主
发表于 2016-11-23 12:26:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
校园创客福利
BOM——Byte Order Mark,就是字节序标记
UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
UTF-8编码的文件中,BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话,用UE打开这个文件,切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法,软件通过BOM来识别这个文件是否是UTF-8编码,很多软件还要求读入的文件必须带BOM。可是,还是有很多软件不能识别BOM
BOM: Byte Order Mark
UTF-8 BOM又叫UTF-8 签名,其实UTF-8 BOMUFT-8没有作用,是为了支持UTF-16,UTF-32才加上的
BOM,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别,但是BOM虽然在编辑器
中不显示,但是会产生输出,就像多了一个空行。
文件举例
90905
90907
90908
90909
90939
90940
90946
90959
90961
90965
当文件分别用asciiutf8utf8+bom作为编码格式时,显示输出结果如下:
使用ascii编码的输出:
['90905\r\n', '90907\r\n', '90908\r\n', '90909\r\n', '90939\r\n', '90940\r\n', '90946\r\n', '90959\r\n', '90961\r\n', '90965']
使用utf8编码的输出:
['90905\r\n', '90907\r\n', '90908\r\n', '90909\r\n', '90939\r\n', '90940\r\n', '90946\r\n', '90959\r\n', '90961\r\n', '90965']
使用bom编码的输出:
['\xef\xbb\xbf90905\r\n', '90907\r\n', '90908\r\n', '90909\r\n', '90939\r\n', '90940\r\n', '90946\r\n', '90959\r\n', '90961\r\n', '90965']

原来utf8+bom不能直接转换int的原因在这里,它在文件头插入了一个表示文件编码的信息\xef\xbb\xbf

65

主题

123

帖子

787

积分

高级会员

Rank: 4

积分
787
沙发
 楼主| 发表于 2016-11-23 12:26:44 | 只看该作者
欢迎大家继续讨论关于编码的各种问题
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

加入Q群 返回顶部

版权与免责声明 © 2006-2024 Gizwits IoT Technology Co., Ltd. ( 粤ICP备11090211号 )

快速回复 返回顶部 返回列表