Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- 字符的标识, 即码位, 是0~1114111的数字, 在Unicode标准中是以4~6个十六进制数字表示, 前缀"U+".
- 例如: 字母A的码位是U+0041, 欧元符号的码位是U+20AC. 在Unicode6.3中, 约10%的有效码位有对应的字符.
- 字符序列: 例如字母A字符序列是\x41
- \!h 把码位转换成字符序列的过程是编码; 把字节序列转换成码位的过程是解码.
- A是文本
- U+0041是码位
- \x41是字符序列
- ====
- 除非想判断编码, 否则不要在二进制模式中打开文本文件. 常规代码只应该使用二进制模式打开二进制文件, 如光栅图像.
- 不要依赖默认编码, 打开和写入文件是应该明确传入encoding参数.
- 在程序中应该只处理文本, 不要处理字节序列, 但是读入和输出的都应该是字节序列. 所以也就要求了我们打开和写入文件要做显式的编解码.
Add Comment
Please, Sign In to add comment