Guest User

Untitled

a guest
Jun 21st, 2018
103
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 0.86 KB | None | 0 0
  1. 字符的标识, 即码位, 是0~1114111的数字, 在Unicode标准中是以4~6个十六进制数字表示, 前缀"U+".
  2.  
  3. 例如: 字母A的码位是U+0041, 欧元符号的码位是U+20AC. 在Unicode6.3中, 约10%的有效码位有对应的字符.
  4.  
  5. 字符序列: 例如字母A字符序列是\x41
  6.  
  7. \!h 把码位转换成字符序列的过程是编码; 把字节序列转换成码位的过程是解码.
  8.  
  9. A是文本
  10. U+0041是码位
  11. \x41是字符序列
  12.  
  13. ====
  14. 除非想判断编码, 否则不要在二进制模式中打开文本文件. 常规代码只应该使用二进制模式打开二进制文件, 如光栅图像.
  15.  
  16. 不要依赖默认编码, 打开和写入文件是应该明确传入encoding参数.
  17.  
  18. 在程序中应该只处理文本, 不要处理字节序列, 但是读入和输出的都应该是字节序列. 所以也就要求了我们打开和写入文件要做显式的编解码.
Add Comment
Please, Sign In to add comment