前端开发之-网页字符编码

字符编码

  1. unicode
    • 国际化,字符类型之前转换无损
    • UTF-8,UTF-16, UTF-32
      类型 说明
      UTF-8 最常用字符编码, 一般由1-4个字节(对应ASCII编码的0-127),也可在5-6个字节(不在ASCII码中)表示, 可变长度
      UTF-16 每个字符占用2个字节,宽字符,大尾序,小尾序
      UTF-32 每个字符占用4个字节
  2. 国标
    • GB2312, GBK, GB18030
      类型 说明 编码方式
      GB2312 中国国家标准总局于1980年发布的关于汉字编码标准,共收录6763个汉字 **双字节编码
      GBK 是对GB2312的扩展,兼容 GB2312-80,共收录(21003个)汉字和(883个)图形符号21886个,包含BIG5的所有汉字 **双字节编码
      GB18030 兼容GB2312和GBK,我国计算机系统遵循的标准,分2个版本(GB18030-2000 增加CJK统一汉字扩充A的汉字 和 GB18030-2005 增加CJK统一汉字扩充B的汉字) **单字节、双字节、四字节分段编码
  3. 繁体字
    • BIG5(大五码)
    • 中国台湾、澳门、香港等地使用
    • 采用双字节编码方式, 兼容ASCII码
  4. ASCII
    • 基于拉丁字母的一套编码系统
    • 标准: 等同于国际标准 ISO/IEC 646
    • 字符数: 128个字符
    • 编码方式: 单字节编码
    • 查询表参考: https://www.asciim.cn/

正则中的字符编码应用

  const r = new RegExp('/your words/', 'u')
  r.unicode // true
上一篇
下一篇