字符编码
unicode
- 国际化,字符类型之间转换无损
UTF-8, UTF-16, UTF-32
类型 说明 UTF-8 最常用字符编码,一般由1-4个字节(对应ASCII编码的0-127),也可在5-6个字节(不在ASCII码中)表示,可变长度 UTF-16 每个字符占用2个字节,宽字符,大尾序,小尾序 UTF-32 每个字符占用4个字节
国标
GB2312, GBK, GB18030
类型 说明 编码方式 GB2312 中国国家标准总局于1980年发布的关于汉字编码标准,共收录6763个汉字 双字节编码 GBK 是对GB2312的扩展,兼容 GB2312-80,共收录(21003个)汉字和(883个)图形符号21886个,包含BIG5的所有汉字 双字节编码 GB18030 兼容GB2312和GBK,我国计算机系统遵循的标准,分2个版本(GB18030-2000 增加CJK统一汉字扩充A的汉字 和 GB18030-2005 增加CJK统一汉字扩充B的汉字) 单字节、双字节、四字节分段编码
繁体字
- BIG5(大五码)
- 中国台湾、澳门、香港等地使用
- 采用双字节编码方式,兼容ASCII码
ASCII
- 基于拉丁字母的一套编码系统
- 标准: 等同于国际标准 ISO/IEC 646
- 字符数: 128个字符
- 编码方式: 单字节编码
- 查询表参考: https://www.asciim.cn/
正则中的字符编码应用
const r = new RegExp('/your words/', 'u')
r.unicode // true