字符编码
- unicode
- 国际化,字符类型之前转换无损
- UTF-8,UTF-16, UTF-32
类型 | 说明 |
---|
UTF-8 | 最常用字符编码, 一般由1-4个字节(对应ASCII编码的0-127),也可在5-6个字节(不在ASCII码中)表示, 可变长度 |
UTF-16 | 每个字符占用2个字节,宽字符,大尾序,小尾序 |
UTF-32 | 每个字符占用4个字节 |
- 国标
- GB2312, GBK, GB18030
类型 | 说明 | 编码方式 |
---|
GB2312 | 中国国家标准总局于1980年发布的关于汉字编码标准,共收录6763个汉字 | **双字节编码 |
GBK | 是对GB2312的扩展,兼容 GB2312-80,共收录(21003个)汉字和(883个)图形符号21886个,包含BIG5的所有汉字 | **双字节编码 |
GB18030 | 兼容GB2312和GBK,我国计算机系统遵循的标准,分2个版本(GB18030-2000 增加CJK统一汉字扩充A的汉字 和 GB18030-2005 增加CJK统一汉字扩充B的汉字) | **单字节、双字节、四字节分段编码 |
- 繁体字
- BIG5(大五码)
- 中国台湾、澳门、香港等地使用
- 采用双字节编码方式, 兼容ASCII码
- ASCII
正则中的字符编码应用
const r = new RegExp('/your words/', 'u')
r.unicode // true