Skip to content
This repository has been archived by the owner on Sep 6, 2020. It is now read-only.

各种字符的unicode区间

tjsky edited this page Jul 9, 2017 · 6 revisions
  • 这个页面主要是为了方便大家写正则时,引用不同字符的范围
  • 虽然题目是各种字符的unicode区间,实际上除了汉字只列举基本多文种平面内的字符(*^__^*)
  • 之所以这样是因为绝大部分浏览器和操作系统都只支持基本多文种平面内的部分字符。
  • 基本多文种平面即:BMP(Basic Multilingual Plane),或称unicode第零平面(Plane 0)
  • unicode目前有17个矩阵平面,每个平面65536个位置,共1114112个位置,
  • CJK,意思是CJK 统一表意符号,包含中日韩三国文字及其注音符号,卦象,太玄经符号等等。
  • 表格基于unicode5.0

汉字

汉字 范围 数量 备注
汉字1 \u3007 1 中文小写数字“〇”
汉字2 \u3400-\u4DB5 6582 ExtA 连续
汉字3 \u4E00-\u9FCB 20940 基本集 连续,但9FBC~9FCB暂无字形
汉字4 \uE815-\uE864 80 自定义区 连续,这些字符有两个unicode编码
汉字5 \uF900-\uFAD9 470 兼容集 有洞,且[FA2E,FA2F,FA6E,FA6F]暂无字形
汉字6 \u20000-\u2A6D6 42711 ExtB 连续
汉字7 \u2F800-\u2FA1D 542 兼容补遗 连续
汉字8 \u2A700-\u2B734 4149 ExtC 连续
汉字9 \u2B740-\u2B81D 222 ExtD 连续
  • 汉字1~5已经包含国家标准GB18030-2005《信息技术 中文编码字符集》内的全部汉字(27484个字)
  • 汉字6~9主要是为了编入康熙字典里的汉字(47035个字)都是些打不出来也没法显示的字。
  • 实际使用中使用\u4e00-\u9fa5就可以了
  • 绝大部分浏览器和系统能显示的汉字范围为[\u3007\u3400-\u4DB5\u4E00-\u9FCB\uF900-\uFA2D]
  • 中文小写数字:〇一二三四五六七八九;中文大写数字:零壹贰叁肆伍陆柒捌玖。
    PS:所以“二零一七年”这么写是错误的,大小写混用了,应该写成“二〇一七年”

各种数字写法的范围

写法举例 范围 备注
1 [0-9]
[〇一二三四五六七八九]
[零壹贰叁肆伍陆柒捌玖]
[\u2460-\u2468] ⓪是\u24EA
[\u2474-\u247c] 没有0
[\u2488-\u2490] 没有0
[\u2160-\u2169] 没有0
[\u2776-\u277e] ⓿是\u24FF
[\u3220-\u3229] 没有0
1⁰ [\u2070-\u2079] 上标数字0~9
1₁ [\u2080-\u2089] 下标数字0~9

以上只是常用数字区间,中国人能看懂的数字区间为:
[0-9\u2460-\u249B\u24EA-\u24FF\u2150-\u218F\u2776-\u277e\u3220-\u3229\uff10-\uff19\u2070-\u2079\u2080-\u2089\u24ea\u24ff零壹贰叁肆伍陆柒捌玖〇一二三四五六七八九]


各种Emoji表情的范围

这个说起来都是泪啊,小日本整什么emoji嘛,单字节的,双字节的,单字节+控制符的,甚至四字节的

在参考了
1、android 输入框EditText禁止输入Emoji表情符
2、Android中过滤Emoji表情 完整版
3、Emoji Unicode Tables
4、Tieba Emoji
5、ZR贴吧营销综合发帖机
等等东西后,有个了还算靠谱的过滤区间

因为实际上绝大部分emoji表情都在第一矩阵平面,所以实际上表情编码在贴吧里会是替代编码 比如😁的Unicode实际是\U+1F601但你在管理器里看是\uD83D\uDE01, 也就是说,其实你过滤\uD83D和\uD83C就可以了

范围 区间名称 备注
[\uD83D]\uDE01-\uDE4F 表情符 😁
[\u2702-\u27B0] 装饰符
[\uD83D][[\uDEC0-\uDE80] 交通标识 🚌
(未完待续)

全部语言一览

区间 语言 备注
0000-007F C0控制符及基本拉丁文
C0 Control and Basic Latin
0080-00FF C1控制符及拉丁文补充-1
C1 Control and Latin 1 Supplement
0100-017F 拉丁文扩展-A
Latin Extended-A
0180-024F 拉丁文扩展-B
Latin Extended-B
0250-02AF 国际音标扩展
IPA Extensions
02B0-02FF 空白修饰字母
Spacing Modifiers
0300-036F 结合用读音符号
Combining Diacritics Marks
0370-03FF 希腊文及科普特文
Greek and Coptic
0400-04FF 西里尔字母
Cyrillic
0500-052F 西里尔字母补充
Cyrillic Supplement
0530-058F 亚美尼亚语
Armenian
0590-05FF 希伯来文
Hebrew
0600-06FF 阿拉伯文
Arabic
0700-074F 叙利亚文
Syriac
0750-077F 阿拉伯文补充
Arabic Supplement
0780-07BF 马尔代夫语
Thaana
07C0-07FF 西非书面语言
N'Ko
0800-085F 阿维斯塔语及巴列维语
Avestan and Pahlavi
0860-087F Mandaic
0880-08AF 撒马利亚语
Samaritan
0900-097F 天城文书
Devanagari
0980-09FF 孟加拉语
Bengali
0A00-0A7F 锡克教文
Gurmukhi
0A80-0AFF 古吉拉特文
Gujarati
0B00-0B7F 奥里亚文
Oriya
0B80-0BFF 泰米尔文
Tamil
0C00-0C7F 泰卢固文
Telugu
0C80-0CFF 卡纳达文
Kannada
0D00-0D7F 德拉维族语
Malayalam
0D80-0DFF 僧伽罗语
Sinhala
0E00-0E7F 泰文
Thai
0E80-0EFF 老挝文
Lao
0F00-0FFF 藏文
Tibetan
1000-109F 缅甸语
Myanmar
10A0-10FF 格鲁吉亚语
Georgian
1100-11FF 朝鲜文
Hangul Jamo
1200-137F 埃塞俄比亚语
Ethiopic
1380-139F 埃塞俄比亚语补充
Ethiopic Supplement
13A0-13FF 切罗基语
Cherokee
1400-167F 统一加拿大土著语音节
Unified Canadian Aboriginal Syllabics
1680-169F 欧甘字母
Ogham
16A0-16FF 如尼文
Runic
1700-171F 塔加路文
Tagalog
1720-173F 哈努诺文
Hanunóo
1740-175F 布迪文
Buhid
1760-177F 塔格巴努亚文
Tagbanwa
1780-17FF 高棉语
Khmer
1800-18AF 蒙古文
Mongolian
1900-194F 林布文
Limbu
1950-197F 德宏傣语
Tai Le
1980-19DF 新傣语
New Tai Lue
19E0-19FF 高棉语记号
Kmer Symbols
1A00-1A1F 布吉文
Buginese
1A20-1A5F 巴塔克文
Batak
1A80-1AEF 兰纳文
Lanna
1B00-1B7F 巴厘语
Balinese
1B80-1BB0 巽他语
Sundanese
1BC0-1BFF 杨松录苗文
Pahawh Hmong
1C00-1C4F 雷布查语
Lepcha
1C50-1C7F Ol Chiki
1C80-1CDF 曼尼普尔语
Meithei/Manipuri
1D00-1D7F 语音学扩展
Phonetic Extensions
1D80-1DBF 语音学扩展补充
Phonetic Extensions Supplement
1DC0-1DFF 结合用读音符号补充
Combining Diacritics Marks Supplement
1E00-1EFF 拉丁文扩充附加
Latin Extended Additional
1F00-1FFF 希腊语扩充
Greek Extended
2000-206F 常用标点
General Punctuation
2070-209F 上标及下标
Superscripts and Subscripts
20A0-20CF 货币符号
Currency Symbols
20D0-20FF 组合用记号
Combining Diacritics Marks for Symbols
2100-214F 字母式符号
Letterlike Symbols
2150-218F 数字形式
Number Form
2190-21FF 箭头
Arrows
2200-22FF 数学运算符
Mathematical Operator
2300-23FF 杂项工业符号
Miscellaneous Technical
2400-243F 控制图片
Control Pictures
2440-245F 光学识别符
Optical Character Recognition
2460-24FF 封闭式字母数字
Enclosed Alphanumerics
2500-257F 制表符
Box Drawing
2580-259F 方块元素
Block Element
25A0-25FF 几何图形
Geometric Shapes
2600-26FF 杂项符号
Miscellaneous Symbols
2700-27BF 印刷符号
Dingbats
27C0-27EF 杂项数学符号-A
Miscellaneous Mathematical Symbols-A
27F0-27FF 追加箭头-A
Supplemental Arrows-A
2800-28FF 盲文点字模型
Braille Patterns
2900-297F 追加箭头-B
Supplemental Arrows-B
2980-29FF 杂项数学符号-B
Miscellaneous Mathematical Symbols-B
2A00-2AFF 追加数学运算符
Supplemental Mathematical Operator
2B00-2BFF 杂项符号和箭头
Miscellaneous Symbols and Arrows
2C00-2C5F 格拉哥里字母
Glagolitic
2C60-2C7F 拉丁文扩展-C
Latin Extended-C
2C80-2CFF 古埃及语
Coptic
2D00-2D2F 格鲁吉亚语补充
Georgian Supplement
2D30-2D7F 提非纳文
Tifinagh
2D80-2DDF 埃塞俄比亚语扩展
Ethiopic Extended
2E00-2E7F 追加标点
Supplemental Punctuation
2E80-2EFF CJK 部首补充
CJK Radicals Supplement
2F00-2FDF 康熙字典部首
Kangxi Radicals
2FF0-2FFF 表意文字描述符
Ideographic Description Characters
3000-303F CJK 符号和标点
CJK Symbols and Punctuation
3040-309F 日文平假名
Hiragana
30A0-30FF 日文片假名
Katakana
3100-312F 注音字母
Bopomofo
3130-318F 朝鲜文兼容字母
Hangul Compatibility Jamo
3190-319F 象形字注释标志
Kanbun
31A0-31BF 注音字母扩展
Bopomofo Extended
31C0-31EF CJK 笔画
CJK Strokes
31F0-31FF 日文片假名语音扩展
Katakana Phonetic Extensions
3200-32FF 封闭式 CJK 文字和月份
Enclosed CJK Letters and Months
3300-33FF CJK 兼容
CJK Compatibility
3400-4DBF CJK 统一表意符号扩展 A
CJK Unified Ideographs Extension A
4DC0-4DFF 易经六十四卦符号
Yijing Hexagrams Symbols
4E00-9FBF CJK 统一表意符号
CJK Unified Ideographs
A000-A48F 彝文音节
Yi Syllables
A490-A4CF 彝文字根
Yi Radicals
A500-A59F 瓦伊语
Vai
A640-A69F 统一加拿大土著语音节补充
Unified Canadian Aboriginal Syllabics Supplement
A700-A71F 声调修饰字母
Modifier Tone Letters
A720-A7FF 拉丁文扩展-D
Latin Extended-D
A800-A82F Syloti Nagri
A840-A87F 八思巴字
Phags-pa
A880-A8DF Saurashtra
A900-A92F Kayah Li
A930-A95F 勒姜语
Rejang
AA00-AA5F 鞑靼文
Cham
AC00-D7AF 朝鲜文音节
Hangul Syllables
D800-DB7F 高位替代
High Surrogates
DB80-DBFF 高位专用替代
High Private Use Surrogates
DC00-DFFF 低位替代
Low Surrogates
E000-F8FF 自行使用区域
Private Use Zone
F900-FAFF CJK 兼容象形文字
CJK Compatibility Ideographs
FB00-FB4F 字母表达形式
Alphabetic Presentation Form
FB50-FDFF 阿拉伯表达形式A
Arabic Presentation Form-A
FE00-FE0F 变量选择符
Variation Selector
FE10-FE1F 竖排形式
Vertical Forms
FE20-FE2F 组合用半符号
Combining Half Marks
FE30-FE4F CJK 兼容形式
CJK Compatibility Forms
FE50-FE6F 小型变体形式
Small Form Variants
FE70-FEFF 阿拉伯表达形式B
Arabic Presentation Form-B
FF00-FFEF 半型及全型形式
Halfwidth and Fullwidth Form
FFF0-FFFF 特殊
Specials