This repository has been archived by the owner on Sep 6, 2020. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 43
各种字符的unicode区间
tjsky edited this page Jul 9, 2017
·
6 revisions
- 这个页面主要是为了方便大家写正则时,引用不同字符的范围
- 虽然题目是各种字符的unicode区间,实际上除了汉字只列举基本多文种平面内的字符(*^__^*)
- 之所以这样是因为绝大部分浏览器和操作系统都只支持基本多文种平面内的部分字符。
- 基本多文种平面即:BMP(Basic Multilingual Plane),或称unicode第零平面(Plane 0)
- unicode目前有17个矩阵平面,每个平面65536个位置,共1114112个位置,
- CJK,意思是CJK 统一表意符号,包含中日韩三国文字及其注音符号,卦象,太玄经符号等等。
- 表格基于unicode5.0
汉字 | 范围 | 数量 | 备注 |
---|---|---|---|
汉字1 | \u3007 | 1 | 中文小写数字“〇” |
汉字2 | \u3400-\u4DB5 | 6582 | ExtA 连续 |
汉字3 | \u4E00-\u9FCB | 20940 | 基本集 连续,但9FBC~9FCB暂无字形 |
汉字4 | \uE815-\uE864 | 80 | 自定义区 连续,这些字符有两个unicode编码 |
汉字5 | \uF900-\uFAD9 | 470 | 兼容集 有洞,且[FA2E,FA2F,FA6E,FA6F]暂无字形 |
汉字6 | \u20000-\u2A6D6 | 42711 | ExtB 连续 |
汉字7 | \u2F800-\u2FA1D | 542 | 兼容补遗 连续 |
汉字8 | \u2A700-\u2B734 | 4149 | ExtC 连续 |
汉字9 | \u2B740-\u2B81D | 222 | ExtD 连续 |
- 汉字1~5已经包含国家标准GB18030-2005《信息技术 中文编码字符集》内的全部汉字(27484个字)
- 汉字6~9主要是为了编入康熙字典里的汉字(47035个字)都是些打不出来也没法显示的字。
- 实际使用中使用\u4e00-\u9fa5就可以了
- 绝大部分浏览器和系统能显示的汉字范围为[\u3007\u3400-\u4DB5\u4E00-\u9FCB\uF900-\uFA2D]
- 中文小写数字:〇一二三四五六七八九;中文大写数字:零壹贰叁肆伍陆柒捌玖。
PS:所以“二零一七年”这么写是错误的,大小写混用了,应该写成“二〇一七年”
写法举例 | 范围 | 备注 |
---|---|---|
1 | [0-9] | |
一 | [〇一二三四五六七八九] | |
壹 | [零壹贰叁肆伍陆柒捌玖] | |
① | [\u2460-\u2468] | ⓪是\u24EA |
⑴ | [\u2474-\u247c] | 没有0 |
⒈ | [\u2488-\u2490] | 没有0 |
Ⅰ | [\u2160-\u2169] | 没有0 |
❶ | [\u2776-\u277e] | ⓿是\u24FF |
㈠ | [\u3220-\u3229] | 没有0 |
1⁰ | [\u2070-\u2079] | 上标数字0~9 |
1₁ | [\u2080-\u2089] | 下标数字0~9 |
以上只是常用数字区间,中国人能看懂的数字区间为:
[0-9\u2460-\u249B\u24EA-\u24FF\u2150-\u218F\u2776-\u277e\u3220-\u3229\uff10-\uff19\u2070-\u2079\u2080-\u2089\u24ea\u24ff零壹贰叁肆伍陆柒捌玖〇一二三四五六七八九]
这个说起来都是泪啊,小日本整什么emoji嘛,单字节的,双字节的,单字节+控制符的,甚至四字节的
在参考了
1、android 输入框EditText禁止输入Emoji表情符
2、Android中过滤Emoji表情 完整版
3、Emoji Unicode Tables
4、Tieba Emoji
5、ZR贴吧营销综合发帖机
等等东西后,有个了还算靠谱的过滤区间
因为实际上绝大部分emoji表情都在第一矩阵平面,所以实际上表情编码在贴吧里会是替代编码 比如😁的Unicode实际是\U+1F601但你在管理器里看是\uD83D\uDE01, 也就是说,其实你过滤\uD83D和\uD83C就可以了
范围 | 区间名称 | 备注 |
---|---|---|
[\uD83D]\uDE01-\uDE4F | 表情符 | 😁 |
[\u2702-\u27B0] | 装饰符 | ✂ |
[\uD83D][[\uDEC0-\uDE80] | 交通标识 | 🚌 |
(未完待续) |
区间 | 语言 | 备注 |
---|---|---|
0000-007F | C0控制符及基本拉丁文 C0 Control and Basic Latin |
|
0080-00FF | C1控制符及拉丁文补充-1 C1 Control and Latin 1 Supplement |
|
0100-017F | 拉丁文扩展-A Latin Extended-A |
|
0180-024F | 拉丁文扩展-B Latin Extended-B |
|
0250-02AF | 国际音标扩展 IPA Extensions |
|
02B0-02FF | 空白修饰字母 Spacing Modifiers |
|
0300-036F | 结合用读音符号 Combining Diacritics Marks |
|
0370-03FF | 希腊文及科普特文 Greek and Coptic |
|
0400-04FF | 西里尔字母 Cyrillic |
|
0500-052F | 西里尔字母补充 Cyrillic Supplement |
|
0530-058F | 亚美尼亚语 Armenian |
|
0590-05FF | 希伯来文 Hebrew |
|
0600-06FF | 阿拉伯文 Arabic |
|
0700-074F | 叙利亚文 Syriac |
|
0750-077F | 阿拉伯文补充 Arabic Supplement |
|
0780-07BF | 马尔代夫语 Thaana |
|
07C0-07FF | 西非书面语言 N'Ko |
|
0800-085F | 阿维斯塔语及巴列维语 Avestan and Pahlavi |
|
0860-087F | Mandaic | |
0880-08AF | 撒马利亚语 Samaritan |
|
0900-097F | 天城文书 Devanagari |
|
0980-09FF | 孟加拉语 Bengali |
|
0A00-0A7F | 锡克教文 Gurmukhi |
|
0A80-0AFF | 古吉拉特文 Gujarati |
|
0B00-0B7F | 奥里亚文 Oriya |
|
0B80-0BFF | 泰米尔文 Tamil |
|
0C00-0C7F | 泰卢固文 Telugu |
|
0C80-0CFF | 卡纳达文 Kannada |
|
0D00-0D7F | 德拉维族语 Malayalam |
|
0D80-0DFF | 僧伽罗语 Sinhala |
|
0E00-0E7F | 泰文 Thai |
|
0E80-0EFF | 老挝文 Lao |
|
0F00-0FFF | 藏文 Tibetan |
|
1000-109F | 缅甸语 Myanmar |
|
10A0-10FF | 格鲁吉亚语 Georgian |
|
1100-11FF | 朝鲜文 Hangul Jamo |
|
1200-137F | 埃塞俄比亚语 Ethiopic |
|
1380-139F | 埃塞俄比亚语补充 Ethiopic Supplement |
|
13A0-13FF | 切罗基语 Cherokee |
|
1400-167F | 统一加拿大土著语音节 Unified Canadian Aboriginal Syllabics |
|
1680-169F | 欧甘字母 Ogham |
|
16A0-16FF | 如尼文 Runic |
|
1700-171F | 塔加路文 Tagalog |
|
1720-173F | 哈努诺文 Hanunóo |
|
1740-175F | 布迪文 Buhid |
|
1760-177F | 塔格巴努亚文 Tagbanwa |
|
1780-17FF | 高棉语 Khmer |
|
1800-18AF | 蒙古文 Mongolian |
|
1900-194F | 林布文 Limbu |
|
1950-197F | 德宏傣语 Tai Le |
|
1980-19DF | 新傣语 New Tai Lue |
|
19E0-19FF | 高棉语记号 Kmer Symbols |
|
1A00-1A1F | 布吉文 Buginese |
|
1A20-1A5F | 巴塔克文 Batak |
|
1A80-1AEF | 兰纳文 Lanna |
|
1B00-1B7F | 巴厘语 Balinese |
|
1B80-1BB0 | 巽他语 Sundanese |
|
1BC0-1BFF | 杨松录苗文 Pahawh Hmong |
|
1C00-1C4F | 雷布查语 Lepcha |
|
1C50-1C7F | Ol Chiki | |
1C80-1CDF | 曼尼普尔语 Meithei/Manipuri |
|
1D00-1D7F | 语音学扩展 Phonetic Extensions |
|
1D80-1DBF | 语音学扩展补充 Phonetic Extensions Supplement |
|
1DC0-1DFF | 结合用读音符号补充 Combining Diacritics Marks Supplement |
|
1E00-1EFF | 拉丁文扩充附加 Latin Extended Additional |
|
1F00-1FFF | 希腊语扩充 Greek Extended |
|
2000-206F | 常用标点 General Punctuation |
|
2070-209F | 上标及下标 Superscripts and Subscripts |
|
20A0-20CF | 货币符号 Currency Symbols |
|
20D0-20FF | 组合用记号 Combining Diacritics Marks for Symbols |
|
2100-214F | 字母式符号 Letterlike Symbols |
|
2150-218F | 数字形式 Number Form |
|
2190-21FF | 箭头 Arrows |
|
2200-22FF | 数学运算符 Mathematical Operator |
|
2300-23FF | 杂项工业符号 Miscellaneous Technical |
|
2400-243F | 控制图片 Control Pictures |
|
2440-245F | 光学识别符 Optical Character Recognition |
|
2460-24FF | 封闭式字母数字 Enclosed Alphanumerics |
|
2500-257F | 制表符 Box Drawing |
|
2580-259F | 方块元素 Block Element |
|
25A0-25FF | 几何图形 Geometric Shapes |
|
2600-26FF | 杂项符号 Miscellaneous Symbols |
|
2700-27BF | 印刷符号 Dingbats |
|
27C0-27EF | 杂项数学符号-A Miscellaneous Mathematical Symbols-A |
|
27F0-27FF | 追加箭头-A Supplemental Arrows-A |
|
2800-28FF | 盲文点字模型 Braille Patterns |
|
2900-297F | 追加箭头-B Supplemental Arrows-B |
|
2980-29FF | 杂项数学符号-B Miscellaneous Mathematical Symbols-B |
|
2A00-2AFF | 追加数学运算符 Supplemental Mathematical Operator |
|
2B00-2BFF | 杂项符号和箭头 Miscellaneous Symbols and Arrows |
|
2C00-2C5F | 格拉哥里字母 Glagolitic |
|
2C60-2C7F | 拉丁文扩展-C Latin Extended-C |
|
2C80-2CFF | 古埃及语 Coptic |
|
2D00-2D2F | 格鲁吉亚语补充 Georgian Supplement |
|
2D30-2D7F | 提非纳文 Tifinagh |
|
2D80-2DDF | 埃塞俄比亚语扩展 Ethiopic Extended |
|
2E00-2E7F | 追加标点 Supplemental Punctuation |
|
2E80-2EFF | CJK 部首补充 CJK Radicals Supplement |
|
2F00-2FDF | 康熙字典部首 Kangxi Radicals |
|
2FF0-2FFF | 表意文字描述符 Ideographic Description Characters |
|
3000-303F | CJK 符号和标点 CJK Symbols and Punctuation |
|
3040-309F | 日文平假名 Hiragana |
|
30A0-30FF | 日文片假名 Katakana |
|
3100-312F | 注音字母 Bopomofo |
|
3130-318F | 朝鲜文兼容字母 Hangul Compatibility Jamo |
|
3190-319F | 象形字注释标志 Kanbun |
|
31A0-31BF | 注音字母扩展 Bopomofo Extended |
|
31C0-31EF | CJK 笔画 CJK Strokes |
|
31F0-31FF | 日文片假名语音扩展 Katakana Phonetic Extensions |
|
3200-32FF | 封闭式 CJK 文字和月份 Enclosed CJK Letters and Months |
|
3300-33FF | CJK 兼容 CJK Compatibility |
|
3400-4DBF | CJK 统一表意符号扩展 A CJK Unified Ideographs Extension A |
|
4DC0-4DFF | 易经六十四卦符号 Yijing Hexagrams Symbols |
|
4E00-9FBF | CJK 统一表意符号 CJK Unified Ideographs |
|
A000-A48F | 彝文音节 Yi Syllables |
|
A490-A4CF | 彝文字根 Yi Radicals |
|
A500-A59F | 瓦伊语 Vai |
|
A640-A69F | 统一加拿大土著语音节补充 Unified Canadian Aboriginal Syllabics Supplement |
|
A700-A71F | 声调修饰字母 Modifier Tone Letters |
|
A720-A7FF | 拉丁文扩展-D Latin Extended-D |
|
A800-A82F | Syloti Nagri | |
A840-A87F | 八思巴字 Phags-pa |
|
A880-A8DF | Saurashtra | |
A900-A92F | Kayah Li | |
A930-A95F | 勒姜语 Rejang |
|
AA00-AA5F | 鞑靼文 Cham |
|
AC00-D7AF | 朝鲜文音节 Hangul Syllables |
|
D800-DB7F | 高位替代 High Surrogates |
|
DB80-DBFF | 高位专用替代 High Private Use Surrogates |
|
DC00-DFFF | 低位替代 Low Surrogates |
|
E000-F8FF | 自行使用区域 Private Use Zone |
|
F900-FAFF | CJK 兼容象形文字 CJK Compatibility Ideographs |
|
FB00-FB4F | 字母表达形式 Alphabetic Presentation Form |
|
FB50-FDFF | 阿拉伯表达形式A Arabic Presentation Form-A |
|
FE00-FE0F | 变量选择符 Variation Selector |
|
FE10-FE1F | 竖排形式 Vertical Forms |
|
FE20-FE2F | 组合用半符号 Combining Half Marks |
|
FE30-FE4F | CJK 兼容形式 CJK Compatibility Forms |
|
FE50-FE6F | 小型变体形式 Small Form Variants |
|
FE70-FEFF | 阿拉伯表达形式B Arabic Presentation Form-B |
|
FF00-FFEF | 半型及全型形式 Halfwidth and Fullwidth Form |
|
FFF0-FFFF | 特殊 Specials |