为什么 ^[\\u4E00-\\u9FA5\\uF900-\\uFA2D\\w]*$ 中汉字的unicode编码正则表达式是两个区间？

为什么是两个不连续的区间呢？其他表示什么呢。
\\u4E00-\\u9FA5和\\uF900-\\uFA2D分别表示什么。

举报该问题

推荐答案 2011-12-27

简单点来说老外并不知道如何区分哪些是中文哪些是日文或别的双字节文字.
所以他们统一的把中文韩文日文叫成了象形文字,也就把这些文件放到了双字节区间的象形文字区
一句话,他们把知道一点的中文放到了一个区,后来又发现了一点中文又再到另一个区

温馨提示：答案为网友推荐，仅供参考

当前网址：http://55.wendadaohang.com/zd/eQLeeQR44.html

其他回答

第1个回答 2011-12-22

\\u4E00-\\u9FA5\\uF900-\\uFA2D这整个区间表示的是汉字，比较全面。
\\w匹配包括下划线的任何单词字符

第2个回答推荐于2017-10-01

嘿，不止这么简单，问题之纠结在于什么叫汉字，多大规模的，以前回答过类似的问题，参考一下吧。

关于unicode集合中的汉字，若干子区间如下定义：
03007 1 汉字“〇”
03400～04DB5 6582 ExtA 连续
04E00～09FCB 20940 基本集连续，但9FBC～9FCB暂无字形
0E815～0E864 80 自定义区连续，这些字符有两个unicode编码
0F900～0FAD9 470 兼容集有洞，且[FA2E,FA2F,FA6E,FA6F]暂无字形
20000～2A6D6 42711 ExtB 连续
2F800～2FA1D 542 兼容补遗连续
2A700～2B734 4149 ExtC 连续
2B740～2B81D 222 ExtD 连续

参考资料：http://zhidao.baidu.com/question/313562732.html?oldq=1

本回答被提问者采纳

相似回答

大家正在搜