Skip to content

词典加载 说明文档

冬日新雨 edited this page Jan 22, 2021 · 6 revisions

加载成语词典

chinese_idiom_loader

加载成语词典,返回格式为 dict 格式,每个成语都包含了解释(explanation)典故(derivation)拼音(pinyin)例句(example)词条频率(freq)

>>> import jionlp as jio
>>> chinese_idioms = jio.chinese_idiom_loader()
>>> print(chinese_idioms['安然无恙'])

# {'explanation': '恙病。原指人平安没有疾病。现泛指事物平安未遭损害。',
#  'derivation': '《战国策·齐策》岁亦无恙耶?民亦无恙耶?王亦无恙耶?。”',
#  'pinyin': ['ān', 'rán', 'wú', 'yàng'],
#  'example': '只求处士每岁元旦,作一朱幡,上图日月五星之文,立于苑东,吾辈则安然无恙矣。★明·冯梦龙《醒世恒言》第四卷',
#  'freq': 7341}
  • 成语词典主要来自于新华词典,以及少量人工补充,共计30800余条。
  • 词频指的是在 100万篇文档中,出现的频率,为了平滑,不在文本中出现的词频设定为1。

加载歇后语词典

xiehouyu_loader

加载歇后语词典,返回格式为 list 格式,每条歇后语都包含了谜面(riddle)回答(answer)

>>> import jionlp as jio
>>> xiehouyu_list = jio.xiehouyu_loader()
>>> print(xiehouyu_list[1000])

# ['说书的唱大鼓', '走了板']
  • 成语词典主要来自于 github 上的汇总(此类歇后语偏旧),以及总结网络上的(新式歇后语)。
  • 若干歇后语是同义的表达,如 “一个模子出来的 一个样” 和 “一个模子出来的 一模一样”,对于此类情况,按两个不同的进行计算。

加载中国省、市、县地名词典

china_location_loader

加载中国省、市、县三级词典,返回格式为 dict 格式。

>>> import jionlp as jio
>>> china_location = jio.china_location_loader()
>>> print(china_location['吉林省']['长春市']['宽城区'])

# {'_full_name': '宽城区', '_alias': '宽城', '_admin_code': '220103'}
  • 该函数被应用在 jio.parse_location 中,采用 2020 年最新中国行政区划制作。
  • 每个词条都包含全名、别名、行政区划号码三部分。

加载世界国家、城市地名词典

world_location_loader

加载世界大洲、国家、城市三级词典,返回格式为 dict 格式。

>>> import jionlp as jio
>>> world_location = jio.world_location_loader()
>>> print(world_location['欧洲']['法国'])

# {'full_name': '法兰西共和国', 'capital': '巴黎', 'main_city': ['马赛', '里昂', '图卢兹', '斯特拉斯堡']}
  • 该函数被应用在 jio.recognize_location 中。
  • 每个词条都包含全名、简称、首都、主要城市四部分。

加载新华字典

chinese_char_dictionary_loader

加载新华字典,包括汉字、释义、详细信息(出处、例句、构词等)。

>>> import jionlp as jio
>>> chinese_char_dict = jio.chinese_char_dictionary_loader()
>>> print(chinese_char_dict['翟'])

# {'explanation': '翟  di## 长尾的野鸡 ## 翟羽 ## 舞人十六,执羽翟,以四为列。--《新唐书》## 姓## 翟  zhai## 姓## 翟 dí〈古〉长尾野鸡。又见zhái。## 翟zhái## ⒈姓。', 
#  'more_details': '翟 zhai、di 部首 羽 部首笔画 06 总笔画 14  翟1#dí#(1)#长尾的野鸡 。如翟车(皇后所乘饰以雉羽的车子)#(2)#翟羽 。古代乐舞 所执雉羽#舞人十六,执羽翟,以四为列。--《新唐书》#(3)#姓#另见zhái#翟2#zhái#姓#另见dí#翟1#dí\u3000ㄉㄧˊ#(1)#长尾山雉(野鸡)。#(2)#古代乐舞用的雉羽。#(3)#古同狄”,称中国北方的民族。#郑码ytyn,u7fdf,gbkb5d4#笔画数14,部首羽,笔顺编号54154132411121#翟2#zhái\u3000ㄓㄞˊ#姓。#郑码ytyn,u7fdf,gbkb5d4# 笔画数14,部首羽,笔顺编号54154132411121'}
  • 词典释义和详细信息较为杂乱。

加载新华词典

chinese_word_dictionary_loader

加载新华词典,包括汉字、释义,词典较为陈旧,缺乏近年新兴词汇。

>>> import jionlp as jio
>>> chinese_word_dict = jio.chinese_word_dictionary_loader()
>>> print(chinese_word_dict['葳蕤'])

# '1.形容枝叶繁盛当户种蔷薇,枝叶太葳蕤。2.华美;艳丽妾有绣腰襦,葳蕤自生光|胡服何葳蕤。'

加载中国区划调整词典

china_location_change_loader

加载新华词典,包括汉字、释义,词典较为陈旧,缺乏近年新兴词汇。

>>> import jionlp as jio
>>> res = jio.china_location_change_loader()
>>> print(res)

# [
#     {
#          'date': '2018-02-09',   # 批复日期
#          'department': '国批',   # 批复单位
#          'old_loc': [['山西省', '山西'], ['大同市', '大同'], ['城区', '城区']],
#          'new_loc': ['山西省', '大同市', '平城区']
#     }, ...]
  • 根据 中国行政区划调整整理得到,整理了从 2018 年至今的县级以上地名变更
  • “国批” 为国务院批准,“民批” 为民政部批准,“省批”为县级以下行政区划的调整批复