ctext - all - slice
:自主收集的文言文繁体语料库,主要爬取自维基文库、全上古三代秦漢三國六朝文、漢川草廬等处ctext - 副本 - 副本
:ctext - all - slice
的先秦部分ctext - 白话
:自主收集的白话及现代汉语繁体语料库,主要爬取自维基百科、BWIKI、维基文库、知乎、繁體中文書庫等处- 以
a现
开头的6份文件采自香港、大陸、臺灣 – 跨地區、跨年代現代漢語常用字頻度統計的字频数据。没有上下文信息,应只用于字频相关分析
- 以
util.py
: 工具性函数Word2vec.py
:用gensim.models.Word2Vec()
提取简单nlp数据,附使用示例- 预训练的Word2Vec模型:访问码:eah1
sidneykuo-scraper.py
:用于漢川草廬的爬虫,可能需要另按页面格式调整wikipedia-scraper.py
:用于维基百科的爬虫wikisource-scraper(2).py
:用于维基文库的爬虫dict.py
:比照并找出dir
中不属于字.txt
的字,将按格式保存于new_chars.txt
search.py
:在texts_dir
中查找字符。将打印所在的文件名及所在的行data
:《廣韻》形聲考(Sliark再整理, 2024.4.25),在search.py
中用于展示中古音韵地位clust.py
:基于字频向量进行KMeans聚类;由轮廓分数(Silhouette Score)确定最佳聚类数clust4_clear.py
:基于字频向量,创建余弦相似度矩阵并保存;进行层次聚类,结果将保存为html
- BCC语料库
- CCL语料库