说明

ctext - all - slice：自主收集的文言文繁体语料库，主要爬取自维基文库、全上古三代秦漢三國六朝文、漢川草廬等处
ctext - 副本 - 副本：ctext - all - slice的先秦部分
ctext - 白话：自主收集的白话及现代汉语繁体语料库，主要爬取自维基百科、BWIKI、维基文库、知乎、繁體中文書庫等处
1. 以a现开头的6份文件采自香港、大陸、臺灣 – 跨地區、跨年代現代漢語常用字頻度統計的字频数据。没有上下文信息，应只用于字频相关分析
util.py：工具性函数
Word2vec.py：用gensim.models.Word2Vec()提取简单nlp数据，附使用示例
1. 预训练的Word2Vec模型：访问码：eah1
sidneykuo-scraper.py：用于漢川草廬的爬虫，可能需要另按页面格式调整
wikipedia-scraper.py：用于维基百科的爬虫
wikisource-scraper(2).py：用于维基文库的爬虫
dict.py：比照并找出dir中不属于字.txt的字，将按格式保存于new_chars.txt
search.py：在texts_dir中查找字符。将打印所在的文件名及所在的行
data：《廣韻》形聲考（Sliark再整理, 2024.4.25），在search.py中用于展示中古音韵地位
clust.py：基于字频向量进行KMeans聚类；由轮廓分数(Silhouette Score)确定最佳聚类数
clust4_clear.py：基于字频向量，创建余弦相似度矩阵并保存；进行层次聚类，结果将保存为html

其他语料库

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
ctext - all - slice		ctext - all - slice
ctext - 副本 - 副本		ctext - 副本 - 副本
ctext - 白话		ctext - 白话
README.md		README.md
Word2vec.py		Word2vec.py
clust.py		clust.py
clust4_clear.py		clust4_clear.py
ctext - all - slice.7z		ctext - all - slice.7z
ctext - 副本 - 副本.7z		ctext - 副本 - 副本.7z
ctext - 白话.7z		ctext - 白话.7z
ctext-scraper.py		ctext-scraper.py
ctext-scraper2.py		ctext-scraper2.py
ctext-scraper3.py		ctext-scraper3.py
data		data
dict.py		dict.py
search.py		search.py
sidneyluo-scraper.py		sidneyluo-scraper.py
util.py		util.py
wikipedia-scraper.py		wikipedia-scraper.py
wikisource-scraper.py		wikisource-scraper.py
wikisource-scraper2.py		wikisource-scraper2.py
worddif.py		worddif.py
字.txt		字.txt