Skip to content

Qwert-ly/xtext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

说明

  • ctext - all - slice:自主收集的文言文繁体语料库,主要爬取自维基文库全上古三代秦漢三國六朝文漢川草廬等处
  • ctext - 副本 - 副本ctext - all - slice的先秦部分
  • ctext - 白话:自主收集的白话及现代汉语繁体语料库,主要爬取自维基百科BWIKI维基文库知乎繁體中文書庫等处
    1. a现开头的6份文件采自香港、大陸、臺灣 – 跨地區、跨年代現代漢語常用字頻度統計的字频数据。没有上下文信息,应只用于字频相关分析
  • util.py: 工具性函数
  • Word2vec.py:用gensim.models.Word2Vec()提取简单nlp数据,附使用示例
    1. 预训练的Word2Vec模型:访问码:eah1
  • sidneykuo-scraper.py:用于漢川草廬的爬虫,可能需要另按页面格式调整
  • wikipedia-scraper.py:用于维基百科的爬虫
  • wikisource-scraper(2).py:用于维基文库的爬虫
  • dict.py:比照并找出dir中不属于字.txt的字,将按格式保存于new_chars.txt
  • search.py:在texts_dir中查找字符。将打印所在的文件名及所在的行
  • data:《廣韻》形聲考(Sliark再整理, 2024.4.25),在search.py中用于展示中古音韵地位
  • clust.py:基于字频向量进行KMeans聚类;由轮廓分数(Silhouette Score)确定最佳聚类数
  • clust4_clear.py:基于字频向量,创建余弦相似度矩阵并保存;进行层次聚类,结果将保存为html

其他语料库

github

其他

About

basic nlp(?) of classical Chinese

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages