使用requests库抓取网页内容,分析实体(诗、词、曲)对应的页面链接,跳转到对应页面后使用BeautifulSoup匹配文本从而抓取目标内容
文件 | 什么东西 |
---|---|
libai.py | 爬取李白诗词的爬虫 |
songci.py | 爬取宋词的爬虫 |
yuanqu.py | 爬取元曲的爬虫 |
libaiRecognition.py | 识别李白诗词中包含木字旁的字的诗词解析代码 |
songciRecognition.py | 识别宋词中包含木字旁的字的宋词解析代码 |
yuanquRecognition.py | 识别元曲中包含木字旁的字的元曲解析代码 |
libai.txt | 李白诗词 |
songci.txt | 宋词 |
yaunqu.txt | 元曲 |
yaunqu_notitle.txt | 元曲(不包含标题) |
name2chose_libai.txt | 李白诗词中包含木字旁的字的诗词 |
name2chose_songci.txt | 宋词中包含木字旁的字的宋词 |
name2chose_yuanqu.txt | 元曲中包含木字旁的字的元曲 |
以爬取宋词为例
python songci.py
结果保存在songci.txt当中
整个过程是基于词典思想设计的,使用木字旁的词典并对宋词的每句诗进行文本匹配,将匹配到的诗句保存到name2chose_songci.txt中。
python songciRecognition.py
宋词:
匹配到的宋词: