Skip to content

Latest commit

 

History

History
16 lines (9 loc) · 433 Bytes

README.md

File metadata and controls

16 lines (9 loc) · 433 Bytes

comap_crawler

美赛爬虫

美国大学生数学建模竞赛证书爬取及信息OCR识别分析

download.py:多进程下载证书,大概用时1小时

pdf2text.py: 多进程pdf OCR信息提取,大概用时1.5小时

证书数量:27205

最终识别得到的信息条数:27161

https://raw.githubusercontent.com/personqianduixue/comap_crawler/master/all/all.txt

部分信息会识别错误,例如 i 识别成了 1