美赛爬虫
美国大学生数学建模竞赛证书爬取及信息OCR识别分析
download.py:多进程下载证书,大概用时1小时
pdf2text.py: 多进程pdf OCR信息提取,大概用时1.5小时
证书数量:27205
最终识别得到的信息条数:27161
https://raw.githubusercontent.com/personqianduixue/comap_crawler/master/all/all.txt
部分信息会识别错误,例如 i 识别成了 1
美赛爬虫
美国大学生数学建模竞赛证书爬取及信息OCR识别分析
download.py:多进程下载证书,大概用时1小时
pdf2text.py: 多进程pdf OCR信息提取,大概用时1.5小时
证书数量:27205
最终识别得到的信息条数:27161
https://raw.githubusercontent.com/personqianduixue/comap_crawler/master/all/all.txt
部分信息会识别错误,例如 i 识别成了 1