- npm i
- node index.js
主要用来扒取公司架构生成静态页面,经过几次更新现在已经可以下载网站里90%的内容,主要就是图片下载还有些问题。
- 可以同时下载多个页面 (需自己配置)
- 分类保存 css,js,images 资源
- 自动替换a链接 (有文件的链接到下载好的文件,没有的为 'javascript:;')
- 只能下载本公司架构(写这个工具的本意就是扒公司架构)
- 还不能下载css文件中的背景图片(已解决)
- 由于架构中图片路径的不规范,导致现在下载img标签里的图片有时会报错(已解决)
- 所有的操作都需要修改 index.js文件,还没做界面
- 第一次写,估计性能已经代码结构方面还有很多问题
- 由于图片路径千奇百怪所以组合链接的时候做了太多的判断,而且有些图片还不好下载
- 由于是循环单个html页面,所以会重复下载里面的资源...
- 图片下载不完全会报如下错误
Error: connect ETIMEDOUT 218.4.132.130:8000 at TCPConnectWrap.afterConnect [as oncomplete] (net.js:1113:14)
- 先挖个坑,看作最后能填成什么样子
- 原生 js, (数组,正则,dom操纵)
- 原生 node.js 中的 fs (文件操作),path (路径操作)
- cheerio.js (可以向jQuery一样操作扒下来的数据)
- async.js (异步操作这里主要是用来,异步下载图片)
- request.js (http请求)
- 图片异步下载(网上找的)
- 进一步优化下载逻辑
- 是否能找到一种更好的下载方式