wget 递归下载整个网站(网站扒皮必备)

有时间看到别人网站的页面比较漂亮,就想给扒皮下来,学习学习。分享一个我常用网站扒皮命令wget
这个命令可以以递归的方式下载整站,并可以将下载的页面中的链接转换为本地链接。
wget加上参数之后,即可成为相当强大的下载工具。

wget -r -p -np -k http://xxx.com/xxx

-r, –recursive(递归) specify recursive download.(指定递归下载)
-k, –convert-links(转换链接) make links in downloaded HTML point to local files.(将下载的HTML页面中的链接转换为相对链接即本地链接)
-p, –page-requisites(页面必需元素) get all images, etc. needed to display HTML page.(下载所有的图片等页面显示所需的内容)
-np, –no-parent(不追溯至父级) don’t ascend to the parent directory.
另外断点续传用-nc参数 日志 用-o参数
拿我自己的网站扒皮试一下吧

wget -r -p -np -k https://wujunze.com/

等网站递归下载完毕,你会发现你当前目录会有一个 wujunze.com的目录
进入这个目录看一下

4063678739

熟练掌握wget命令,可以帮助你扒皮网站。

以上转载自:https://wujunze.com/linux_wget.jsp

 

小紫注

当然咯,这个命令只能扒静态资源,你就别指望把源码扒下来了,除非对方服务器配置有问题不解析服务端动态语言

你所看到截图中的.jsp文件其实只是类似于伪静态的方式实现的,实际上都是JSP执行后输出的html而已

10 条评论

点击这里取消回复。

昵称
  1. 刚测试了下,这个命令除了字体下载不到,其他的完全没问题,非常给力。