技术

wget 递归下载整个网站(网站扒皮必备)

Linux

2304

2016-02-28

有时间看到别人网站的页面比较漂亮，就想给扒皮下来，学习学习。分享一个我常用网站扒皮命令wget
这个命令可以以递归的方式下载整站，并可以将下载的页面中的链接转换为本地链接。
wget加上参数之后，即可成为相当强大的下载工具。

wget -r -p -np -k http://xxx.com/xxx

-r, --recursive（递归） specify recursive download.（指定递归下载）
-k, --convert-links（转换链接） make links in downloaded HTML point to local files.（将下载的HTML页面中的链接转换为相对链接即本地链接）
-p, --page-requisites（页面必需元素） get all images, etc. needed to display HTML page.（下载所有的图片等页面显示所需的内容）
-np, --no-parent（不追溯至父级） don't ascend to the parent directory.
另外断点续传用-nc参数日志用-o参数
拿我自己的网站扒皮试一下吧

wget -r -p -np -k https://wujunze.com/

等网站递归下载完毕,你会发现你当前目录会有一个 wujunze.com的目录
进入这个目录看一下

熟练掌握wget命令，可以帮助你扒皮网站。

以上转载自：https://wujunze.com/linux_wget.jsp

小紫注

当然咯，这个命令只能扒静态资源，你就别指望把源码扒下来了，除非对方服务器配置有问题不解析服务端动态语言

你所看到截图中的.jsp文件其实只是类似于伪静态的方式实现的，实际上都是JSP执行后输出的html而已

wget 递归下载整个网站(网站扒皮必备)

https://mok.moe/p/vnbs

本站除注明转载外均为原创文章，采用 CC BY-NC-ND 4.0 协议。转载请注明出处，不得用于商业用途

昵称

邮箱

网址

2017-05-26 18:18

雲途科技信息发展有限公司

刚测试了下，这个命令除了字体下载不到，其他的完全没问题，非常给力。

2017-05-21 23:04

Z4HD

这个可以用来抢救一些有珍贵静态资料的网站比如FL吧导航

2016-08-13 20:40

霜酱

我去下国外菊苣的博客群http://komkon.net/下的了，可是我下国内的网站CSS丢了、、、

2016-06-23 14:53

小刘

这tm就有点尴尬了他是怎么递归的

2016-03-16 18:25

静静

HTTrack表示笑了

2016-03-02 09:53

行云流火

我比较想知道他是如何递归的。。。
因为网站一般并不提供filelist。。。。。
如果说从sitemap上看的话，命令中并没有相关语句啊= =
P.S.不觉得多说评论框真的好丑好不搭么。。。

2016-04-07 04:01

asd

从html中读取载入的资源？

2016-04-07 17:21

类似于蜘蛛么？那完全不能从任何页面中找到的页面是不是没法扒。。。

2016-04-07 17:25

是没法扒，但页面肯定有。不然爬来也没用。

2016-03-02 10:13

mokeyjay 博主

我也不知道，就是感觉好厉害，就先转了再说
评论框啊，我觉得都是淡灰色还挺搭网页背景色的。。。