作品

Yande.re 图片爬虫

Python

4140

2017-03-07

前言

每天打开电脑第一件事，就是打开Y站，看看又更新了哪些图片、其中又有哪些适合作为壁纸

日久天长，总会感觉浪费时间精力，每天都要在一堆图片里找PC壁纸

这可不符合我作为一个码农的身份

正好最近想学学Python3，于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差，轻喷

本项目基于Win7、Python3.5.2开发，其他环境下未测试

功能

支持从指定的开始页码爬取到结束页码
也支持从第一页爬取到上一次开始爬取的位置
支持设置爬取的图片类型（全部、横图、竖图、正方形）
支持最大或最小图片尺寸、宽高比限制
按照当天的日期创建目录并存放爬取的图片
爬取结束后会在图片目录下生成日志文件

如何使用

必须编辑Function.py第5行，将该变量的值设为自己想要的目录，程序将会自动创建，路径必须以斜杠结尾

方案一：如果想要从开始页码爬到结束页码，请修改index.py第12行和第15行的两个变量；
方案二：如果想要从开始页码爬取到上一次开始爬取的位置，请修改index.py第15行的值为0。还有last_start_id.data的内容，改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1，相当于每次执行都只从新增的图片中爬取

例如某图片的详情页Url为：https://yande.re/post/show/346737，则图片id为346737

然后命令行执行python index.py即可（Windows下）。Linux下可直接执行

注意事项

值得一提的是，无论使用哪种方案运行，last_start_id.data的内容都会被自动修改为爬取到的第一张图片的id

这样做的目的是为了实现方案二，相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

项目地址

https://github.com/mokeyjay/Yandere-crawler

Yande.re 图片爬虫

https://mok.moe/p/krq5

本站除注明转载外均为原创文章，采用 CC BY-NC-ND 4.0 协议。转载请注明出处，不得用于商业用途

昵称

邮箱

网址

2021-10-05 10:26

Khva

您好，我在最近使用的时候会报错，内容如下：
ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: certificate has expired (_ssl.c:1129)
我以为是yande的证书过期了，但是好像并不是...

2020-04-12 20:01

黑伊

大佬这个是不是改了我找不到行

2020-04-13 11:09

mokeyjay 博主

找不到行？

2020-04-13 13:56

黑伊

大佬不好意思打扰你了我刚接触这个东西很多都不了解能不能给我发一下弄好的我照猫画虎弄一下

2020-04-13 16:41

mokeyjay 博主

这是开源项目，文中的项目地址里就有源码啊

2020-04-14 09:36

黑伊

我不会找这个 index.py第12行和第15行的两个变量
# 将选项转换为1/0以便判断，倒不是我忘了用bool……
return 2
是这个吗

2020-04-14 23:41

mokeyjay 博主

请用 Python3

2019-05-07 10:04

洛天依家有黑猫

大佬，我这里运行的时候总会出现下面的提示
File "D:\Software\Yandere-crawler-master\index.py", line 11
SyntaxError: Non-ASCII character '\xd2' in file D:\Software\Yandere-crawler-master\index.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
这是啥情况啊？

2019-05-07 10:06

mokeyjay 博主

你是不是动过 index.py 里面的代码？

2019-05-07 10:21

洛天依家有黑猫

没啊，我就改了你说的几个。对了你这是不是要用python3啊

2019-05-07 10:22

mokeyjay 博主

是的，上面写了呀

2019-05-07 10:59

洛天依家有黑猫

用了3也一样，还是这样子

2019-05-07 11:01

mokeyjay 博主

你确定你用到3了？第11行是注释，没理由报错的。你检查一下版本

2019-05-07 11:15

洛天依家有黑猫

emmmmm，我按照网上的教程加了个编码申明，然后还是又给了这个提示
Traceback (most recent call last):
File "D:\Software\Yandere-crawler-master\index.py", line 28, in
last_start_id = int(Function.get('last_start_id.data')) # 上次开始爬取时第一张图片ID。爬到此ID则终止此次爬取
File "D:\Software\Yandere-crawler-master\Function.py", line 39, in get
file = open(file_name)
FileNotFoundError: [Errno 2] No such file or directory: 'last_start_id.data'

2019-05-07 11:16

mokeyjay 博主

摸不着头脑.jpg

2019-05-07 11:18

洛天依家有黑猫

啊……脑阔痛.jpg

2019-05-07 11:03

洛天依家有黑猫

我下的最新的啊

2019-05-07 10:23

洛天依家有黑猫

好吧，我错了，我用的2，我去下个3试试

2019-03-05 22:56

否子戈

非常牛批的项目
如果可以识别图片内容，再加个搜索引起，妻不是爽到爆

2019-02-15 21:59

萌拔型小幻

大佬请问png不能批量下吗，png比jpg文件失真少，可以添加一下png吗？

2018-05-23 13:51

null

https://yande.re/post/show/346737 这都是什么不堪入目的图片,楼主

2018-05-23 16:22

mokeyjay 博主

三点不露如此健全怎么就不堪入目了

2018-01-13 20:28

Mercerry

图片详情页里面有download PNG这个选项想问下有没有这个功能

2017-05-29 14:26

freejishu

SyntaxError: Non-ASCII character '\xe9' in file index.py on line 11, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
没学过PY，求博主帮助。。（Centos7）

2017-05-29 17:08

mokeyjay 博主

这……我也不是很懂，我也好久没看py了，本来也就是初学的水平

2017-04-12 11:48

Ice-Hazymoon

打开电脑第一件事，就是打开Y站，敢问博主近来身体可好~

2017-04-12 11:49

mokeyjay 博主

挺好的挺好的，因为是在公司开，所以R18从来不点，营养还算跟得上

2017-03-31 08:27

那天的流星

事实证明畅言手机版并不好用

2017-03-31 13:26

mokeyjay 博主

没办法啊~没有更好的了

2017-04-04 08:33

纷泪雨

感觉用了畅言网速变慢了[/大哭]

2017-04-05 00:09

mokeyjay 博主

是有点拖慢速度，正在筹备转回WP原生

2017-03-20 17:30

mokeyjay 博主

[/流汗]测试下畅言

2017-03-10 19:09

Giuem

还以为有福利呢

2017-03-12 00:29

mokeyjay 博主

Y站里一堆黄图，随便看。我要是发福利等下又要被腾讯管家拉黑了（虽然至今还没释放