Yande.re 图片爬虫

前言

每天打开电脑第一件事,就是打开Y站,看看又更新了哪些图片、其中又有哪些适合作为壁纸

日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找PC壁纸

这可不符合我作为一个码农的身份

正好最近想学学Python3,于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差,轻喷

本项目基于Win7Python3.5.2开发,其他环境下未测试

功能

  • 支持从指定的开始页码爬取到结束页码
  • 也支持从第一页爬取到上一次开始爬取的位置
  • 支持设置爬取的图片类型(全部、横图、竖图、正方形)
  • 支持最大或最小图片尺寸宽高比限制
  • 按照当天的日期创建目录并存放爬取的图片
  • 爬取结束后会在图片目录下生成日志文件

如何使用

必须 编辑Function.py5行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾

  • 方案一:如果想要从开始页码爬到结束页码,请修改index.py12行和第15行的两个变量;
  • 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改index.py15行的值为0。还有last_start_id.data的内容,改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1,相当于每次执行都只从新增的图片中爬取

例如某图片的详情页Url为:https://yande.re/post/show/346737,则图片id为346737

然后命令行执行python index.py即可(Windows下)。Linux下可直接执行

注意事项

值得一提的是,无论使用哪种方案运行,last_start_id.data的内容都会被自动修改为爬取到的第一张图片的id

这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

项目地址

https://github.com/mokeyjay/Yandere-crawler

11 条评论

昵称
  1. freejishu

    SyntaxError: Non-ASCII character '\xe9' in file index.py on line 11, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
    没学过PY,求博主帮助。。(Centos7)

    1. mokeyjay

      这……我也不是很懂,我也好久没看py了,本来也就是初学的水平

  2. Ice-Hazymoon

    打开电脑第一件事,就是打开Y站,敢问博主近来身体可好~

    1. mokeyjay

      挺好的挺好的,因为是在公司开,所以R18从来不点,营养还算跟得上

  3. 那天的流星

    事实证明畅言手机版并不好用

    1. mokeyjay

      没办法啊~没有更好的了

      1. 纷泪雨

        感觉用了畅言网速变慢了[/大哭]

        1. mokeyjay

          是有点拖慢速度,正在筹备转回WP原生

  4. mokeyjay

    [/流汗]测试下畅言

  5. Giuem

    还以为有福利呢

    1. mokeyjay

      Y站里一堆黄图,随便看。我要是发福利等下又要被腾讯管家拉黑了(虽然至今还没释放