Yande.re 图片爬虫

前言

每天打开电脑第一件事,就是打开Y站,看看又更新了哪些图片、其中又有哪些适合作为壁纸

日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找PC壁纸

这可不符合我作为一个码农的身份

正好最近想学学Python3,于是一边看着廖学峰的Python教程一边撸出来这个项目。写得很差,轻喷

本项目基于Win7Python3.5.2开发,其他环境下未测试

功能

  • 支持从指定的开始页码爬取到结束页码
  • 也支持从第一页爬取到上一次开始爬取的位置
  • 支持设置爬取的图片类型(全部、横图、竖图、正方形)
  • 支持最大或最小图片尺寸宽高比限制
  • 按照当天的日期创建目录并存放爬取的图片
  • 爬取结束后会在图片目录下生成日志文件

如何使用

必须 编辑Function.py5行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾

  • 方案一:如果想要从开始页码爬到结束页码,请修改index.py12行和第15行的两个变量;
  • 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改index.py15行的值为0。还有last_start_id.data的内容,改为某张图片的id即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1,相当于每次执行都只从新增的图片中爬取

例如某图片的详情页Url为:https://yande.re/post/show/346737,则图片id为346737

然后命令行执行python index.py即可(Windows下)。Linux下可直接执行

注意事项

值得一提的是,无论使用哪种方案运行,last_start_id.data的内容都会被自动修改为爬取到的第一张图片的id

这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

项目地址

https://github.com/mokeyjay/Yandere-crawler

27 条评论

昵称
  1. 洛天依家有黑猫

    大佬,我这里运行的时候总会出现下面的提示
    File “D:\Software\Yandere-crawler-master\index.py”, line 11
    SyntaxError: Non-ASCII character ‘\xd2’ in file D:\Software\Yandere-crawler-master\index.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details
    这是啥情况啊?

    1. mokeyjay

      你是不是动过 index.py 里面的代码?

      1. 洛天依家有黑猫

        没啊,我就改了你说的几个。对了你这是不是要用python3啊

        1. mokeyjay

          是的,上面写了呀

          1. 洛天依家有黑猫

            好吧,我错了,我用的2,我去下个3试试

          2. 洛天依家有黑猫

            用了3也一样,还是这样子

            1. mokeyjay

              你确定你用到3了?第11行是注释,没理由报错的。你检查一下版本

              1. 洛天依家有黑猫

                我下的最新的啊

              2. 洛天依家有黑猫

                emmmmm,我按照网上的教程加了个编码申明,然后还是又给了这个提示
                Traceback (most recent call last):
                File “D:\Software\Yandere-crawler-master\index.py”, line 28, in
                last_start_id = int(Function.get(‘last_start_id.data’)) # 上次开始爬取时第一张图片ID。爬到此ID则终止此次爬取
                File “D:\Software\Yandere-crawler-master\Function.py”, line 39, in get
                file = open(file_name)
                FileNotFoundError: [Errno 2] No such file or directory: ‘last_start_id.data’

                1. mokeyjay

                  摸不着头脑.jpg

                  1. 洛天依家有黑猫

                    啊……脑阔痛.jpg

  2. 否子戈

    非常牛批的项目
    如果可以识别图片内容,再加个搜索引起,妻不是爽到爆

  3. 萌拔型小幻

    大佬请问png不能批量下吗,png比jpg文件失真少,可以添加一下png吗?

  4. null

    https://yande.re/post/show/346737 这都是什么不堪入目的图片,楼主

    1. mokeyjay

      三点不露如此健全怎么就不堪入目了

  5. Mercerry

    图片详情页里面有download PNG这个选项 想问下有没有这个功能