64484致力于优质软件,活动线报,游戏辅助,绿色工具等资源共享,好货不私藏!

1608013921026.jpg教你Python爬虫取桌面壁纸 - 64484资源吧

更新时间:2020-12-15 14:32 附件大小:1M 软件评分: 所属分类:源码仓库 运行平台: 软件类型: 投稿作者: admin 评论回复:0
资源介绍

教程:

目录一:概览

首先要在电脑上创建一个文件夹

这个文件夹用来存放爬去到的图片

1608013898406.jpg

目录二:环境准备

在终端分别输入以下命令,安装他们

1608013901266.jpg

目录三:分析页面结构

因为我的电脑的分辨率为1920 × 1080,所以我爬取的图片的分辨率为此

1608013904247.jpg

彼岸桌面壁纸提供了许多分类供我们浏览:日历、动漫、风景、美女、游戏、影视、动态、唯美、设计…

4K壁纸是该网站的重要只要,而我又有4K壁纸的需要,就不对其进行爬取

1608013907096.jpg

使用css选择器定位到a标签

由于分类较多我就拿唯美分类下的就行演示

1608013909996.jpg

老规矩css选择器定位到包裹页码的a标签

并且每页的第三张图片都是一样的广告,需要在代码中把它过滤掉

注意:在分类下看到的图片是略缩图,分辨率都较低;要得到1920 × 1080分辨率的该图,需要进行两次跳转

1608013912796.jpg

点击该图片,第一次跳转,转到新的链接,页面中显示有下列内容:

点击下载壁纸(1920 × 1080)的按钮,第二次跳转,转向一个新的链接,终于达成目的,该链接中显示的图片的分辨率为 1920 × 1080

一波三折,终于给我找到了该图片的1920 × 1080高清图

CSS选择器:div#main table a img,定位到该图片的img标签

经过我的爬取检验,其中有极个别图片由于很多零碎的问题而下载失败,还有少部分图片因为网站虽然提供1920 × 1080分辨率的下载按钮却给的其它分辨率


目录四:代码部分

第一步:设置全局变量

1608013915761.jpg

index ,要爬取网页的网站根地址,代码中爬取图片需要使用其拼接完整url

interval,我们去爬取一个网站的内容时要考虑到该网站服务器的承受能力,短时间内爬取该网站大量内容会给该网站服务器造成巨大压力,我们需要在爬取时设置间隔时间

单位:秒

由于我要爬取彼岸桌面网站的全部高清图片,若集中在短时间内爬取,一方面会给网站服务器巨大的压力,一方面网站服务器会将我们的链接强制断掉,所以我设置的每张图片爬取时间间隔为10秒;如果你只是爬取少量图片,可以将间隔时间设置的短点

firstDir,爬取图片存放在你电脑上的根路径;代码中爬取图片时,在一级目录下会按照彼岸桌面唯美分类下的分页页码生成文件夹并存放图片

定位到1920x1080分辨率图片

1608013918455.jpg

由于pycharm截不完整,就放TXT里截的,下载图片

1608013921026.jpg

提示:这里是部分重要的源码!

提取码:48bn

资源下载
同类推荐

免责声明

解压码:antqq或qc7902 。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!

评论列表
请自觉遵守互联网相关的政策法规,严禁发布广告、色情、暴力、反动的言论。
  • 点击我更换图片
  • 全部评论(0
    还没有评论,快来抢沙发吧!
Welcome

登录您的账号