首页 > > 网络编程 > 其它 >

100G套图我用pythono爬虫双手奉上，给方法给资源…

2018-11-13 07:33:50来源：博客园阅读 ()

前言

最近在做监控相关的配套设施，发现很多脚本都是基于Python的。很早之前就听说其大名，人生苦短，我学Python，这并非一句戏言。随着人工智能、机器学习、深度学习的崛起，目前市面上大部分的人工智能的代码大多使用Python 来编写。所以人工智能时代，是时候学点Python了。

进军指南

对于没有任何语言开发经验的同学，建议从头系统的学起，无论是书、视频还是文字教程都可以。

如果是有其他语言开发经验的同学，建议从一个案例入手，比如爬取某个网站的套图。

因为语言都是想通的，语法之类的只要你要语感，代码基本能读个八九不离十。

所以不建议有经验的开发者从头学起，无论是视频还是书，对于开始学一门语言来说都是太浪费时间了。

当然，等你深入进去以后，还是要系统的去学习，这是后话。

软件工具

Python3

这里选择的是最新版 Python 3.7.1

安装教程推荐：

http://www.runoob.com/python3/python3-install.html
Win下载地址：
https://www.python.org/downloads/windows
Linux下载地址：
https://www.python.org/downloads/source
PyCharm
可视化开发工具：
http://www.jetbrains.com/pycharm
案例

实现步骤

以妹子图为例，其实很简单，分以下四步：

获取首页的页码数，并创建与页码对应的文件夹
获取页面的栏目地址
进入栏目，获取栏目页码数(每个栏目下有多张图片，分页显示)
获取到栏目下对用标签中的图片并下载

注意事项

爬取过程中，还需要注意以下几点，可能对你有所帮助：

1）导库，其实就类似于Java中框架或者是工具类，底层都被封装好了

安装第三方库

# Win下直接装的 python3
pip install bs4、pip install requests
# Linux python2 python3 共存
pip3 install bs4、pip3 install requests

导入第三方库

# 导入requests库
import requests
# 导入文件操作库
import os
# bs4全名BeautifulSoup，是编写python爬虫常用库之一，主要用来解析html标签。
import bs4
from bs4 import BeautifulSoup
# 基础类库
import sys
# Python 3.x 解决中文编码问题
import importlib
importlib.reload(sys)

2）定义方法函数，一个爬虫可能会几百行，所以尽量不要写成一坨

def download(page_no, file_path):
 # 这里写代码逻辑

3）定义全局变量

# 给请求指定一个请求头来模拟chrome浏览器
global headers # 告诉编译器这是全局变量 headers 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
# 函数内使用之前需要
# 告诉编译器我在这个方法中使用的a是刚才定义的全局变量 headers ，而不是方法内部的局部变量。
global headers

4）防盗链

有些网站加入了防盗链，无所不能的 python 解决方案

headers = {'Referer': href}
img = requests.get(url, headers=headers)

5）切换版本

Linux服务器使用的是阿里云服务器，默认版本 python2，python3 自行安装

[root@AY140216131049Z mzitu]# python2 -V
Python 2.7.5
[root@AY140216131049Z mzitu]# python3 -V
Python 3.7.1
# 默认版本
[root@AY140216131049Z mzitu]# python -V
Python 2.7.5
# 临时切换版本 <whereis python>
[root@AY140216131049Z mzitu]# alias python='/usr/local/bin/python3.7'
[root@AY140216131049Z mzitu]# python -V
Python 3.7.1

6）异常捕获

在爬取的过程中可能存在异常页面，这里我们进行捕获，不影响后续操作

try:
 # 业务逻辑
except Exception as e:
 print(e)

代码实现

编辑脚本：vi mzitu.py

#coding=utf-8
#!/usr/bin/python
# 导入requests库
import requests
# 导入文件操作库
import os
import bs4
from bs4 import BeautifulSoup
import sys
import importlib
importlib.reload(sys)
# 给请求指定一个请求头来模拟chrome浏览器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
# 爬图地址
mziTu = 'http://www.mzitu.com/'
# 定义存储位置
global save_path
save_path = '/mnt/data/mzitu'
# 创建文件夹
def createFile(file_path):
 if os.path.exists(file_path) is False:
 os.makedirs(file_path)
 # 切换路径至上面创建的文件夹
 os.chdir(file_path)
# 下载文件
def download(page_no, file_path):
 global headers
 res_sub = requests.get(page_no, headers=headers)
 # 解析html
 soup_sub = BeautifulSoup(res_sub.text, 'html.parser')
 # 获取页面的栏目地址
 all_a = soup_sub.find('div',class_='postlist').find_all('a',target='_blank')
 count = 0
 for a in all_a:
 count = count + 1
 if (count % 2) == 0:
 print("内页第几页：" + str(count))
 # 提取href
 href = a.attrs['href']
 print("套图地址：" + href)
 res_sub_1 = requests.get(href, headers=headers)
 soup_sub_1 = BeautifulSoup(res_sub_1.text, 'html.parser')
 # ------ 这里最好使用异常处理 ------
 try:
 # 获取套图的最大数量
 pic_max = soup_sub_1.find('div',class_='pagenavi').find_all('span')[6].text
 print("套图数量：" + pic_max)
 for j in range(1, int(pic_max) + 1):
 # print("子内页第几页：" + str(j))
 # j int类型需要转字符串
 href_sub = href + "/" + str(j)
 print(href_sub)
 res_sub_2 = requests.get(href_sub, headers=headers)
 soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
 img = soup_sub_2.find('div', class_='main-image').find('img')
 if isinstance(img, bs4.element.Tag):
 # 提取src
 url = img.attrs['src']
 array = url.split('/')
 file_name = array[len(array)-1]
 # print(file_name)
 # 防盗链加入Referer
 headers = {'Referer': href}
 img = requests.get(url, headers=headers)
 # print('开始保存图片')
 f = open(file_name, 'ab')
 f.write(img.content)
 # print(file_name, '图片保存成功！')
 f.close()
 except Exception as e:
 print(e)
# 主方法
def main():
 res = requests.get(mziTu, headers=headers)
 # 使用自带的html.parser解析
 soup = BeautifulSoup(res.text, 'html.parser')
 # 创建文件夹
 createFile(save_path)
 # 获取首页总页数
 img_max = soup.find('div', class_='nav-links').find_all('a')[3].text
 # print("总页数:"+img_max)
 for i in range(1, int(img_max) + 1):
 # 获取每页的URL地址
 if i == 1:
 page = mziTu
 else:
 page = mziTu + 'page/' + str(i)
 file = save_path + '/' + str(i)
 createFile(file)
 # 下载每页的图片
 print("套图页码：" + page)
 download(page, file)
if __name__ == '__main__':
 main()

脚本在Linux服务器下运行，执行以下命令

python 3 mzitu.py 
# 或者后台执行
nohup python3 -u mzitu.py > mzitu.log 2>&1 &

目前只爬取了一个栏目的套图，一共17G，5332张图片。

[root@itstyle mzitu]# du -sh 
17G .
[root@itstyle mzitu]# ll -s
total 5332

下面，请小伙伴们睁大眼睛，鸡冻人心的套图时刻来了。

小结

作为一个初学者，脚本肯定多多少少有一些问题或者待优化的地方，如遇Python大婶，还请多多指教。

其实脚本很简单，从配置环境、安装集成开发环境、编写脚本到整个脚本顺利执行，差不多花费了四五个小时，最终脚本一根筋的执行。限于服务器带宽以及配置的影响，17G的图差不多下载了三四个小时，至于剩下的83G，小伙伴们自行下载吧。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：异常

下一篇：python记录_day019 类的约束异常处理日志

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签