前言
大家晚上好,我看到评论区有很多的零基础小白,是不怎么懂爬虫的,那么今天就教大家一个最适合新手小白的爬虫教程!就是抓取静态网站的数据!非常简单。废话不多说,直接上干货!
首先如果我们想拿出来这个网址上有用的图片地址并下载下来。 那就要用到了几个库urllib跟BeautifulSoup urllib2用来做网络请求,urllib用来做下载,BeautifulSoup用来做标签的解析管理。
代码
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2, urllib, bs4
def test():
url = "https://www.zhihu.com/question/35005800/answer/61498512"
response1 = urllib2.urlopen(url)
html = response1.read()
soup = bs4.BeautifulSoup(html, "html.parser", from_encoding="utf-8")
# 打印美化之后的网站信息
print soup.prettify()
# 找到所有的<img >标签
all_img = soup.find_all("img")
# 用来存放需要下载的img的链接地址
img_list = []
for img in all_img:
# 如果img标签里面含有data-original属性则把data-original标签的内容也就是http链接地址存储到img_list中
if "data-original" in img.attrs: