初始python爬虫-爬取彼岸图单张到全部图片

初始python爬虫-爬取彼岸图单张到全部图片


彼岸图链接: https://pic.netbian.com/new/
在这里插入图片描述
用到的库:

import  requests  #请求网页
from lxml import html #解析网页源代码
import time #时间模块

1.单张图片爬取

首先要知道哪个链接才是图片的下载链接(找到下载链接才能使用代码进行存储)

操作步骤:
①随便点进去一张图片
②按f12检查 点击出现的箭头图标 选中图片
在这里插入图片描述
可以看到圈住的后缀为jpg格式的链接就是这张图片的下载链接

在这里插入图片描述
③复制图片下载链接 以下代码:

import requests
# 构造请求头
headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4651.0 Safari/537.36",
    "cookie":"__yjs_duid=1_0ed165241c418ef3bd1a08a4f18990101634282593810;Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1634282597; zkhanecookieclassrecord=%2C65%2C54%2C; yjs_js_security_passport=f2c27672aa84310f33e0f25d8859275320f1e1bd_1634284550_js; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1634284830"
}
url = 'https://pic.netbian.com/uploads/allimg/210528/191150-16222003104792.jpg'
con = requests.get(url,headers=headers).content #请求图片链接并转为二进制(注意图片存储必须以二进制格式)
with open('b.jpg','wb') as f:
    f.write(con)

完成效果:
在这里插入图片描述
可以看到该脚本下多个以代码中命名的jpg为后缀的图片
看到这一张图片的抓取就完成了

2.一页图片

如果我们还像单张那样获取图片链接就太麻烦了,这次我们用语法直接获取一页图片的下载链接

步骤如下:
先导入要用到的第三方库

import requests #请求目标网页
from lxml import html #对目标网页的源代码进行解析提取 

①向目标网页进行请求
在这里插入图片描述

url = 'https://pic.netbian.com/new/'
res = requests.get(url).text #请求目标  .text获取网页源代码
dom = html.etree.HTML(res) #解析源代码用于后面我们提取

②f12检查页面
在这里插入图片描述
鼠标放到链接那一行右击==>Copy==>Copy XPath
//[@id=“main”]/div[3]/ul/li[1]/a/img #第一张图片
//
[@id=“main”]/div[3]/ul/li[2]/a/img #第二张图片
跟第一张做比较可以发现只有li的索引不同
所以:
//*[@id=“main”]/div[3]/ul/li/a/img #获取当前页面索引链接

而我们要找的下载链接是获取img标签的src属性
所以图片下载链接用xpath语法获取为:
//*[@id=“main”]/div[3]/ul/li/a/img/@src (@后跟属性名称 即获取该属性的值)
在这里插入图片描述
这是可以看到获取到的链接和图片的真实链接是不一样的
https://pic.netbian.com/uploads/allimg/211120/004848-1637340528f071.jpg
/uploads/allimg/211120/005250-1637340770807b.jpg’
所以给获取到的src属性拼接上前面的域名:
在这里插入图片描述
这时候的img_url就是我们要找的下载链接
然后就可以进行存储了

import requests
from lxml import html
url = 'https://pic.netbian.com/new/'
res = requests.get(url).text
dom = html.etree.HTML(res)
imgs_url = dom.xpath("//div[@class='slist']/ul/li/a/img/@src")
# print(imgs_url)
for i in range(len(imgs_url)):
    img_url = 'https://pic.netbian.com/'+imgs_url[i]
    # print(img_url)
    name = 'No'+str(i)  #用于命名图片
    print('正在存储:'+name)
    con = requests.get(img_url).content
    with open('one_page/%s.jpg'%name,'wb') as f:
        f.write(con)

在这里插入图片描述
一页的图片就全下载下来了

3.多页图片

我们根据一页图片的写法可以分析得出分别请求目标页然后提取每页的链接就能对多页的图片进行下载

https://pic.netbian.com/new/     第一页链接
https://pic.netbian.com/new/index_2.html    第二页链接
https://pic.netbian.com/new/index_3.html   第三页

可以看出除了第一页都是有规律的所以可以遍历出每页的链接
在这里插入图片描述
代码如下:`

import requests
from lxml import html
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4651.0 Safari/537.36",
    "cookie": "__yjs_duid=1_dd6220b2a3c19e33333239dd66b5da881635232514518; Hm_lvt_14b14198b6e26157b7eba06b390ab763=1636252200,1636252296; Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1636254461,1636254484,1636333136,1637483174; zkhanecookieclassrecord=%2C54%2C; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1637488659",
    
}
#只下载前5页内容
for i in range(1, 6):
    url = "https://pic.netbian.com/new/index_%s.html" % (i)
    if i == 1:
        url = "https://pic.netbian.com/new/"
    # print(url)
    res = requests.get(url,headers=headers)
    for i in range(1,6):
        if res.status_code != 200:
            print('重新加载%s页'%i)
        else:
            continue
    dom = html.etree.HTML(res.text)
    imgs_url = dom.xpath("//div[@class='slist']/ul/li/a/img/@src")
    # print(imgs_url)
    for n in range(len(imgs_url)):
        img_url = 'https://pic.netbian.com/' + imgs_url[n]
        # print(img_url)
        name = 'No' + str(i)+'-'+str(n)  # 用于命名图片
        print('正在存储:' + name)
        con = requests.get(img_url,headers=headers).content
        with open('one_page/%s.jpg' % name, 'wb') as f:
            f.write(con)
  • List item
  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 您好!以下是一个使用 Python 爬虫动态数据的简单实例: ```python import requests from bs4 import BeautifulSoup # 用 requests 库发送请求 url = "https://example.com/dynamic_page" response = requests.get(url) # 使用 BeautifulSoup 解析响应内容 soup = BeautifulSoup(response.text, 'html.parser') # 提需要的数据 data = soup.find_all("div", class_="dynamic-data") # 打印提的数据 print(data) ``` 这个实例使用 requests 库向网站发送请求,并使用 BeautifulSoup 解析响应内容。然后,通过调用 BeautifulSoup 对象的 `find_all` 方法提需要的数据,最后通过 `print` 函数打印提的数据。 请注意,上面的代码仅作为示例,因为动态的网站的结构可能因网站而异,因此您需要根据网站的具体情况自行调整代码。 ### 回答2: Python爬虫是一种用来自动获网页信息的程序,可以用于静态或动态网页。下面是一个使用Python爬虫动态的实例: 首先,我们需要安装相关的库,如requests和BeautifulSoup。然后,我们可以使用requests库来获网页的内容,并使用BeautifulSoup库来解析网页。 假设我们需要一个动态生成的新闻网页,该网页会根据不同的页面滚动加载更多的新闻。我们可以通过模拟滚动加载的过程来动态地获所有的新闻。 首先,我们发送一个初始的请求来获第一页的新闻内容。然后,我们可以通过查看网页的源代码或使用浏览器的开发者工具来找到滚动加载时发送的请求。 接下来,我们可以分析这个请求的URL和参数,然后使用requests库来发送这个请求,并获到响应的内容。通常,这个响应的内容是一个JSON格式的数据,其中包含了新闻的信息。 我们可以使用Python的json库来解析JSON数据,并提我们需要的信息。然后,我们可以将这些信息保存到一个文件或数据库中,或者进行其他的处理。 接着,我们可以继续发送滚动加载的请求,直到获到了所有的新闻。这可以通过循环发送请求的方式来实现,每次发送请求之后,我们需要解析响应的内容,并判断是否还有更多的新闻。 最后,我们可以将所有的新闻保存到一个统一的文件中,或者根据需要进行其他的处理。 这只是一个使用Python爬虫动态的简单实例,实际的应用中可能还涉及到一些其他的技术和处理方式。希望以上内容对你有所帮助! ### 回答3: Python爬虫是一种用于自动获网页数据的程序。通常情况下,我们使用爬虫来从静态网页中获数据。但是有些网站使用了JavaScript等动态技术来加载网页内容,这给爬虫带来了一定的挑战。 对于动态网页,我们可以通过模拟浏览器行为来获数据。这可以通过使用Python的Selenium库来实现。Selenium可以模拟用户在浏览器中的操作,包括点击按钮、输入文本等动作。它还可以等待页面加载完成后再进行下一步操作,以确保获到完整的页面数据。 下面以一个例子来说明如何使用Python爬虫动态数据。假设我们要从一个使用了AJAX技术的网站上获电影相关信息。 首先,我们需要安装Selenium库。可以使用以下命令来安装: pip install selenium 然后,我们需要安装适合的浏览器驱动程序。Selenium支持多种浏览器,如Chrome、Firefox等。这里以Chrome浏览器为例。可以通过以下链接下载对应版本的Chrome驱动程序:https://sites.google.com/a/chromium.org/chromedriver/downloads 接下来,我们需要导入Selenium库,并配置浏览器驱动路径: from selenium import webdriver driver_path = "/path/to/chromedriver" # Chrome驱动程序路径 driver = webdriver.Chrome(driver_path) 然后,我们可以使用Selenium模拟浏览器操作,访问网页并获数据: url = "http://example.com" # 网页地址 driver.get(url) # 访问网页 # 等待数据加载完成 driver.implicitly_wait(10) # 等待10秒 # 获页面数据 data = driver.page_source 最后,我们可以对获到的数据进行解析和提,获我们需要的信息。 以上是一个简单的Python爬虫动态实例。通过使用Selenium库,我们可以模拟浏览器行为,实现对动态网页的。当然,具体的实现还需要根据具体的需求和网页情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值