python爬取百度图片

爬虫的原理:读取页面html元素,解析出目标的url,进入或下载保存。
一开始想从百度搜索的结果页面中爬点图片当素材,看了几个前辈写的,很多思路。
比如:
http://blog.csdn.net/seanwang_25/article/details/43318907

最终实验,目前百度图片搜索列表的元素识别我没有搞定,最后的思路还是用了最基本的浏览器去自动点击下载。许提供给程序的链接是搜索结果中,点开图片后的大图页面。

# -*- coding: UTF-8 -*-
"""
本爬虫爬取后台需要使用的图片
"""
import time
from splinter import Browser
import traceback


class Crawler:
    def __init__(self):
        # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略
        self.url="http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=false&word=%E7%BE%8E%E5%A5%B3&step_word=&hs=0&pn=0&spn=0&di=115841179330&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=2&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=-1&cs=1448969331%2C3840882916&os=3613101257%2C51753532&simid=0%2C0&adpicid=0&lpn=0&ln=3900&fr=&fmq=1491741852964_R&fm=detail&ic=0&s=undefined&se=&sme=&tab=0&width=&height=&face=undefined&ist=&jit=&cg=girl&bdtype=11&oriquery=&objurl=http%3A%2F%2Fimg.popo.cn%2Fuploadfile%2F2017%2F0217%2F1487316191770266.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Br5r5_z%26e3BvgAzdH3Fkjw7pyAzdH3FgjofAzdH3F8l0_8c9b9n_8_z%26e3Bip4s&gsm=&rpstart=0&rpnum=0"
        # kernel function

    def launch(self):
        # launch driver
        browser = Browser('chrome')
        browser.driver.maximize_window()
        browser.visit(self.url)
        #browser.driver.implicitly_wait(5)
        #browser.driver.Manage().Timeouts().SetPageLoadTimeout(600);

        for i in range(500):
            try:
                browser.reload()
                browser.driver.set_page_load_timeout(10)
                browser.driver.set_script_timeout(15)
                if browser.is_element_present_by_text('下载'):
                    browser.find_by_text('下载').first.click()
                else:
                    browser.evaluate_script('$(".img-switch-btn").last().click()')
            except:
                # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略
                try:
                    browser.evaluate_script('$(".img-switch-btn").last().click()')
                except:
                    traceback.print_exc()
                    pass
            time.sleep(1.5)
            if(len(browser.windows) > 1):
                browser.windows.current = browser.windows[0]
                browser.windows.current.close_others()
                #如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略
                try:
                    browser.evaluate_script('$(".img-switch-btn").last().click()')
                except:
                    pass
            else:
                # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略
                try:
                    browser.evaluate_script('$(".img-switch-btn").last().click()')
                except:
                    pass


if __name__ == '__main__':
    crawler = Crawler()
    crawler.launch()

第二个使用爬虫基本工序操作的爬取图片代码:

#coding=utf-8
import urllib.request
import re

def getHtml(url):

    page = urllib.request.urlopen(url)
    html = page.read()
    html = html.decode('utf-8')
    #print(html)
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" width'
    #re.compile(reg)把正则表达式转换成re的正则对象
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    print(imglist)
    x = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'%s.jpg' % imgurl[-20:-4])
        x+=1


html = getHtml("https://tieba.baidu.com/p/4658587322")

print(getImg(html))
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

windanchaos

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值