python爬虫爬取豆瓣top排行图片

爬虫是什么?

“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”(就是获取信息)

xPath的常用路径表达式

  • nodename(节点名称):表示选择该节点的所有子节点

  • “/”:表示选择根节点

  • “//”:表示选择任意位置的某个节点

  • “@”: 表示选择某个属性

requests库常用方法

图片转至链接link
在这里插入图片描述
图片转至链接:link
在这里插入图片描述

爬虫的步骤

1.目标url 网站
2.发送请求
3.解析数据
4.保存数据

所以把步骤搞明白那么爬虫就不会那么的复杂了

在这里插入图片描述

import requests
from lxml import etree

url='https://movie.douban.com/chart'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
#发送请求
data = requests.get(url,headers=headers).content.decode()
#解析数据
html=etree.HTML(data)
n=1
#获取图片地址
novel_url_list=html.xpath('//div[@id="content"]//a[@class="nbg"]/img/@src')
#保存图片
for novel_url in novel_url_list:

    response = requests.get(novel_url,headers=headers)
    print('第%d个图片打印成功'%n)
    n=n+1
    #保存的名字
    file_name = novel_url.split('/')[-1]
  
    with open(file_name,'wb')as f:
        f.write(response.content)
    
     

在这里插入图片描述
在这里插入图片描述

总结
不忘初心,方得始终.努力一定能成功,多敲多练才是真理.

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值