简单地python爬虫尝试

首先,用pip工具下载安装爬虫相关的第三方插件:

##pip install BeautifulSoup4
##pip install lxml
##pip install requests
加载插件
##加载第三方插件
import requests
import bs4
import lxml
 
##请求要爬去的网页路径,get方法吧怕去的内容放在response变量,包括html,相应头等文件。
response=requests.get("http://www.baidu.com")

##转换编码
response.encoding='utf-8'

##通过html属性得到相应的文档内容
html=response.text
print(html)


##BeautifulSoup利用解析html形成树节点形式
soup=bs4.BeautifulSoup(html,'lxml')
imgl=soup.find('img')
print(imgl)
imgs=soup.find_all('img')##find_all方法,找到页面中所有的img标签
for img in imgs:
    print(img)


for img in imgs:
    imgurl=img['src']
    print(imgurl)


##将爬去道德img元素对应的图片,写入硬盘
x=0##写入文件名变量
for img in imgs:
    imgurl = img['src']##取出img元素里面的图片路径
    imgurl="http:"+imgurl##图片路径特殊时候特殊处理
    ##写入硬盘
    filename=str(x)+".jpg"##先建立文件名
    file=open(filename,'ab')##根据文件名创建文件,创建文件的形式是以二进制的叠加(参数'ad'的作用)
    r=requests.get(imgurl)##请求网页图片的路径,然后存入r变量
    file.write(r.content)##将相应的内容,通过content属性得到并写入文件
    x+=1##文件名自增叠加


##file.close(),文件关闭


##r里面获取图片

##ad参数,表示二进制文件追加


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值