lxml和urllib

要下载一个网站的资源到本地,大部分都是exe格式。实现步骤

1、遍历网站的html

2、解析html样式,找到需要下载的资源(lxml.etree  fromstring)

3、下载对应的资源(urllib.urlretrieve)

4、优化(多线程下载)

具体实现还没做,具体每个步骤的demo如下

part2

from lxml import html
import  lxml
import  requests
s=requests.session()
page=s.get("http://tongtool.com/").content  #<type 'str'>
print page 
tree=lxml.html.fromstring(page)   #<class 'lxml.html.HtmlElement'>
aa=tree.xpath("//a[@href='trainning.html']/text()")
print aa[0]
bb=tree.xpath("//p[@class='w-text']")
for i in bb:
    print i.get('class')   #get获取属性对应的属性值


part3

import urllib
urllib.urlretrieve("http://sw.bos.baidu.com/sw-search-sp/software/efd34a93c2941/epp_5.0.601.0.exe",r'd:\tmp\aa.exe')

下载后存储对应的位置


part4

pass


Python的lxml库是一个用于解析XML和HTML文档的扩展库,即使处理的标签非常混乱,也能快速解析。你可以使用pip install lxml命令来安装lxml库。\[1\] 而requests库是一个用于发送HTTP请求的库,相比内建的urllib2模块,它具有更快的速度和更好的可读性。你可以使用pip install requests命令来安装requests库。\[1\] 使用requests库的get方法可以发送GET请求,通过添加headers参数可以模拟浏览器发送请求,以防止爬取不到内容。\[2\] 下一步,我们可以使用requests.get方法从网页中获取数据,并使用lxml库解析它。将解析结果保存在tree中,以便进一步处理。\[3\] #### 引用[.reference_title] - *1* *3* [Python语言使用lxml模块和Requests模块抓取HTML页面的教程](https://blog.csdn.net/weixin_39890543/article/details/110786861)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Python lxml库 提取并保存网页正文部分](https://blog.csdn.net/qfcy_/article/details/119817805)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值