Python 爬虫
Python 爬虫
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
scan724
这个作者很懒,什么都没留下…
展开
-
根据input标签获取所有的value对应的值
[root@yyjk /tmp]#cat a1.pyimport urllibimport cookielibimport jsonimport httplibimport reimport requestsimport datetimerequests.packages.urllib3.disable_warnings()from lxml import etreeimport StringIOimport timeimport sslimport cx_Oracles = r原创 2022-05-19 14:00:18 · 745 阅读 · 0 评论 -
python 获取href数组
[root@yyjk ~/sbin/eureka]#cat fh1.html<tbody><tr><td><b>FBSAPIGATEWAY</b></td><td><b>n/a</b> (2)</td>...原创 2022-05-17 15:56:56 · 582 阅读 · 0 评论 -
获取href对应的数组
[root@yyjk ~/sbin/eureka]#cat fh1.html<tbody> <tr> <td><b>FBSAPIGATEWAY</b></td> <td> <b>n/a</b> (2) </td> ...原创 2022-05-17 15:52:32 · 225 阅读 · 0 评论 -
python根据/td爬取数据
[root@yyjk ~/sbin/eureka]#cat fh1.html<tbody> <tr> <td><b>FBSAPIGATEWAY</b></td> <td> <b>n/a</b> (2) </td> ...原创 2022-05-17 12:02:26 · 1371 阅读 · 0 评论 -
根据span标签的userid字段获取信息
[root@yyjk ~/sbin/cmdb]#cat a1.py# !/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etreeaaa='<span plugin-ciinfo class="userInfo" data-position="fixed" userid="1111">aa</span> <span plugin-ciinfo class="userInfo" data-positio原创 2021-11-03 11:48:03 · 240 阅读 · 0 评论 -
python 爬取指定标签的class
<div class="daohang-org"><span>AA管理部</span></div><div class="daohang-org"><span>BB管理部</span></div><div class="daohang-org"><a>CC管理部</a></div><div class="test-org"><span>原创 2021-01-05 11:07:26 · 4072 阅读 · 0 评论 -
根据target属性爬取
[root@yyjk /tmp]#cat fh2.html<div><a target="aaa">科比</a></div><div><a target="bbb">乔丹</a></div><div><a target="aaa">乔治</a></div><a target="aaa">艾弗森</a>[root@yyjk /tmp]原创 2020-12-23 17:37:42 · 365 阅读 · 0 评论 -
获取href 对应的数组
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times = requests.session()print s.headersurl = "https://licai原创 2020-12-23 16:33:39 · 137 阅读 · 0 评论 -
python 爬取td标签对应的值
[root@yyjk /tmp]#cat a2.py# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsimport StringIOimport timefrom lxml import etrees = requests.session()print s..原创 2020-12-23 13:49:47 · 3655 阅读 · 0 评论 -
xpath 选择文档所有元素
//* 选择文档中的所有元素,无论名称如何。# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport timeimport datetimeimport hashlibimp.原创 2020-11-30 20:32:12 · 438 阅读 · 0 评论 -
python xpath使用说明
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:nodename 选取此节点的所有子节点。/ 从根节点选取。// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。. 选取当前节点。.. 选取当前节点的父节点。@ 选取属性。...原创 2020-11-30 20:32:40 · 359 阅读 · 0 评论 -
获取target=“_blank“ 对应的标签的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport timeimport datetimeimport hashlibimport sysreload(sys)impo.原创 2020-11-30 20:33:14 · 1006 阅读 · 0 评论 -
查看href属性对应的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport timeimport datetimeimport hashlibimport sysreload(sys)impo.原创 2020-11-30 20:34:00 · 335 阅读 · 0 评论 -
获取href 属性值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times ...原创 2020-11-30 20:35:53 · 1690 阅读 · 0 评论 -
#根据a标签,获取href的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times...原创 2020-11-30 21:10:06 · 1073 阅读 · 0 评论 -
xpath //
// 双斜杠 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。# !/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etree# 获取文件元素from lxml import etree# 获取文件元素htmlE...原创 2020-12-01 13:47:58 · 378 阅读 · 0 评论 -
xpath /和//
/ 和//区别:1. 使用1个/<html><li>aaa</li><li>bbb</li><ul> <li class="item-0">a01<a href="link1.html">first item&am原创 2020-12-01 13:47:44 · 6014 阅读 · 1 评论 -
根据a标签 查找属性为href的值
根据a标签 查找属性为href的值# !/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etree# 获取文件元素from lxml import etree# 获取文件元素htmlEmt = etree.parse('test02.html')# 获取所有的 <li> 标签result ...原创 2020-11-30 22:57:48 · 3033 阅读 · 0 评论 -
爬取li标签下的<a> 的 href
# !/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etree# 获取文件元素from lxml import etree# 获取文件元素htmlEmt = etree.parse('test02.html')# 获取所有的 <li> 标签result = htmlEmt.xpath('//a...原创 2020-11-30 22:57:39 · 4556 阅读 · 1 评论 -
获取所有的 <li> 标签
获取所有的<li>标签<html><body><div> <ul> <li class="item-0">a01<a href="link1.html">first item</a></li&原创 2020-11-30 22:57:31 · 3044 阅读 · 0 评论 -
获取 <li> 标签的所有 class
# !/usr/bin/env python# -*- coding: utf-8 -*-from lxml import etree# 获取文件元素htmlEmt = etree.parse('test03.html')# 获取所有的 <li> 标签result = htmlEmt.xpath('//li/@class')print resultprint typ...原创 2020-11-30 22:57:21 · 3771 阅读 · 0 评论 -
解决 lxml报XMLSyntaxError: Opening and ending tag mismatch: meta line 14 and head, line 33, column 8
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times...原创 2020-11-30 22:11:15 · 5580 阅读 · 1 评论 -
python 根据a标签查找href的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times...原创 2020-11-30 20:13:14 · 6123 阅读 · 0 评论 -
根据 htmlEmt.xpath(‘//a[@target=“_blank“]‘) 根据a标签 查找target=_blank 的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times...原创 2020-11-30 22:10:07 · 1151 阅读 · 0 评论 -
//div/a/@target 获取所有div下a标签的 target的值
# !/usr/bin/env python# -*- coding: utf-8 -*-import urllib2import urllibimport cookielibimport jsonimport httplibimport reimport requestsfrom lxml import etreeimport StringIOimport times...原创 2020-11-30 22:09:28 · 2119 阅读 · 0 评论 -
python 爬虫
下载想要的lxml安装包https://pypi.python.org/simple/lxml/32位、64位:lxml-2.3-py2.7-win-amd64.egglxml-2.3-py2.7-win32.egg4:安装进入C:\Python27\Scripts使用命令行:easy_install D:\\Downloads\lxml-2.3-py2.7...原创 2018-10-22 19:56:16 · 164 阅读 · 0 评论