Python爬虫笔记——xpath的contains用法

xpath(’//div[contains(@class,“a”) and contains(@class,“b”)]’) #它会取class含有有a和b的元素
xpath(’//div[contains(@class,“a”) or contains(@class,“b”)]’) #它会取class 含有 a 或者 b满足时,或者同时满足时的元素

starts-with 顾名思义,匹配一个属性开始位置的关键字
contains 匹配一个属性值中包含的字符串
text() 匹配的是显示文本信息,
此处也可以用来做定位用eg//input[starts-with(@name,‘name1’)] 查找name属性中开始位置包含’name1’关键字的页面元素
//input[contains(@name,‘na’)] 查找name属性中包含na关键字的页面元素
百度搜索xpath写法为 //a[text()=‘百度搜索’] 或者 //a[contains(text(),“百度搜索”)]

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
Python爬虫,我们可以使用XPath来提取网页的图片链接并进行下载。XPath是一种在XML和HTML文档查找和定位元素的语言。要在Python使用XPath,我们需要使用相关的库,如lxml库或BeautifulSoup库。下面是一个示例代码,演示了如何使用XPath来下载图片: ```python import requests from lxml import html # 定义目标网页的URL url = 'http://example.com' # 发送请求获取网页内容 response = requests.get(url) content = response.text # 使用lxml库解析网页内容 tree = html.fromstring(content) # 使用XPath表达式提取图片链接 image_urls = tree.xpath('//img/@src') # 遍历图片链接列表,下载图片 for image_url in image_urls: # 发送请求获取图片内容 image_response = requests.get(image_url) # 将图片保存到本地 with open('image.jpg', 'wb') as f: f.write(image_response.content) ``` 在上面的代码,我们首先发送请求获取网页的内容,然后使用lxml库将网页内容转换为可解析的树结构。接下来,我们使用XPath表达式`//img/@src`提取所有`<img>`标签的`src`属性值,即图片链接。最后,我们遍历图片链接列表,发送请求获取图片内容,并将图片保存到本地。 请注意,上面的代码只是一个示例,具体的使用情况可能因不同的网站而有所差异。你需要根据目标网站的实际情况,调整XPath表达式和代码逻辑。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Python爬虫实战之xpath解析](https://blog.csdn.net/weixin_58667126/article/details/126105955)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Python3爬虫学习-爬取图片批量下载 XPATH](https://blog.csdn.net/xunxue1523/article/details/104584361)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值