爬虫基础篇之页面请求解析

最新推荐文章于 2022-11-30 18:44:16 发布

onejane

最新推荐文章于 2022-11-30 18:44:16 发布

阅读量684

点赞数

分类专栏：爬虫基础文章标签：爬虫

本文链接：https://blog.csdn.net/welggy/article/details/115334466

版权

8 篇文章 1 订阅 ¥69.90 ¥99.00

订阅专栏

本文介绍了爬虫基础，包括使用CSS和XPath选择器抓取链家、猫眼电影、喜马拉雅等网站数据，以及通过JSON解析拉勾网的招聘信息。实战部分详细讲解了如何分析网页源码，选择合适的CSS或XPath表达式，以及处理分页和动态加载的内容。

摘要由CSDN通过智能技术生成

CSS选择器

html中为指定元素指定显示效果，比如颜色，背景，字体等不同的属性，这些样式都是通过css选择器告诉浏览器指定样式风格。

表达式	含义
#animal	获取id为animal的所有元素
.animal	获取class为animal的所有元素
a.active	获取类为active的a标签
.animal > .pig	获取类animal直接子元素中类为.pig的元素
.animal .pig	获取类animal后代元素中类为.pig的元素
a[href*=“animal”]	获取包含类animal的a元素
a[href^=“http”]	获取href以http开头的a元素
a[href$=“gov.cn”]	获取href以gov.cn结尾的a元素
div[class=“animal”][ctype=“pig”]	获取多属性同时具备的元素
div > a:nth-child(2)	获取div下的第二个a元素
.pig , .animal	同时选择两个class的所有元素
p:nth-last-child(1)	获取倒数第一个p元素
p:nth-child(even) p:nth-child(odd)	获取奇数偶数节点

了解本专栏

关注