BeautifulSoup解析库select方法实例——获取企业信息

最新推荐文章于 2024-02-24 19:08:37 发布

红馆

最新推荐文章于 2024-02-24 19:08:37 发布

阅读量303

点赞数

1、requests简单用法

2、解析HTML库——BeautifulSoup简介

使用requests获取的是HTML页面，在HTML中除了html标记如，<p>外，还有很多 CSS代码。可以使用BeautifulSoup库解析HTML，利用BeautifulSoup对象的select方法可以筛选出css标记的内容。有如下几种方法获取内容：<br/> ①通过标签名查找<br/> ②通过类名查找<br/> ③通过id名查找<br/> ④组合查找。组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找p标签中，id等于link1的内容，二者不要用空格分开。<br/> ⑤属性查找。查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。不在同一节点的使用空格隔开，同一节点的不加空格。</p>

以下面的HTML代码为例：

分析代码如下：

输出结果如下：

3、实例：爬取https://m.tianyancha.com/search/oc35-s2/p1中企业信息。

有了以上知识后，我们可以利用上述知识获取企业信息，在天眼查网站里有各类企业信息，打开https://m.tianyancha.com/search/oc35-s2，如下图是页面信息

我们的任务是获取企业信息，具体步骤如下：

1）获取页面信息，用google浏览器打开的页面中右键打开检查，依次点开 network–doc–headers中的Request URL，这个地址是我们要爬取页面的地址。

用res=requests.get(‘https://m.tianyancha.com/search/oc35-s2/’) 返回requests对象得到该页面所有内容。

2）分析内容，获取内容查看源码后发现我们要找企业信息在一个“

”容器中，可以用select方法获取所有内容；

公司名称在“

杭叉集团股份有限公司

”中，而其他信息都在

中,如下图

参考代码：

代码运行结果：

作者：Python_小屋
来源：CSDN
原文：https://blog.csdn.net/oh5W6HinUg43JvRhhB/article/details/79102974
版权声明：本文为博主原创文章，转载请附上博文链接！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。