1、requests简单用法
2、解析HTML库——BeautifulSoup简介
使用requests获取的是HTML页面,在HTML中除了html标记如
以下面的HTML代码为例:
分析代码如下:
输出结果如下:
3、实例:爬取https://m.tianyancha.com/search/oc35-s2/p1中企业信息。
有了以上知识后,我们可以利用上述知识获取企业信息,在天眼查网站里有各类企业信息,打开https://m.tianyancha.com/search/oc35-s2,如下图是页面信息
我们的任务是获取企业信息,具体步骤如下:
1)获取页面信息,用google浏览器打开的页面中右键打开检查,依次点开 network–doc–headers中的Request URL,这个地址是我们要爬取页面的地址。
用res=requests.get(‘https://m.tianyancha.com/search/oc35-s2/’) 返回requests对象得到该页面所有内容。
2)分析内容,获取内容 查看源码后发现我们要找企业信息在一个“
”容器中,可以用select方法获取所有内容;
公司名称在“
”中,而其他信息都在
中,如下图
参考代码:
代码运行结果:
作者:Python_小屋
来源:CSDN
原文:https://blog.csdn.net/oh5W6HinUg43JvRhhB/article/details/79102974
版权声明:本文为博主原创文章,转载请附上博文链接!