爬虫
大橘九九
这个作者很懒,什么都没留下…
展开
-
使用xpath,正则表达式爬取豆瓣top250电影信息
今天使用xpath爬取豆瓣电影top250的电影信息,使用了xpath,和正则表达式,最近学习爬虫感觉xpath是相对较简单一点的(相对于正则表达式),xpath有时候提取的数据不是自己全部需要的,所以配合着正则表达式一起用效果较好。今天爬取的网站是豆瓣电影top250(https://movie.douban.com/top250?start=0&filter=),进行翻页之后发现它的url变化情况它们在翻页时候,start一次变化25,我们可以使用range(0,226,25)获取到10原创 2021-08-09 19:52:40 · 2949 阅读 · 0 评论 -
通过python爬取动态加载的网页数据,并写入pandas用于后面分析
通过python爬取动态加载的网页数据,并写入pandas用于后面分析最近开始学习爬虫,通过博客记录自己的学习成果,在此特别感谢B站的波波老师,B站账号:路飞学城IT这次爬取的网站是:化妆品生产许可信息管理系统服务平台(http://scxk.nmpa.gov.cn:81/xk/#)这个网站的数据是动态加载出来的使用request请求这个网站是得到不了数据的,我们可以通过调出网页的相关代码之后,利用ctrl+f 搜寻网页数据的存放地址找到真正的可以请求得到的url,对其发起请求可以得到里面的数据,原创 2021-08-08 21:52:10 · 745 阅读 · 1 评论