爬虫项目
存放一些小项目
杨鸿儒
做自己喜欢的事。
展开
-
爬虫项目6[爬取网易云python课程数据]
登录界面是在iframe表单中,要获取iframe表单中的数据必须先进入iframe表单模块selenium在定位网页中的数据时,如果标签是在iframe表单种,直接定位是找不到的,必须跳转到iframe表单中才能整个程序中最重要的就是selenium中进入iframe标签,代码如下:iframe_element = browser.find_element_by_xpath()brows...原创 2020-03-07 10:34:09 · 392 阅读 · 0 评论 -
爬虫项目5[爬取拉钩网招聘数据]
用selenium接管浏览器,来规避检测本来想直接在网页上找入口获取,但是没找到…,发现登陆之后在可以直接通过网页获取数据,所以就改用selenium,数据不难获取,主要是思路…请求requests 解析selenium重点:selenium接管浏览器#chrome版本和chromedriver版本一定要一样#chrome版本和chromedriver版本一定要一样#chrome版...原创 2020-03-05 13:16:34 · 590 阅读 · 0 评论 -
爬虫项目4[爬取斗鱼直播数据]
不用通过页面源码获取,直接找数据的入口斗鱼直播是一个典型使用ajax的页面,对于这样的页面简单粗暴,直接在网页控制台的xhr里面找入口请求requests 解析json()在线json校验工具:https://www.bejson.com/来到第一页发现没有什么特别瞩目的网页,继续往下找来到第二页,发现了一个名为2的xhr文件,大胆猜想这玩意可能和页码有关,再看一页试试来到第三页,果然...原创 2020-03-04 09:28:55 · 2395 阅读 · 0 评论 -
爬虫项目3[爬取酷狗音乐Top500歌名]
不用登陆可以直接爬取,数据好找,主要在于分析页面参考于:https://blog.csdn.net/weixin_44835732/article/details/103350174请求:requests 解析:xpath看界面图片,看到下面要下载客户端,先不用慌,分析url,上边是1-8888,推测可能一共有8888页,但是总共500首歌曲,肯定不对,我们更改url试试看果然,经过...原创 2020-03-03 10:55:12 · 870 阅读 · 0 评论 -
爬虫项目1[爬取小猪短租数据]
看了这个大神的博客—爬虫项目合集,自己也动手实践一下请求:requests 解析:xpath思路:找到起始网页(第一页),爬取初识网页的数据,获取下一页的链接,爬取下一页的数据,以此类推非常简单,直接放代码:import requestsfrom lxml import etreesource_url = "http://bj.xiaozhu.com/" # 以北京地区为例hea...原创 2020-03-02 11:34:00 · 1095 阅读 · 4 评论 -
爬虫项目2[抓取Angelimg上的图片]
网站地址:http://angelimg.spbeen.com/import requestsfrom lxml import etreeheaders = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 S...原创 2019-08-21 14:00:01 · 407 阅读 · 0 评论