爬虫
_Skylar_
这个作者很懒,什么都没留下…
展开
-
爬虫作业1:爬取肯德基餐厅地址查询
网址:https://www.kfc.com.cn/kfccda/index.aspx流程与爬取豆瓣电影排行榜一致分析一下网站:进入肯德基官网:点击最下面,餐厅查询。餐厅关键词写一个城市,例如:北京记住此时的URL;然后点击查询,如果当前的URL和之前没有点击查询前的URL不一致,那么这就不是一个Ajax请求;如果变化了,则是。点击后发现并未变化,页面进行了局部刷新,为Ajax请求,这个请求对应的数据包,我们对数据包所指定的URL发起请求就可以拿到这些餐厅位置信息了。打开抓包工具:选择原创 2020-11-18 16:31:54 · 6691 阅读 · 10 评论 -
爬虫自学day4:requests模块之爬取豆瓣电影分类排行榜
豆瓣电影排行榜界面:选择喜剧分类:我们要爬取的数据是:电影名称、导演、演员、上映时间、国家等这些数据。如何进行爬取:这些信息是当前页面的局部信息,那么是否会遇到数据解析。除了数据解析还可以使用哪种方式实现?爬取当前页面的URL会得到整张页面。如何只获取我们想要的数据,我们可以看一下会不会和day3所学习的破解百度翻译类似,采用了Ajax请求,请求到json数据。我们发现在上一个页面中,当我们滑动鼠标滚轮的时候,当鼠标滚轮滑到底部时,滚轮会自动返回到中部左右,故说明滚动到底部时发起了Ajax原创 2020-11-13 18:13:07 · 3065 阅读 · 0 评论 -
爬虫自学day3: requests模块巩固之破解百度翻译
在day2中讲到了UA检测,UA伪装。在接下来的案例中都会用到。UA伪装讲解在这次爬取中,我们想要爬取的不再是整张页面,而是这张页面局部的文本数据。不用数据解析获得局部的页面数据。如何实现?我们发现百度翻译dog的翻译信息是存放在如下这样一个页面的:我们只想拿到这个翻译结果。我们发现在百度翻译界面,当我们在文本框删除dog后下面的翻译信息也随之清空了,输入dog后,不用触控任何一个按键就有信息局部刷新了。特性:页面局部刷新意味着:当在这个文本框录入单词后,会自动的进行Ajax请求发送。Aja原创 2020-11-04 15:51:18 · 671 阅读 · 0 评论 -
爬虫自学day2 :requests实战之页面采集器
URL:https://www.sogou.com/web?query=卫庄&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=2336&sst0=1604416403887&lkt=0%2C0%2C0&sugsuv=1542960053614760&sugtime=1604416原创 2020-11-04 00:10:42 · 949 阅读 · 0 评论 -
爬虫自学day1:requests模块 爬取搜狗首页页面数据
来自:B站学习视频 BV1VV411m78j如何使用:(requests模块的编码流程):指定URL发起请求获取响应数据持久化存储代码:#爬取百度百科首页的页面数据import requestsif __name__ == "__main__": #1、指定url url = 'https://baike.baidu.com/' #2、发起请求用get方法获取一个响应对象 response = requests.get(url=url) #3、获原创 2020-11-03 00:07:07 · 1053 阅读 · 1 评论