爬虫实战
文章平均质量分 64
一些爬虫的实践案例
薄荷杂学
触底反弹
展开
-
爬虫-xpath-全国城市名称爬取
文章目录1)需求分析2)基本思路3)程序(1)导包(2)使用requests发起响应,获得网页数据(3)利用XPath解析数据并将其保存到本地'(4)运行程序4)运行效果1)需求分析url = ‘https://www.aqistudy.cn/historydata/’2)基本思路首先使用requests模块获取网页数据;其次,利用xpath解析数据,获取热门城市和所有城市的名字;最后,将数据保存到列表中;ul_list = ‘//div[@class=“all”]/div[@class=原创 2021-04-24 17:51:42 · 492 阅读 · 0 评论 -
爬虫-xpath-4k图片解析下载
文章目录1)需求分析2)基本思路3)程序(1)导包(2)使用requests发起响应,获得网页数据(3)利用XPath解析数据并将其保存到本地运行程序4)运行效果1)需求分析网站:http://www.netbian.com/meinv/爬取下图所示图片,并保存到本地。2)基本思路首先使用requests模块获取网页数据;其次,利用xpath解析数据,获取li列表,‘//div[@class=“list”]/ul/li’然后,循环,提取a标签里面的img标签的src,即可获得图片最后,将数原创 2021-04-24 17:10:18 · 189 阅读 · 0 评论 -
爬虫-requests+re-实例
爬取搜狗首页的页面数据import requestsif __name__ == "__main__": #step1:指定url url='https://www.sogou.com/' #steo2:发起请求get:get方法返回值是一个响应对象 response = requests.get(url=url) #step3:获取响应数据 page_text = response.text #text返回的是字符串形式的响应数据 prin原创 2021-04-18 18:43:00 · 548 阅读 · 0 评论 -
爬虫-Beautiful Soup-爬取三国演义章节标题和内容
需求:爬取三国演义小说所有的章节标题和章节内容网站:https://www.shicimingju.com/book/sanguoyanyi.html点击章节标题可以进入详细页面108回: https://www.shicimingju.com/book/sanguoyanyi/108.html109回:https://www.shicimingju.com/book/sanguoyanyi/109.html[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gQHwBy原创 2021-04-11 20:47:30 · 117 阅读 · 0 评论 -
爬虫-xpath-爬取58二手房中的房源信息
系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例原创 2021-04-12 08:57:29 · 670 阅读 · 1 评论 -
爬虫-Ajax-爬取新浪微博数据
文章目录一些知识点Ajax分析方法查看请求过滤请求利用python模拟Ajax请求分析请求分析响应点击Preview,查看请求的响应内容查看具体内容具体操作step1:定义一个方法来获取每次请求的结果step2:定义解析方法提取所需信息step3:改变since_id获取所需数据step4:运行结果参考文献一些知识点Ajax 有其特殊的请求类型,它叫作 xhr。Ajax分析方法查看请求首先,用 Chrome 浏览器打开微博的链接 https://m.weibo.cn/u/2830678474,随后原创 2021-04-19 14:58:49 · 435 阅读 · 0 评论 -
爬虫-Ajax-爬取今天头条街拍美图
文章目录需求分析步骤首先,打开今日头条的首页http://www.toutiao.com/其次,在搜索框中,输入“街拍”,返回页面如下:然后,打开开发者工具,在网络中“CTRL+R”刷新界面,筛选出XHR要提取的数据在哪里?不同Ajax的区别程序step1:定义一个方法来获取每次请求的结果需求分析步骤首先,打开今日头条的首页http://www.toutiao.com/其次,在搜索框中,输入“街拍”,返回页面如下:然后,打开开发者工具,在网络中“CTRL+R”刷新界面,筛选出XHR要提取的数原创 2021-04-22 21:36:14 · 166 阅读 · 0 评论