- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 猫眼电影诛仙评论爬取并进行数据分析
近期【诛仙】电影评论如潮,有褒有贬。我们现在针对此电影进行用户评论信息的爬取,并进行数据的分析。由于猫眼电影评论数据是动态加载的,所以我们我们不可能通过requests直接请求电影页面进行获取,现在必须找到相应的接口,从接口中拿到数据信息。猫眼电影评论接口的查找和之前的网站有一些区别。可以发现该网页的评论数量只显示到了十条评论数据。如果想要查找到接口,需要将其装换为app_web的方式...
2019-09-26 23:54:29 2289 1
原创 基于大众点评字体库的字体反爬案例
目标网址:http://shaoq.com/font该页面文章不是固定的,为动态生成,并且字体做了反爬措施。该页面结果简单,爬取提取数据基本上一行代码就可以解决。但是爬取下来的为字体加密后的字符。所以我现在要做的就是,怎么去将&#x…;字符转为对应的汉字。先手动下载页面中的字体文件。然后使用fontTools模块,读取字体文件,并将其保存为xml格式(正常情况下,字体文件是无...
2019-09-24 17:33:57 3224 6
原创 携程酒店爬取并保存到MongoDB数据库
由于本人十一国庆想去成都旅游,所以这里就以成都这个城市的所有携程酒店为抓取的目标城市。想要抓取其他城市或者多个城市的博友们,可以更改url为其他城市拼音+城市id。或者直接将城市接口数据(js)爬取下来去遍历城市列表在循环页面。有兴趣的朋友可以去试试爬取全国的数据。一、开始分析携程酒店页面数据结构及其反爬的一些方式经过尝试一点下一页,发现页面url是没有变化的,将源码加载到本地,可以看到完整...
2019-09-21 19:29:16 1014 2
原创 12306网站车票爬取
这里还是基于之前针对于12306网站的车票余票信息进行爬取。经过之前对12306验证码及整个网站结构数据的分析。可以分析出网站他其实也是有自己的车票信息的接口,只不过抓取数据的时候比较复杂一点。通过开发者工具分析其页面资源可以发现主要有两个资源接口可以供我们调用。第一个接口:https://kyfw.12306.cn/otn/resources/js/framework/station_nam...
2019-09-20 16:25:39 8423 6
转载 用深度学习破解12306图片验证码,识别率超96%- web效果版
本文转载自:https://blog.csdn.net/weixin_41578580/article/details/80052065 ...
2019-09-19 10:51:57 881
原创 爬取英雄联盟所有英雄皮肤
我们通过分析英雄联盟官网页面,进入到资料库页面,分析英雄所在的页面这里有两种类型的同样的图片,一种是大图片的,一种是类似头像的小图片。我们这里抓取大图片拿到几种图片链接分析https://game.gtimg.cn/images/lol/act/img/skin/big5000.jpg可以发现所有英雄皮肤链接url除了数字之前的都一样,而且后面的数字都是以英雄id+三位数拼接而成(三位数从...
2019-09-18 10:19:15 1274
转载 matplotlib RC参数设置:解决中文显示问题
默认不支持中文,需要配置rc参数plt.rcParams[‘font.sans-serif’]=‘SimHei’设置字体之后不支持负号,需要去设置RC参数更改编码plt.rcParams[‘axes.unicode_minus’]=False常用RC参数设置:(折线图中plot)# color 线的颜色# linestyle 线性# linewidth 线宽# marker 点的形...
2019-09-10 21:32:31 2842
原创 scrapy分布式爬虫案例
关于 RedisRedis 是目前公认的速度最快的基于内存的键值对数据库Redis 作为临时数据的缓存区,可以充分利用内存的高速读写能力大大提高爬虫爬取效率。关于 scrapy-redisscrapy-redis 是为了更方便地实现 Scrapy 分布式爬取,而提供的一些以 Redis 为基础的组件。scrapy 使用 python 自带的 collection.deque 来存放待爬...
2019-09-06 21:10:43 2919 1
原创 Scrapy项目搭建的完整步骤
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。(一)scrapy...
2019-09-06 19:33:48 851
原创 MongoDB数据库安装
一、下载并安装 mongodb软件下载地址:http://dl.mongodb.org/dl/win32/x86_64选择对应的版本,然后进行下载。注:mongodb3.6 版本在安装时会卡住不动,建议大家安装 3.4 版本即可。安装的时候比较简单,直接下一步二、创建数据库文件的存放位置因为启动 mongodb 服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而...
2019-09-01 15:28:18 224
原创 爬取全国邮编号码
目标网站:138邮政编码大全我们需要爬取全国34个省份里面所有城市的邮编号码:第一步:我们需要先爬取首页中的34个省份的url链接第二步:通过省份的url链接去请求,获取HTML页面,根据HTML页面信息使用xpath提取城市名及相应的邮政编码具体代码:from lxml import etreeimport requestsimport json# 所有省份所有城市邮编总数...
2019-09-01 15:04:54 5369
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人