网络爬虫
菜鸟不太菜
这个作者很懒,什么都没留下…
展开
-
夭寿啦!pandas还能这么用!
前言:最近在公众号看到一篇文章说pandas也可以写爬虫,并且对与表格型的数据,非常友好强大,可以直接保存成dataframe格式,是不是很强大,下面我们来介绍一下他的用法,非常的简单。试用情况:这种这样子的如果查看一下网页的HTML结构(Chrome浏览器F12),会发现它们有个共同的特点,不仅是表格,还是以Table结构展示的表格数据,大致的网页结构如下:<table c...原创 2020-04-24 17:38:32 · 213 阅读 · 0 评论 -
抖音字体加密
抖音==起因==:==分析==:字体文件:==获取字体文件==:==获取字体映射规则:====安装:====使用:====分析映射规则==:==代码部分==:==效果:==起因:前天本来接的一个小单子,一开始客户上来问抖音粉丝能获取吗?我寻思这玩意看起来是字体加密,但是我并不知道这个字体文件时多久更新一次,要是像猫眼字体反爬那样,刷新一下就变,那我就太孤儿了,所以就延长了工期,结果,人客户走了...原创 2020-03-28 11:15:07 · 1308 阅读 · 0 评论 -
批量爬取app小视频
批量爬取app小视频全名小视频app视频爬取fiddler的安装与使用。抓包分析,请求网址与post请求表单信息,为构建抓取某个up主下的全部视频信息做准备。分析加密信息。效果示意图:将复制链接替换url即可实现不同up主的视频批量爬取。使用方法复制连接替换urlGitHub代码地址:https://github.com/Key-lei/AppSpider...原创 2020-03-14 20:01:55 · 3401 阅读 · 0 评论 -
猫眼电影字体反爬-自动处理字体加密
猫眼电影字体反爬我们再爬取猫眼电影的时候,回到如下情况:我们想要其中想看人数的数据,但是在网页源代码中并不是直接显示数字而是这一串东西。这一串,其实是猫眼本身的一种字体,目的是不想每个人都获取到数据。针对这个情况我们可以先找到他的字体文件,然后再根据字体文件当中的映射,会得到一个与其一一对应的文字,数字。所以最关键的是,我们需要找到对应的字体文件。这个就是我们要的字体文件。现在我...原创 2020-03-12 16:28:55 · 1740 阅读 · 1 评论 -
拉钩招聘信息爬取-能自行进行职位选择与页数选择
拉钩招聘信息爬虫分析:难点是其cookie会一直改变并且具有时效性,并且我们在职位的网站查看源代码是查找不到想要的职位数据的,要进行抓包分析。找出真正的原始网址。需求:保存的数据为csv文件直接上代码:# -*- coding: utf-8 -*-import requestsimport re""""""""" 需求1:获取一下信息 'city'...原创 2020-03-10 22:36:49 · 270 阅读 · 0 评论 -
爬取豆瓣电影TOP250
# 利用css选择器对电影的信息进行爬取import requestsimport parselimport csvimport timeimport reclass CssSpider: def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows...原创 2020-03-10 00:46:27 · 631 阅读 · 1 评论