python爬虫
文章平均质量分 58
孜孜孜孜不倦
学无止境!一步步向目标前进!
展开
-
JS逆向hook通用脚本合集
JavaScript eval() 函数的作用是计算 JavaScript 字符串,并把它作为脚本代码来执行。如果参数是一个表达式,eval() 函数将执行表达式。如果参数是 Javascript 语句,eval() 将执行 Javascript 语句,经常被用来动态执行 JS。Cookie Hook 用于定位 Cookie 中关键参数生成位置,以下代码演示了当 Cookie 中匹配到了 v 关键字, 则插入断点。原创 2023-03-06 21:42:24 · 2485 阅读 · 0 评论 -
Scrapy项目搭建的完整步骤
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。(一)scrapy...原创 2019-09-06 19:33:48 · 844 阅读 · 0 评论 -
scrapy分布式爬虫案例
关于 RedisRedis 是目前公认的速度最快的基于内存的键值对数据库Redis 作为临时数据的缓存区,可以充分利用内存的高速读写能力大大提高爬虫爬取效率。关于 scrapy-redisscrapy-redis 是为了更方便地实现 Scrapy 分布式爬取,而提供的一些以 Redis 为基础的组件。scrapy 使用 python 自带的 collection.deque 来存放待爬...原创 2019-09-06 21:10:43 · 2911 阅读 · 1 评论 -
爬取英雄联盟所有英雄皮肤
我们通过分析英雄联盟官网页面,进入到资料库页面,分析英雄所在的页面这里有两种类型的同样的图片,一种是大图片的,一种是类似头像的小图片。我们这里抓取大图片拿到几种图片链接分析https://game.gtimg.cn/images/lol/act/img/skin/big5000.jpg可以发现所有英雄皮肤链接url除了数字之前的都一样,而且后面的数字都是以英雄id+三位数拼接而成(三位数从...原创 2019-09-18 10:19:15 · 1273 阅读 · 0 评论 -
用深度学习破解12306图片验证码,识别率超96%- web效果版
本文转载自:https://blog.csdn.net/weixin_41578580/article/details/80052065 ...转载 2019-09-19 10:51:57 · 879 阅读 · 0 评论 -
12306网站车票爬取
这里还是基于之前针对于12306网站的车票余票信息进行爬取。经过之前对12306验证码及整个网站结构数据的分析。可以分析出网站他其实也是有自己的车票信息的接口,只不过抓取数据的时候比较复杂一点。通过开发者工具分析其页面资源可以发现主要有两个资源接口可以供我们调用。第一个接口:https://kyfw.12306.cn/otn/resources/js/framework/station_nam...原创 2019-09-20 16:25:39 · 8409 阅读 · 6 评论 -
携程酒店爬取并保存到MongoDB数据库
由于本人十一国庆想去成都旅游,所以这里就以成都这个城市的所有携程酒店为抓取的目标城市。想要抓取其他城市或者多个城市的博友们,可以更改url为其他城市拼音+城市id。或者直接将城市接口数据(js)爬取下来去遍历城市列表在循环页面。有兴趣的朋友可以去试试爬取全国的数据。一、开始分析携程酒店页面数据结构及其反爬的一些方式经过尝试一点下一页,发现页面url是没有变化的,将源码加载到本地,可以看到完整...原创 2019-09-21 19:29:16 · 1007 阅读 · 2 评论 -
基于大众点评字体库的字体反爬案例
目标网址:http://shaoq.com/font该页面文章不是固定的,为动态生成,并且字体做了反爬措施。该页面结果简单,爬取提取数据基本上一行代码就可以解决。但是爬取下来的为字体加密后的字符。所以我现在要做的就是,怎么去将&#x…;字符转为对应的汉字。先手动下载页面中的字体文件。然后使用fontTools模块,读取字体文件,并将其保存为xml格式(正常情况下,字体文件是无...原创 2019-09-24 17:33:57 · 3219 阅读 · 6 评论 -
猫眼电影诛仙评论爬取并进行数据分析
近期【诛仙】电影评论如潮,有褒有贬。我们现在针对此电影进行用户评论信息的爬取,并进行数据的分析。由于猫眼电影评论数据是动态加载的,所以我们我们不可能通过requests直接请求电影页面进行获取,现在必须找到相应的接口,从接口中拿到数据信息。猫眼电影评论接口的查找和之前的网站有一些区别。可以发现该网页的评论数量只显示到了十条评论数据。如果想要查找到接口,需要将其装换为app_web的方式...原创 2019-09-26 23:54:29 · 2289 阅读 · 1 评论 -
MongoDB数据库安装
一、下载并安装 mongodb软件下载地址:http://dl.mongodb.org/dl/win32/x86_64选择对应的版本,然后进行下载。注:mongodb3.6 版本在安装时会卡住不动,建议大家安装 3.4 版本即可。安装的时候比较简单,直接下一步二、创建数据库文件的存放位置因为启动 mongodb 服务之前需要必须创建数据库文件的存放文件夹,否则命令不会自动创建,而...原创 2019-09-01 15:28:18 · 223 阅读 · 0 评论 -
爬取全国邮编号码
目标网站:138邮政编码大全我们需要爬取全国34个省份里面所有城市的邮编号码:第一步:我们需要先爬取首页中的34个省份的url链接第二步:通过省份的url链接去请求,获取HTML页面,根据HTML页面信息使用xpath提取城市名及相应的邮政编码具体代码:from lxml import etreeimport requestsimport json# 所有省份所有城市邮编总数...原创 2019-09-01 15:04:54 · 5362 阅读 · 0 评论 -
多线程爬虫:嗅事百科
import jsonimport timeimport requestsimport threadingfrom lxml import etreefrom queue import Queueclass ThreadCrawl(threading.Thread): def __init__(self, threadName, pageQueue): #t...转载 2019-08-31 14:39:17 · 187 阅读 · 0 评论 -
Python itchat模块的使用,利用图灵机器人进行微信消息自动回复
一、下载安装itchat模块二、小实验:获取微信好友头像信息这需要用itchat模块中的一个方法itchat.get_friends()#获取微信所有微信好友信息现在我们导入itchat,打印一下,看看好友信息有哪些字段数据import itchat#itchat.login()生成一个登陆二维码,此方式每次程序运行都需要扫码itchat.auto_login(hotReload...原创 2019-06-22 10:38:29 · 324 阅读 · 0 评论 -
安居客租房信息爬取
主要使用工具:request,xpath根据安居客城市列表进行爬取,本人只进行首字母开头N-S城市租房信息的爬取。爬虫的主要思路:1、根据url请求页面,返回页面数据2、解析页面内容,抓取我们所需数据信息安居客租房信息爬取思路:1、先根据城市列表url获取到每个城市的url链接2、在根据城市url获取该城市的租房链接,拼接为完整的url(注意:并不是每个城市都有租房信息,注意异常处...翻译 2019-08-24 23:19:36 · 2598 阅读 · 2 评论 -
高德地图城市天气信息爬取
这里使用requests模块进行高德地图城市天气信息的爬取1、首先我们需要找到高德地图的城市API接口打开高德地图,按F12开发者工具下找到cityList?version=201981715这个地址,就是城市API接口地址,如果城市信息无法显示,将后面的version参数删除或者改一下日期2、再次找到高德地图的城市天气API接口3、根据城市API接口和城市天气API接口进行分析查...原创 2019-08-20 22:22:02 · 1049 阅读 · 0 评论 -
通用爬虫和聚焦爬虫
根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种。一、通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。二、通用搜索引擎(Search Engine)工作原理通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着...转载 2019-08-20 22:34:50 · 1447 阅读 · 0 评论 -
常用的请求报头和响应报头
常用的请求报头1、Host ( 主机和端口号)Host:对应网址 URL 中的 Web 名称和端口号,用于指定被请求资源的 Internet 主机和端口号,通常属于 URL 的一部分。2、Connection ( 链接类型)Connection:表示客户端与服务连接类型Client 发起一个包含 Connection:keep-alive 的请求,HTTP/1.1 使用 keep-a...原创 2019-08-20 22:50:04 · 2765 阅读 · 1 评论 -
使用爬虫爬取指定文章,定时发送邮件
这里采用一个简单的网站,儿童睡前小故事:http://www.tom61.com/ertongwenxue/shuiqiangushi/index.html内容如下:一、爬取小故事的标题及详情链接,作为数据来源使用xpath抓取所有的小故事标题及详情链接:代码如下:这里只爬取一页数据作为参考import jsonimport requestsfrom lxml import...原创 2019-08-30 20:44:09 · 1069 阅读 · 0 评论 -
根据生产消费者模式:爬取腾讯招聘信息
腾讯招聘网站招聘信息数据是使用接口ajax请求完成的,所以我们直接找到该接口,请求接口数据,分析接口数据,进行某岗位全部页面信息的爬取。这里采用生产消费者的设计模式,使用多线程和队列技术实现多线程爬取接口信息页面请求作为生产者;页面解析作为消费者import timeimport requestsimport threadingfrom queue import Queuefrom ...转载 2019-08-30 21:00:41 · 138 阅读 · 0 评论 -
使用fiddler抓包工具,抓取斗鱼接口,爬取数据
使用fiddler抓包工具,分析斗鱼接口信息找到斗鱼接口url,进行接口分析,提取数据。由于斗鱼直播数据和整个页面页码都是根据开播来实时更新的。所以我们提取数据是要判断。拿到实时的页码。import requestsimport random'''url = https://www.douyu.com/gapi/rkc/directory/0_0/list'''def get_do...原创 2019-08-30 21:06:39 · 2655 阅读 · 0 评论 -
XML介绍及xpath文档
我们在抓取网页数据的时候,正则表达式可以说是一个万能的工具。但是正则表达式的难度系数比较高。不能说每个人都能精通熟练使用它,这样我们可以使用xpath。(1)先将 HTML 文件 转换成 XML 文档;(2)然后用 XPath语法查找 HTML 节点或元素一 、 什么是 XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似...翻译 2019-08-31 11:25:45 · 160 阅读 · 0 评论 -
xpath应用之lxml模块使用
lxml 是 一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml 和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用上篇文件的 XPath 语法,来快速的定位特定元素以及节点信息。lxml python 官方文档安装lxml模块:pip install lxml(或通过 wheel 方式安装)...转载 2019-08-31 11:54:03 · 266 阅读 · 0 评论 -
爬虫必备的web知识
爬虫定义、分类和流程爬虫的定义:网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为,越像越好,越像就越不容易被发现。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。爬虫的分类通用爬虫:通常指搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫爬虫的用途今日头条网...原创 2019-06-01 21:15:53 · 332 阅读 · 1 评论