爬虫
文章平均质量分 95
加油小羽哥
男人要对自己狠一点
展开
-
爬虫 第三讲 数据解析
爬虫 第三讲 数据解析一.正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。应用表单验证(例如 : 手机号、邮箱、身份证… )爬虫普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候,只匹配与自身相同的一个字符。例如:表达式c,在匹配字符串abcde时,匹配结果是:成功;匹配到的内容是c;匹配到的原创 2021-05-19 12:33:52 · 51498 阅读 · 3 评论 -
爬虫 第九讲 反爬的策略
一、JS反爬1.环境搭建安装node.js下载网站:https://nodejs.org/en/download/参考网站:https://blog.csdn.net/qq_41465646/article/details/107656044安装js代码调试工具发条js代码调试工具安装 PyExecJs模块pip install PyExecJs -i https://pypi.douban.com/simple2.JS中常见的算法• 线性散列MD5算法• 对称加密DES/AES算法原创 2021-04-29 23:32:44 · 51067 阅读 · 0 评论 -
爬虫 第八讲 移动端数据抓取
爬虫 第八讲 移动端数据抓取一、移动端环境搭建(一)、移动端数据简介1.移动端爬取数据的背景随机互联网的发展,数据不仅仅只是存在于PC端。移动端的数据在这几年的占比以及势头发展趋势呈现几何倍数的增长。对于做数据分析、用户画像、市场调研来说仅仅参考PC端的数据是远远不够的。那么于此同时移动的数据就显得尤为的重要。2.获取移动端数据的作用?• 数据分析• 用户画像• 商业竞争• 统计系统3.UIAutomator的介绍UIAutomator是google提供的用来做安卓自动化测试的一个ja原创 2021-04-29 22:27:54 · 50881 阅读 · 0 评论 -
爬虫 第七讲 MongoDB
爬虫 第七讲 MongoDBMongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引SQL和NoSQL的主要区别• 在SQL中层级关系:数据库->表->数据• 在NoSQL中是:数据库->集合->数据Mongo原创 2021-04-29 21:44:50 · 50310 阅读 · 0 评论 -
爬虫 第六讲 Scrapy框架
爬虫 第六讲 Scrapy框架一、Scrapy框架初级Scrapy介绍什么是ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度。http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html异步和非阻塞的区别异步:调用在发出之后,这个调用就直接返回,不管有无结果非阻塞:关注的是程序在原创 2021-04-29 20:56:06 · 39745 阅读 · 1 评论 -
爬虫 第五讲 多线程爬虫
爬虫 第五讲 多线程爬虫一、多线程1.多线程基本介绍有很多的场景中的事情是同时进行的,比如开车的时候 手和脚共同来驾驶汽车,再比如唱歌跳舞也是同时进行的。程序中模拟多任务import timedef sing(): for i in range(3): print("正在唱歌...%d"%i) time.sleep(1)def dance(): for i in range(3): print("正在跳舞...%d"%i)原创 2021-04-29 15:57:48 · 48947 阅读 · 4 评论 -
爬虫 第四讲 js2py和selenium
爬虫 第四讲 selenium一、selenium的使用1.爬虫和反爬虫的斗争爬虫建议尽量减少请求次数保存获取到的HTML,供查错和重复使用关注网站的所有类型的页面H5页面APP多伪装代理IP随机请求头利用多线程分布式在不被发现的情况下我们尽可能的提高速度2.ajax基本介绍动态了解HTML技术JS是网络上最常用的脚本语言,它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页jQueryjQuery是一个快速、简介的JavaS原创 2021-04-29 15:24:13 · 53159 阅读 · 1 评论 -
爬虫 第二讲 urllib模块和requests模块
一、urllib模块1.什么是urllib模块?python内置的网络请求模块2.urllib.request模块python2 :urllib2、urllibpython3 :把urllib和urllib2合并3.常用的方法urllib.request.urlopen(“网址”) 作用 :向网站发起一个请求并获取响应字节流 = response.read()字符串 = response.read().decode(“utf-8”)urllib.request.Request(“网原创 2021-04-20 09:51:52 · 112313 阅读 · 1 评论 -
爬虫 第一讲 爬虫前导知识、爬虫简介
一、爬虫前导知识1.端口1、打开命令窗口,输入命令:netstat -ano 查找所有运行的端口2、查看被占用端口对应的 PID输入命令:netstat -aon|findstr “3306”回车执行该命令,最后一位数字就是 PID, 这里是 1968。3、查看指定 PID 的进程继续输入命令:tasklist|findstr “1968”查看是哪个进程或者程序占用了 3306 端口,结果是:mysqld.exe。4.结束进程强制(/F参数)杀死 pid 为 1968 的所有进..原创 2021-04-16 16:51:33 · 51168 阅读 · 2 评论