![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python 爬虫
文章平均质量分 86
python 爬虫的学习经历,可以说是自己的笔记
- 白鹿 -
这个作者很懒,什么都没留下…
展开
-
使用爬虫爬取移动端数据
这里写自定义目录标题1:移动端的前导知识1.1:移动端数据爬取数据的背景介绍1.2:移动端数据的作用1.3:课外拓展2:Uiautomator介绍2.1:ua是什么2.2:Uiautomator能够做什么2.3:AccessibilityService3:安卓系统中的四大组件3.1:1:移动端的前导知识1.1:移动端数据爬取数据的背景介绍PC端 --> 移动端 --> 大数据 --> 人工智能1.2:移动端数据的作用1:用于数据分析2:用于用户画像:也就是根据用户的需求来原创 2021-07-21 22:56:25 · 888 阅读 · 5 评论 -
mongodb数据库的拓展
文章目录1:2:1:2:原创 2021-07-12 14:16:24 · 396 阅读 · 0 评论 -
mongodb数据库介绍
目录:1:windos系统安装mongodb2:什么是mongodb3:为什么学习mongodb3.1:企业需求3.2:爬虫需求3.3:mongodb的特点4:mongodb的命令4.1:基本命令展示数据库清屏使用数据库/创建数据库查看现在用的数据库查看当前使用数据库的集合(表)删除数据库4.2:插入数据不手动创建表手动创建表查看一个表/集合是否设置了上限在表中插入数据删除表/集合插入多条数据使用循环插入多条数据(*)更新已经有的数据4.3:查询数据查询所有数据格式化打印精确车查询格式化打印精确查询的数据返原创 2021-06-24 18:09:00 · 2206 阅读 · 0 评论 -
使用python操作Redis
目录:1:使用python操作Redis的步骤2.1:安装Redis2.2:导入reids2.3:连接redis方法一方法二2.4:逻辑实现2:scrapy-redis2.1:学习目标2.2:scrapy-redis的工作流程2.3:redis数据库中需要存储的数据2.4:名词解释分布式集群3:scrapy与scrapy-redis的区别scrapyscrapy-redis4:分布式的优点优点问题解释1:使用python操作Redis的步骤2.1:安装Redispip install redis原创 2021-06-21 16:32:13 · 231 阅读 · 0 评论 -
数据库的介绍
目录:1:学习Redis数据库1.1:Redis是什么nosql数据库MySQL数据库1.2:为什么学习Redis爬虫的角度Wed的角度1.3:如何学习Redis4:Redis的特性5:Redis的应用场景2:Redis数据库的安装1:学习Redis数据库主要学习有三个关于Redis的基础知识1:Redis是什么2:为什么要要学习Redis3:如何学习Redis4:Redis的特性5:Redis的应用场景1.1:Redis是什么首先Redis是一个高性能的开源的,C语言开发的键值对存原创 2021-06-20 22:46:20 · 61 阅读 · 0 评论 -
scrapy框架拓展
目录:1:crawlspider1.1:什么是crawlspider1.2:学习目标1.3:特性1.4:相比于普通的spider爬虫的优势1.5:crawlspider的使用1.5.1:如何创建crawlspider1.6:crawlspider爬虫框架和crapy爬虫框架的区别相同点:不同点:2:scrapy模拟登陆2.1:怎么实现模拟登陆2.2:使用scrapy框架模拟登陆2.3:直接携带cookie模拟登陆方法一方法二2.4:使用post请求方法一1:crawlspider主要介绍crawlsp原创 2021-06-11 16:29:45 · 247 阅读 · 0 评论 -
scrapy框架其他功能的使用
目录:1:piplines的使用1.1:怎样使用piplines来保存爬虫返回的数据1.2:步骤1.3:多个管道的开启1:piplines的使用piplines:管道文件,用于保存从爬虫文件返回来的数据保存爬虫文件返回的数据,可以在爬虫文件中写,也可以在piplines中写,但是scrapy推荐的是在piplines中写保存爬虫返回的数据1.1:怎样使用piplines来保存爬虫返回的数据前提:爬虫文件在爬虫文件中,可以在爬虫文件中打印返回的数据,保证没有问题之后在向piplines文件编写原创 2021-06-04 15:46:06 · 218 阅读 · 1 评论 -
scrapy框架学习
目录:原创 2021-06-03 13:48:38 · 183 阅读 · 2 评论 -
多线程入门
目录1多线程介绍1.1:什么是多进程1.2:多进程的特点1.3:多线程1.3.1:多线程的特点1.4:爬虫使用多线程的好处2:如何创建多线程2.1:通过函数创建多线程2.2:通过类来创建多线程2.3:主线程和子线程的优先级3:多线程的一些方法3.1:查看多线程的数量注意:3.2:线程间的资源竞争4:线程锁4.1:上锁代码注意1多线程介绍先说多线程,在说多线程1.1:什么是多进程系统正在运行的一个应用程序,一个应用程序等于一个进程。也就是说在系统中运行的应用程序占用了电脑cpu的一个进程,多进程原创 2021-06-01 10:47:14 · 68 阅读 · 0 评论 -
行为链
目录:1:1:原创 2021-05-21 16:42:42 · 807 阅读 · 0 评论 -
selenium学习
目录:1:建议1.1:爬虫的建议1.2:随机UA2:selenium背景2.1:静态网页和动态网页2.2:如何爬取动态网页的数据2.2.1:获取数据的真正接口2.2.2:通过selenium来模拟浏览器获取网页的数据3:selenium如何使用1:建议1.1:爬虫的建议1:减少爬虫爬取网站的次数,因为会出现反爬2:在爬取之前,要关注所要爬取网页的类型页面:H5、AppH5:现在学习爬取的数据就是从H5页面上爬取下来的数据3:使用伪装:使用代理IP、随机请求头4:利用多线程分布式来爬取数原创 2021-05-19 23:50:51 · 531 阅读 · 0 评论 -
bs4介绍
目录:1:bs4 简介1.1:bs4是什么1.2:有什么用1.3:有什么意义2:bs4源码分析2.1:为什么分析源码3:bs4快速入门3.1:创建一个soup对象3.2:bs4、xpath和re的比较3.3:bs4常用方法3.3.1:获取一个标签及标签里面的内容3.3.2:只获取一个标签里面的内容,不获取标签3.3.3:只获取标签名3.3.4:获取多个标签3.3.5:得到标签的属性值4:bs4的对象种类(了解)4.1:tag使用方法4.2:NavigableString 使用方法4.3:BeautifulS原创 2021-05-17 14:54:49 · 13061 阅读 · 2 评论 -
xpath介绍
目录1:xpath1.1:寻找数据的方式1.2:作用1.3:可以解决的问题课外知识htmlxmllxml2:xpath快速入门1:xpath是数据解析的一种方式,是一种可以根据地址来寻找数据的技术re + requests 已经可以写出一些简单的爬虫,但是re表达式太麻烦了,所以才有了xpath这种数据解析的方式re模块中的re表达式相当于是一个模板了,寻找数据的方法就是根据这个模板来找数据xpath,解析数据的方式,就像是知道了数据所在的地址,直接去这个地方去寻找数据就可以了1.1:寻找数原创 2021-05-01 21:15:28 · 2908 阅读 · 1 评论 -
csv
目录1:csv简介1.2:2:写入文件和读取文件2.1:写入文件2.1.1:方法一,使用wreter的方式写入文件2.2:方法二,使用Dictwriter对象来操作文件3:读取文件3.1:以reader对象读取3.2:以Dictreader对象的形式来读取1:csv简介python的内置模块,可以跨多种形式,导入导出数据,如可以使用excle打开,一般返回的数据在excel文件中打开以后的案例都保存在csv文件中1.2:2:写入文件和读取文件2.1:写入文件把文件写入到csv文件中通过原创 2021-04-30 00:07:25 · 176 阅读 · 0 评论 -
re模块的介绍
目录1:正则表达式2:正则表达式的用途3:重点3.1普通字符3.2:match()函数注意:3.3:元字符3.4:预定义匹配字符集3.5:重复匹配3.6:位置匹配和非贪婪匹配4:爬虫的使用1:正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑可是说使用一组字符串来对另一组字符串来进行杀筛选和过滤的作用可以把正则表的式比作一个筛子2:正则表达式的用途爬虫表达验证原创 2021-04-29 23:09:21 · 3010 阅读 · 1 评论 -
requests库快速入门
目录1:requests库与urllib库的差别2:快速入门2.1:安装requestsa库2.2:处理在url中的参数1:requests库与urllib库的差别requests库的设计之初就是为人来服务的,以request库的文档来说,requests库就是用来为人服务的,所以说requests库相比urllib库来说是非常人性化的2:快速入门主要说的是requests库是如何来发送get和post请求的2.1:安装requestsa库使用DOS命令:pip install re原创 2021-04-24 14:52:16 · 88 阅读 · 0 评论 -
爬虫的网路请求模块
目录1:urllib模块1.1:为什么学习该模块2:urllib模块快速入门2.1:向网站发起请求并获得响应1:urllib模块python内置的网络请求模块1.1:为什么学习该模块有些时候比较老的爬虫项目,就是使用这个模块的技术写的有时候会需要使用requests模块和urllib模块进行配合使用是一个内置的模块,使用起来比较方便2:urllib模块快速入门构建一个爬虫基本需要使用三个步骤1:创建请求对象2:获取响应对象3:存储数据2.1:向网站发起请求并获得响应原创 2021-04-20 14:34:26 · 169 阅读 · 0 评论 -
爬虫基础知识
这里写目录标题1:什么使爬虫1.1:爬虫的模仿2:为什么写爬虫2.1:企业获取数据的方式3:python做爬虫的优势3.1:网站的语句4:爬虫的分类5:爬虫的几个常见概念5.1:GET和POET请求5.2:URL6:其它知识6.1:User-Agent6.3:cookie6.4:refer6.5:状态码1:什么使爬虫用来代替人去模拟浏览器进行操作1.1:爬虫的模仿1:写的更接近人的实际行动2:注意反反爬2:为什么写爬虫1:爬虫可以为其他的程序提供数据2:用于数据分析3:AL、人工原创 2021-04-20 11:55:02 · 124 阅读 · 0 评论 -
爬虫前导知识
目录1:数据发送1.1:端口2:协议2.1:TCP/IP协议2.2:HTTP协议对网络模型的简单表示![四层网络模型与七层网络模型](https://img-blog.csdnimg.cn/img_convert/aff4903424c26d2595b2434996713df5.png)2.3:数据的传输封包和解包3:HTTP请求和响应3.1:浏览器中的抓包工具3.2:Netword的组成3.2.1:General的解释Requeet Header的解释1:数据发送网络发送数据需要两个步骤,1:找到原创 2021-04-20 11:50:11 · 208 阅读 · 0 评论