python爬虫知识
文章平均质量分 95
1.爬虫核心 爬虫前导知识 爬虫网络请求模块
2.爬虫进阶 selenium 多线程 队列 多线程的一种模式
3.Scrapy爬虫框架 更快更强大 分布式爬虫
3.数据存储 CSV redis mongodb mysql
4.移动开发
5.反反爬技术 各种复杂验证码
洋芋本人
如果有问题可以在文章下面提出,有空会挑着解答,祝大家学习愉快
展开
-
MongoDB数据库--------------------python爬虫知识点9
一、MongoDB介绍MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引SQL和NoSQL的主要区别在SQL中层级关系:数据库->表->数据在NoSQL中是:数据库->集合->数据MongoDB的原创 2021-06-28 06:10:37 · 221 阅读 · 1 评论 -
Scrapy- 异步爬虫框架-分布式爬虫scrapy-redis-python爬虫知识点8
一、scrapy简介优点可配置、可扩展性非常高比较灵活,让稳定和快速基于异步,内部封装了这个twisted异步网络框架,复杂,采用了大量闭包也提供了可控的速度队列1,保存每一页的url,爬取数据爬取的数据 后保存到队列2中,存放图片的url和名字线程,去队列中get 图片url 并保存文件搭好架子cto 技术总监 架构师ceo二、scrapy 的工作流程引擎–发动机–统筹全局 - 整个框架的核心调度器–接收从引擎发过来的url,入列,一直工作到没有url了爬虫程序:整原创 2021-06-04 01:55:56 · 1195 阅读 · 2 评论 -
解析网页-selenium-非常实用-python爬虫知识点7
selenium的使用一、引入爬虫和反爬虫的斗争二、selenium背景静态网页与ajax动态加载以前爬取的网页都是静态的网页何为静态网页,其实就是我们向一个网站发起请求得到响应,那么这些响应的数据都是网页的源代码中,通过response就可以得到数据除了静态网页,还有一些网站数数据不在这个请求得到url地址当中,那么这些护具有可能是通过ajax技术加载出来的数据,例如12306的班次的信息不在url中,查询的内容只是对网页的部分内容更新,这个就是ajax动态加载出来的element是原创 2021-05-21 17:04:34 · 2688 阅读 · 0 评论 -
解析网页--BeautifulSoup-bs4-python爬虫知识点6
BeautifulSoup一、BeautifulSoup基本信息定义主要学bs4.BeautifulSoup,bs4内的一个非常好用的模块,美丽的汤,bs4:Beautiful Soup4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库安装pip install lxmlpip install bs4作用解析网页和提取网页的数据PC端 网站中爬出数据 每一个网站都有自己的开发准则,只有多多掌握多种解析网页的技术,才能找到最合适的技术最重原创 2021-05-08 19:50:59 · 778 阅读 · 0 评论 -
爬虫套路-python
图片、mp3、视频下载urllib.request.urlretrive(url,‘文件名.png’)for i,url in enumerate(pic_list): urllib.request.urlretrieve(url,f'第{i+1}张照片.png')原创 2021-05-04 01:12:48 · 157 阅读 · 0 评论 -
解析网页--xpath-python爬虫知识点5
xpath正则表达式相当于一个模板解析网页 提取数据不同网页结构 我们灵活采用不同的技术html 超文本标记语言,<> 标识xml 可扩展标记语言 除了标识,也可以用于简单的数据存储lxml 是一个python的模块,html 网页源代码,不能用xpath,把html文本转化成xml对象,就可以使用xpath进行解析一、xpath介绍基本概念XPath(XML Path Language)是一种XML的查询语言,他能在XML树状结构中寻找节点。XPath 用于在 XML 文原创 2021-05-02 00:27:13 · 721 阅读 · 5 评论 -
解析网页--正则表达式--python爬虫知识点4
正则表达式爬虫要求不高,如果你写的表达式很复杂就说明该网站并不适合用正则来处理掌握基础一、正则表达式的简介概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑特殊符号组合在一起的一个字符串,对你预知的一个字符串做一个验证,验证字符串的“机器、锁”逻辑就是对事物观察分析后的结果应用场景爬虫表达验证(例如 : 手机号、邮箱、身份证… )登入网站app的时候填入原创 2021-04-28 01:01:17 · 842 阅读 · 0 评论 -
SSL证书解决无效证书问题 - cookie用法 - session - 突破验证码python爬虫知识点3
int\stringlisttuple\dict\set处理不信任的SSL证书•SSL证书 数字证书的一种 遵守的是SSL协议具有服务器身份验证和数据传输加密功能证书风险:证书不被浏览器认可解决方式:requests模块里面只需要设置一个参数参数名 verify参数值 true(默认)falseSSLERROR这样一个异常http升级https 要SSL证书,只要按照证书来传输证书怎么拿到:自己开发(不被浏览器信任的)、或第三方认证机构如果要访问一个证书风险的网址request原创 2021-04-25 18:49:15 · 822 阅读 · 1 评论 -
爬虫网络请求模块-urllib-requests-python爬虫知识点2
爬虫网络请求模块urlibpython内置的网络请求模块为什么要学习这个模块1.有些比较老的爬虫项目就是这个技术2.有的时候我们去怕一些数据需要reque+urlib模块进行配合3.内置的发出请求获取响应解析响应url=’’response=requests.get(url)with open(‘photo.png’,‘rb’) as f:f.write(response.content)from urllib import requestsrequest.urlretri原创 2021-04-22 13:25:34 · 807 阅读 · 1 评论 -
爬虫前导知识-Http请求与响应-NetWork怎么看-python爬虫知识点1
一、网络编程基础点这里二、Http请求与响应network分析网页的内容通过浏览器向百度发出请求wd=关键字中文变16进制在线进制转换(90,0x5A)general全部的:Request urlrequest methodstatus code 状态码requ请求地址是否一致,动态不一样请求方式:get postResponse Hearder 服务端Request Headers 客户端:VIEW SOURCE 源请求源视图VIEW PARSRT 已分析视图get原创 2021-04-17 17:53:25 · 1328 阅读 · 1 评论