python网络爬虫从入门到精通导读

python网络爬虫从入门到精通导读

刚刚接触爬虫的概念,感觉这种书直接读会读不下去(之前被c++primer读怕了 )所以就尝试某大神的方法,先把书中的内容都扫一遍把概念整理清楚再上手开发。

第二章 数据采集

正则表达式:查找某种符合一定格式的字符串、寻找ping信息的时间结果、抓取网页上特定内容的图片

beatifulsoup :python库,作用同正则表达式。

Xpath:在XML中搜索信息的语言,

遍历多页面的爬虫:搜索360网页显示关键词的网页的大致信息,并且可以支持翻页查询。

使用API:用HTTP协议向API发起某种请求,获得某种信息,用JSON返回服务器响应。用API调用google地图的地理位置。

第三章 文件与数据储存

python中的文件读写 :&python对图片(pIL&OPENCV)和字符串的操作

CSV文件:读写

使用数据库:使用mysql,SQLAlchemy,Redis,doxc文档

第四章 JS与动态内容

JS&AJAX:是一种技术,允许浏览器通过异步请求来获取数据,相当于每次只刷新一点(可以理解为下拉刷新)

​ 流程:发送请求,获得数据,显示元素,改变网页

​ 例子:对携程常见问答的爬取。对bilibili的特别推荐进行爬取。

抓取动态内容:使用Selenium来模拟用户的行为。

V8引擎:能够用来执行JS的运行工具,可以类比为一个浏览器。

第五章 表单与模拟登陆

post: 一些简单的信息可以用HTTP GET 来获得,但是要用post 表单来传输一些比较机密、正规的文件。可以直接用request库中的,post()方法。

Cookies:让服务器记住终端用户,在本地存放一个小文本文件。可以使用cookies进行模拟登陆。

验证码:三种方式,程序识别图片,手动打码,人工打码服务平台。

第六章 数据的进一步处理

python文本分析:jieba与sonenlp,为自然语言处理做准备。

科学库的使用:numpy,matplotlib(看利用python进行数据分析那章)

第七章 更灵活的爬虫

vps:用强大的爬虫可以开发出效率高,扩展性强的程序,但是自己的机器资源有限,要部署到远程服务端上。(但是现在就是流行云服务器,这个东西可以直接不学,看看能不能部署到云服务器上面)

VPS流程:配置远程主机,编写本地爬虫,部署爬虫,查看运行结果,使用爬虫管理框架。

第八章 浏览器模拟与网站测试

测试: 确定某一个小功能是否正确,可以用python的unittest来测试,和pytest模块。设计JS用selenium测试。

第九章 更猛的爬虫

Scrapy框架

反爬虫

多进程

分布式爬虫

之后就都是爬虫实践了,我会将自己的学习过程同样发布,望点赞支持

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值