Python爬虫老生常谈的话题了
像兼职接单、爬取小说电影榜单、商业化的数据收集等,在大数据时代它能用到的地方还是蛮多的。
业余玩玩小意思,如果是想要往这方面学精学深,那得下一番功夫了。
爬虫能力按层次来分大概也可以分为初级、中级、高级、更高一级这四个水平,要说爬虫技术能不能达到巅峰?
反正我是不敢说有,毕竟学海无涯、学无止境,可以朝着这个目标奋斗哈哈~
一、初级爬虫
掌握Python的语法和一些常用库的使用
虽然说学爬虫不需要做到那么精通Python,但如果你是零基础上手编程,基础语法还是要认真去学的万丈高楼平地起!
【初级爬虫的技能要求】
- Python 【语言基础】
- requests 【请求相关】
- lxml【解析相关】
- XPath 【解析相关】
- BeautifulSoup【解析相关】
- PyQuery 【解析相关】
- MySQL 【数据库】
- MongoDB【数据库】
- Elasticsearch
- Kafka【消息队列相关】
这个阶段最主要的就是掌握Python语法基础、常用库的使用;
请求库的话一般Requests能应付大部分简单网站的爬取,当然是在没有反爬机制的前提下。
Selenium的话主要是用它来模拟真实浏览器对URL进行访问,从而对网页进行爬取,往往要配合PhantomJS使用,Selenium+PhantomJS可以抓取使用JS加载数据的网页。
解析常用到XPath、BeautifulSoup、PyQuery 或者正则表达式,初级的话能够熟练两三种解析库基本也够用了。
正则一般用来满足特殊需求、以及提取其他解析器提取不到的数据,正常情况下我会用bs4,bs4无法满足就用正则。
没有基础的话,在Python入门这一块需要消化的知识点还是不少的。
除了Python之外,基础的计算机网络知识、CSS、HTML等这些都是需要补充学习的。
那些陌生的密密麻麻的知识点介绍,有些同学看了可能会当场劝退!
给零基础初学者的一点建议是:明确好自己的学习目标,掌握好自己的学习节奏!
Python的语法还算是简单,虽然也很多,一步一步来呗!
初级水平的爬虫主要重在基础,能爬着基本的网站玩玩,碰到有反爬的网站就不太行了,只能说你的爬虫之路还任重而道远。