1.学号爬虫需要的知识。
1.计算机网络(http/https协议,tcp/ip协议,socket编程)。因为很多时候我们需要对协议很清楚。这样才能模拟出需要的请求。
2.前端的基础。(html+css+js)内容的获取和解析,需要前端的知识。xpath和bs4,都是要有一定的前端知识作为铺垫。
3.正则表达式(用于内容解析)
4.数据存储技术(分布式存储)当数据量达到很大的级别。需要对存储这块深入。
5.并发处理技术(多线程,多进程,线程池,协程)
6.图像识别(处理反爬,验证码),机器学习算法(验证码,数据解析)。
2.爬虫中要解决的问题
1.爬虫的采集和更新策略。
2.解决反爬。
3.数据解析
4.数据存储
5.模拟登录(验证码识别)
6.爬虫的监控和部署
7.数据的去重(url去重,内容去重)
3.正确的看待爬虫
1.爬虫不应该毫无节制。
2.robots协议的遵循
3.法律问题。
4.爬虫不能抓取页面上看不到的数据。爬虫是做一些重复的工作。
5.目标网站不会让我们随便爬取数据,需要有一定的反爬技术。