关于爬虫的一些想法
1.学号爬虫需要的知识。1.计算机网络(http/https协议,tcp/ip协议,socket编程)。因为很多时候我们需要对协议很清楚。这样才能模拟出需要的请求。2.前端的基础。(html+css+js)内容的获取和解析,需要前端的知识。xpath和bs4,都是要有一定的前端知识作为铺垫。3.正则表达式(用于内容解析)4.数据存储技术(分布式存储)当数据量达到很大的级别。需要对存储这块深入。5.并发处理技术(多线程,多进程,线程池,协程)6.图像识别(处理反爬,验证码),机器学习算