Python爬虫基本流程及相关技术支持
1、Python网络爬虫流程
网络爬虫的基本流程很简单,主要分为以下三个部分:
-
获取网页
-
解析网页
-
存储数据
【说明】
1、获取网页就是给一个网址发送请求,该网址返回整个网址的网页数据。
2、解析网页就是从整个网页的数据中提取目标数据。
3、存储数据就是把爬取的数据存储起来,可以存储在csv文件或数据库中。
2、Python网络爬虫技术支持
- 获取网页
基础技术:request、urllib和selenium。
进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取。 - 解析网页
基础技术:re正则表达式、BeautifulSoup和lxml。
进阶技术:解决中文乱码。 - 存储数据
基础技术:存入txt文件和存入csv文件
进阶技术:存入MySQL数据库和存入MongoDB数据库。
以上就是关于Python网络爬虫的基本流程以及相关技术支持
本“Python爬虫”专栏的后续文章会更新具体的技术文章