简单介绍爬虫基本流程!
首选笼统概括一下其流程:
1. 发起请求
2. 获取响应内容
3. 解析内容
4. 保存数据
下面来具体说下如何爬取:
第一步:
通过http库向目标站点发起请求即(request);然后等待服务器响应;
第二步:
获取相应内容,
如果能够正常响应那么会得到一个response的内容
在这里我们再一次详细说明一下response里面所包含的具体的内容;
当响应状态
为200时代表成功;
为301时代表跳转;
为404时代表找不到页面;
为502时代表服务器错误;
这个内容的类型可能是HTML,json字符串,二进制数据(图片或者视频)
第三步:
解析内容,
当得到的内容是HTML时,我们可以用正则表达式进行页面解析;
当得到的数据时json时,可以直接转换为json对象解析,
当得到的内容为二进制数据时,我们可以做保存或者进一步的处理;
在这里还有几种解析数据的方法:
如:BeautifulSoup解析处理
:pyQuery解析处理;
:XPath解析处理;
第四步:
保存数据;
我们在保存的过程中可以把这些数据保存到数据库里面,或者保存到特定的格式的文件夹中;
还有一点就是我们在抓取页面数据的时候会出现一个这样的问题:
那就是抓取的页面的数据和浏览器看到的不一样;
那么是什么的情况呢?
原因是很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同;