小白学python爬虫
记录学爬虫过程
williamgavin
这个作者很懒,什么都没留下…
展开
-
小白学爬虫(五)-- 数据提取之xpath(lxml)
前言xpath helper插件xpath helper的安装xpath helper基本使用lxmllxml的安装lxml的使用前言在上一篇文章(小白学爬虫(四)– 数据提取之json)介绍了如何使用json来提取数据,其实也就是json.loads()和json.dump()两个方法,另外注意一下json.dump()方法的两个属性(ensu...原创 2018-08-05 13:19:47 · 1405 阅读 · 0 评论 -
小白学爬虫(四)-- 数据提取之json
前言json什么是 JSON ?利用json提取数据什么地方会返回json数据?前言前面两篇文章介绍了如何获取一个响应,但是响应都不是我们直接需要的数据,而是一些html页面或者json字符串。这篇文章主要介绍如何从返回的响应中提取需要的内容。json什么是 JSON ?JSON 指的是 JavaScript 对象表示法(JavaScript Ob...原创 2018-08-04 16:44:30 · 2713 阅读 · 0 评论 -
小白学爬虫(三)-- requests库之Cookie
前言使用超时参数在requests添加Cookie参数啥是cookie三种Cookie请求方式第一种:cookie放在headers中第二种:cookie字典传给cookies参数前言上一篇文章介绍了如何用requests模拟浏览器发送一个get/post请求获取response响应,response对象的常见属性方法,以及对返回数据是乱码如何处理。这篇文章...原创 2018-08-04 10:16:18 · 49978 阅读 · 17 评论 -
小白学爬虫(二)-- requests库初使用
什么是requests库requests库的安装requests库的使用爬取第一个网页获取网页源码的正确打开方式requests的reponse对象常见reponse方法发送一个post请求(headers)什么是requests库Requests库是Python中的一个HTTP网络请求库,用来简化网络请求!requests库的安装如果在...原创 2018-08-01 21:52:04 · 1746 阅读 · 3 评论 -
小白学爬虫(一) -- 基础知识
什么是爬虫爬虫爬到的数据去哪了浏览器的请求urlurl的组成浏览器请求url地址对应的响应是什么呢?初识http与httpshttp协议之请求请求行请求头请求体http协议之响应响应头响应体抓包什么是爬虫爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序模拟客户端(浏览器)发送网络请求的意思就...原创 2018-07-30 23:37:54 · 4073 阅读 · 0 评论