爬虫
williamgavin
这个作者很懒,什么都没留下…
展开
-
信息标记
信息标记和信息同等重要, 知道信息是怎么标记的对处理信息有着莫大的好处。原创 2017-07-24 10:49:51 · 993 阅读 · 0 评论 -
html学习笔记(一)
基本标签<html><body><h>系列<p><img><a><table> <hr \>html对标签的大小写并不敏感, 但是推荐小写标签标签解释:<html>:<htm> 元素定义了整个 HTML 文档。<body>:<body> 元素定义了 HTML 文档的主体<h>系列标签:用<h>系列标签表示标题,<h1>表示的标题最大, <h6>表示的标题最小;浏览器会自动地原创 2017-08-02 11:44:41 · 418 阅读 · 0 评论 -
正则表达式基础
re – regular expression – regex – re正则表达式是用来简洁表达一组字符串的表达式正则表达式通用的字符串表达框架简洁表达一组字符串的表达式针对字符串表达“简洁”和“特征”思想的工具判断某个字符串特征匹配正则表达式应用表达文本类型特征(病毒、入侵等)同时查找或替换一组字符串匹配字符串的全部或部分正则表达式的使用编译:将符合正则表达式语法的字符串转原创 2017-08-11 19:35:45 · 303 阅读 · 0 评论 -
scrapy框架的安装和初使用
scrapy框架的安装一开始直接用pip install scrapy 安装, 结果如图 然后在群里各种问, 最后群友们推荐anaconda下安装, 关于这个可以参考Anaconda 环境下安装 Scrapy。 总之也是一个辛酸的故事~~~。 安装好了在命令提示符下面输入scrapy, 终于不是“scrapy不是内部或外部命令,也不是可运行的程序或批处理文件。” 这个东西了-^-。scrapy原创 2017-07-27 19:19:10 · 731 阅读 · 0 评论 -
小白学爬虫(三)-- requests库之Cookie
前言使用超时参数在requests添加Cookie参数啥是cookie三种Cookie请求方式第一种:cookie放在headers中第二种:cookie字典传给cookies参数前言上一篇文章介绍了如何用requests模拟浏览器发送一个get/post请求获取response响应,response对象的常见属性方法,以及对返回数据是乱码如何处理。这篇文章...原创 2018-08-04 10:16:18 · 50097 阅读 · 17 评论 -
小白学爬虫(一) -- 基础知识
什么是爬虫爬虫爬到的数据去哪了浏览器的请求urlurl的组成浏览器请求url地址对应的响应是什么呢?初识http与httpshttp协议之请求请求行请求头请求体http协议之响应响应头响应体抓包什么是爬虫爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序模拟客户端(浏览器)发送网络请求的意思就...原创 2018-07-30 23:37:54 · 4089 阅读 · 0 评论 -
小白学爬虫(四)-- 数据提取之json
前言json什么是 JSON ?利用json提取数据什么地方会返回json数据?前言前面两篇文章介绍了如何获取一个响应,但是响应都不是我们直接需要的数据,而是一些html页面或者json字符串。这篇文章主要介绍如何从返回的响应中提取需要的内容。json什么是 JSON ?JSON 指的是 JavaScript 对象表示法(JavaScript Ob...原创 2018-08-04 16:44:30 · 2737 阅读 · 0 评论 -
小白学爬虫(五)-- 数据提取之xpath(lxml)
前言xpath helper插件xpath helper的安装xpath helper基本使用lxmllxml的安装lxml的使用前言在上一篇文章(小白学爬虫(四)– 数据提取之json)介绍了如何使用json来提取数据,其实也就是json.loads()和json.dump()两个方法,另外注意一下json.dump()方法的两个属性(ensu...原创 2018-08-05 13:19:47 · 1426 阅读 · 0 评论 -
小白学爬虫(二)-- requests库初使用
什么是requests库requests库的安装requests库的使用爬取第一个网页获取网页源码的正确打开方式requests的reponse对象常见reponse方法发送一个post请求(headers)什么是requests库Requests库是Python中的一个HTTP网络请求库,用来简化网络请求!requests库的安装如果在...原创 2018-08-01 21:52:04 · 1767 阅读 · 3 评论