爬虫初阶
一些爬虫的经验分享
青柠17
这个作者很懒,什么都没留下…
展开
-
爬虫初阶(六)—— Scrapy框架(1)scrapy的基础概念
1. Scrapy框架是什么?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要编写少量的代码,就能够快速的抓取数据,Scrapy 使用了 Twisted异步网络框架,可以加快我们的下载速度。异步与非阻塞异步:调用在发出之后,这个调用就直接返回,不管有无结果。非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当...原创 2019-11-05 16:04:24 · 184 阅读 · 0 评论 -
爬虫初阶(五)—— 动态HTML与selenium
1. 动态HTML什么是动态HTML2. SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。2.1 selenium 安装使用selenium需要安装两部分内...原创 2019-11-05 15:43:42 · 130 阅读 · 0 评论 -
爬虫初阶(一)—— 爬虫概念与HTTP
今天是2019年9月29日,利用国庆假期,在这里整理一下之前所学习的一些爬虫知识,整理成笔记,并分享给大家,希望大家多多指正,共同进步!一、爬虫基础1.爬虫的概念模拟客户端(浏览器)发送请求,获取响应,是一种按照一定规则,自动地抓取互联网信息的程序2.爬虫的分类通用爬虫– 搜索引擎的爬虫,面对整个互联网上所有的网站聚焦爬虫– 针对特定网站的爬虫3.聚焦爬虫的流程Crea...原创 2019-09-29 20:11:21 · 230 阅读 · 0 评论 -
爬虫初阶(二)—— Requests模块基本使用
Requests模块虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。Requests 继承了urllib的所有特性,支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL...原创 2019-09-29 21:26:40 · 127 阅读 · 0 评论 -
爬虫初阶(二)—— Requests模块深入
上一篇文章中介绍了Requests模块的基本使用方法, 这篇文章会进一步来讲Requests模块的使用Requests模块1.发送POST请求1.1 使用POST请求的场景登录注册 (POST比GET更加安全)需要传输大文本内容的时候 (POST请求对数据长度没有要求)1.2 使用方法对于 POST 请求来说,一般需要为它增加一些参数。最基本的传参方法可以利用 data 这个参...原创 2019-09-30 13:50:24 · 140 阅读 · 0 评论 -
爬虫初阶(三)—— 数据处理
1.数据分类在抓取某个网站或者某个应用的内容时,内容一般分为两部分,非结构化的数据和结构化的数据。1.1 非结构化的数据处理文本、电话号码、邮箱地址– 正则表达式HTML 文件– 正则表达式– XPath– CSS选择器1.2 结构化的数据处理JSON 文件– JSON Path– 转化成Python类型进行操作(json类)XML 文件– 转化成Python...原创 2019-09-30 14:49:50 · 453 阅读 · 0 评论 -
爬虫初阶(四)—— 贴吧单线程爬虫案例
在学习了之前的内容后, 可以尝试做一个贴吧爬虫的案例, 要求为:爬取指定贴吧中所有列表页面及详情页面的图片及视频,以下为详细代码import requestsfrom lxml import etreeimport jsonimport refrom urllib import parseclass TiebaSpider: def __init__(self, ti...原创 2019-09-30 15:47:10 · 181 阅读 · 0 评论 -
爬虫初阶(四)—— 百思不得姐多线程爬虫案例
import refrom parse_url import parse_urlimport requestsimport timeimport threadingfrom queue import Queuestart = time.time()class Neihan_Spider(object): def __init__(self): self.u...原创 2019-11-05 10:13:15 · 204 阅读 · 0 评论