爬虫
xxydzyr
愿有岁月可回首,且以深情共白头!@猪头
展开
-
Python学习之爬虫-爬虫的异常处理
Python学习之爬虫-爬虫的异常处理概述:爬虫在运行的过程中,很多时候都会遇到这样或那样的异常,如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,下次再次运行时,又会重头开始,所以我们必须要对爬虫的异常进行处理,使之遇到异常后仍能继续运行下去。常见的状态码即含义:200:成功301:重定向到新的URL,永久性302:重定向到临时的URL,非永久性400:非法请求401:请求未...原创 2019-01-23 20:00:05 · 941 阅读 · 0 评论 -
Python学习之爬虫05-爬虫的浏览器伪装技术实战
Python学习之爬虫05-爬虫的浏览器伪装技术实战概念:报头:每次请求的时候我们都会有一个请求头(登个百度首页都会有好多次请求),也叫报头。它的内容就是这部分:我们先在浏览器页面按F12,一般都是这个键,然后会调出右边部分,接着我们刷新CSDN博客的首页,达到发送请求的目的,点击途中的1/2/3,3就是我们所需要的报头,这个user-agent后面的内容就是报头。原理:每次请求的报头...原创 2019-01-23 20:42:01 · 363 阅读 · 0 评论 -
Python学习之网络爬虫01--网络爬虫的定义
Python学习之网络爬虫01–网络爬虫的定义概念:网络爬虫就是自动从互联网中定向或者不定项地采集信息的一种程序。定向:即聚焦,我们知道从哪个网站中采,具体要采哪些信息,是一个有目的的采集。不定向:类似搜索引擎,没有固定的要求,只是纯粹的想要去搜集。网络爬虫有很多种,常用的有通用网络爬虫、聚焦网络爬虫、深层页面爬虫。通用网络爬虫:我不知道我要爬取什么,记录式的去爬取。聚焦网络爬虫:...原创 2019-01-20 12:13:18 · 390 阅读 · 0 评论 -
Python基础语法:正则表达式
Python基础语法:正则表达式概念:从大量的信息中,通过一些表达式提取我们关注的数据。正则表达式就是其中一种进行数据筛选的表达式。1. 原子:原子是正则表达式中最基本的组成单位,每个正则表达式至少要包含一个原子,常见的原子类型有:普通字符作为原子import re # 要想使用正则表达式,就要导入这个模块,这个模块时系统自带的string="I like Python"pat...原创 2019-01-20 15:56:21 · 521 阅读 · 0 评论 -
Python学习之爬虫02-urllib库学习
Python学习之爬虫02-urllib库学习练习案例:爬取豆瓣阅读的所有出版社#出版社爬取import urllib.requestimport redata=urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")pat='<div class="name"&g...原创 2019-01-20 17:25:18 · 223 阅读 · 1 评论 -
Python学习之爬虫03-自动模拟HTTP请求与百度信息自动搜索
Python学习之爬虫03-自动模拟HTTP请求与百度信息自动搜索基础概念:网页的请求分很多中,其中最常用的是post和get 。get 请求格式:网页链接中 xxx.html?字段名=值&字段名=值实例:爬取百度前5页的标题,搜索内容为 Pythonimport urllib.request # 导包时可以在上一个包后面加问号,再加上另一个包import rekey...原创 2019-01-21 22:27:38 · 2668 阅读 · 2 评论 -
Python学习之爬虫06-CSDN博客文章爬取
Python学习之爬虫06-CSDN博客文章爬取概述:练习总结。(一边爬着CSDN,一边写着CSDN的博客会不会被打…)import urllib.requestimport reurl="https://blog.csdn.net/"headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.3...原创 2019-01-27 11:55:18 · 206 阅读 · 0 评论 -
Python学习之爬虫07-糗事百科段子爬取
Python学习之爬虫07-糗事百科段子爬取概述:巩固练习。#糗事百科段子爬虫import urllib.requestimport reheaders=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari...原创 2019-01-27 12:48:52 · 247 阅读 · 0 评论 -
Python学习之爬虫08-用户代理池构建
Python学习之爬虫08-用户代理池构建概念:用户代理概念:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。详情见百度百科-用户代理理解:这个就是之前使用的浏览器代理…一下换了个名字害的差点没理解过来。用户代理池:将不同的用户代理组建成为一个池子,随...原创 2019-01-27 13:49:24 · 382 阅读 · 0 评论