![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
xxydzyr
愿有岁月可回首,且以深情共白头!@猪头
展开
-
Python基础语法
Python基础语法 # #表示单行注释 #print("Hello Python!") """ 三个引号括起来的部分表示多行注释,引号可以单引号或者双引号 print("Hello Python!") print("Hello Python!") print("Hello Python!") print("Hello Python!") """原创 2019-01-17 21:06:52 · 268 阅读 · 0 评论 -
Python学习之爬虫07-糗事百科段子爬取
Python学习之爬虫07-糗事百科段子爬取 概述: 巩固练习。 #糗事百科段子爬虫 import urllib.request import re headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari...原创 2019-01-27 12:48:52 · 228 阅读 · 0 评论 -
Python学习之爬虫06-CSDN博客文章爬取
Python学习之爬虫06-CSDN博客文章爬取 概述: 练习总结。(一边爬着CSDN,一边写着CSDN的博客会不会被打…) import urllib.request import re url="https://blog.csdn.net/" headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.3...原创 2019-01-27 11:55:18 · 191 阅读 · 0 评论 -
Python学习之爬虫03-自动模拟HTTP请求与百度信息自动搜索
Python学习之爬虫03-自动模拟HTTP请求与百度信息自动搜索 基础概念: 网页的请求分很多中,其中最常用的是post和get 。 get 请求 格式:网页链接中 xxx.html?字段名=值&字段名=值 实例:爬取百度前5页的标题,搜索内容为 Python import urllib.request # 导包时可以在上一个包后面加问号,再加上另一个包 import re key...原创 2019-01-21 22:27:38 · 2636 阅读 · 2 评论 -
Python学习之爬虫02-urllib库学习
Python学习之爬虫02-urllib库学习 练习案例: 爬取豆瓣阅读的所有出版社 #出版社爬取 import urllib.request import re data=urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8") pat='<div class="name"&g...原创 2019-01-20 17:25:18 · 198 阅读 · 1 评论 -
Python基础语法:正则表达式
Python基础语法:正则表达式 概念: 从大量的信息中,通过一些表达式提取我们关注的数据。正则表达式就是其中一种进行数据筛选的表达式。 1. 原子: 原子是正则表达式中最基本的组成单位,每个正则表达式至少要包含一个原子,常见的原子类型有: 普通字符作为原子 import re # 要想使用正则表达式,就要导入这个模块,这个模块时系统自带的 string="I like Python" pat...原创 2019-01-20 15:56:21 · 491 阅读 · 0 评论 -
Python学习之网络爬虫01--网络爬虫的定义
Python学习之网络爬虫01–网络爬虫的定义 概念: 网络爬虫就是自动从互联网中定向或者不定项地采集信息的一种程序。 定向:即聚焦,我们知道从哪个网站中采,具体要采哪些信息,是一个有目的的采集。 不定向:类似搜索引擎,没有固定的要求,只是纯粹的想要去搜集。 网络爬虫有很多种,常用的有通用网络爬虫、聚焦网络爬虫、深层页面爬虫。 通用网络爬虫:我不知道我要爬取什么,记录式的去爬取。 聚焦网络爬虫:...原创 2019-01-20 12:13:18 · 359 阅读 · 0 评论 -
Python学习之爬虫05-爬虫的浏览器伪装技术实战
Python学习之爬虫05-爬虫的浏览器伪装技术实战 概念: 报头:每次请求的时候我们都会有一个请求头(登个百度首页都会有好多次请求),也叫报头。它的内容就是这部分: 我们先在浏览器页面按F12,一般都是这个键,然后会调出右边部分,接着我们刷新CSDN博客的首页,达到发送请求的目的,点击途中的1/2/3,3就是我们所需要的报头,这个user-agent后面的内容就是报头。 原理: 每次请求的报头...原创 2019-01-23 20:42:01 · 345 阅读 · 0 评论 -
Python学习之爬虫-爬虫的异常处理
Python学习之爬虫-爬虫的异常处理 概述: 爬虫在运行的过程中,很多时候都会遇到这样或那样的异常,如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,下次再次运行时,又会重头开始,所以我们必须要对爬虫的异常进行处理,使之遇到异常后仍能继续运行下去。 常见的状态码即含义: 200:成功 301:重定向到新的URL,永久性 302:重定向到临时的URL,非永久性 400:非法请求 401:请求未...原创 2019-01-23 20:00:05 · 911 阅读 · 0 评论 -
Python基础语法:类和对象
Python基础语法:类和对象 #类和对象 ''' 创建一个类 class 类名: 类里面的内容 ''' class cl1: pass ''' 实例化一个类: a=cl1() ''' #构造函数(构造方法) #self:在类中的方法必须加上self参数 #__init__(self,参数) #构造函数实际意义:初始化 class cl2: def __init__(se...原创 2019-01-17 21:13:26 · 152 阅读 · 0 评论 -
Python基础操作:文件操作
Python基础操作:文件操作 #文件的操作 #打开 #open(文件地址,操作形式) ''' w:写入 r:读取 b:二进制 a:追加 ''' fh=open("G:\Python_Test\01_file_test/file_read_01.txt","r",encoding="utf-8") #文件读取 data=fh.read() # d读取所有数据 line=fh.readline()...原创 2019-01-17 21:12:14 · 110 阅读 · 0 评论 -
Python学习之爬虫08-用户代理池构建
Python学习之爬虫08-用户代理池构建 概念: 用户代理概念:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 详情见百度百科-用户代理 理解:这个就是之前使用的浏览器代理…一下换了个名字害的差点没理解过来。 用户代理池:将不同的用户代理组建成为一个池子,随...原创 2019-01-27 13:49:24 · 346 阅读 · 0 评论