自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 我的python汇总

文章目录1:计算机基本概述2:交互⽅式3:⽂本⽂件和字符集4:Python语⾔的基本概念5:标识符基础知识总结6:字符串基础知识总结7:列表基础知识总结8:元组基础知识总结9:字典基础知识总结10:集合基础知识总结python流程控制基础知识总结文件的读写基础知识总结模块基础知识总结11:正则获取网页练习12:csv13:bs4美丽汤14:正则及举例15:xpath基本操作和Python操作Xpath提取数据16:17:18:...

2021-02-25 10:12:44 389 2

原创 scrapy项目练习1

一:使用默认的图片管道爬取文件spider文件import scrapyclass QczjSpider(scrapy.Spider): name = 'qczj' allowed_domains = ['car.autohome.com'] start_urls = ['https://car.autohome.com.cn/pic/series/4171-10-p1.html'] def parse(self, response): src =

2021-02-25 10:13:37 170

原创 绘图工具plotly用法

文章目录1. 环境准备2. 工具概述3. 开始绘图3.1 数据集3.2 线型图3.3 散点图3.43.5 使用内置iris数据3.6 联合分布图3.7 小提琴图3.8 散点矩阵图3.9 平行坐标图3.10 箱体误差图3.11 等高线图3.12 密度热力图3.13 并行类别图3.14 柱状图3.15 直方图3.16 箱型图3.17 极坐标图散点极坐标图线性极坐标图柱状极坐标图4. 颜色面板5. 主题6. 总结一下1. 环境准备本文的是在如下环境下测试完成的。Python3.7Jupyter noteb

2021-02-22 09:40:44 2049 2

原创 fiddler抓包工具的使用

fiddler抓包工具的使用fiddler抓包工具什么是fiddler?Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯官网 https://www.telerik.com/fiddlerfiddler功能很强大• 支持IE、Chrome、FireFox等等浏览器• 可以在phone、pad等移动设备进行连接fiddler的安装选择安装路径点击InstallSwitchyOmega插件的安装https://www.cnblo

2021-02-22 09:33:09 200

原创 移动端环境搭建

文章目录移动端数据简介移动端爬取数据的背景获取移动端数据的作用?UIAutomator的介绍UIAutomato2的优势UIAutomator2的执行流程adb的简介和u2的基本操作adb的安装与使用adb有什么作用?adb如何使用?UIAutomator2快速入门UIAutomato2启动手机appUIAutomator2自动化工具基本操作weditor的基本操作什么是Activity?Activity的控件weditor的使用weditor的界面包括UiSelector和控件定位定位方式Andrid基本

2021-02-22 09:32:17 625

原创 Scrapy框架进阶Redis

文章目录背景Redis是什么?数据库的发展历史NoSQL和SQL数据库的比较Redis特性Redis有什么用?Redis应用场景Redis怎么用?Redis的五大数据类型以及应用场景Redis的配置文件Redis数据库简单使用redis常用五大数据类型1.redis-string1.set/get/del/append/strlen2.incr/decr/incrby/decrby3.getrange/setrange2.redis-list(单值多value)1.lpush/rpush/lrange2.l

2021-02-22 09:30:45 853

原创 中间件使用代理

中间件使用代理import requestsfrom fake_useragent import UserAgentfrom scrapy import signalsfrom demo6 import settingsclass Demo6SpiderMiddleware(object): def process_request(self, request, spider): # ua = UserAgent().chrome # request.hea

2021-02-22 09:22:04 179

原创 爬虫和反爬虫的斗争

selenium的使用爬虫和反爬虫的斗争爬虫建议• 尽量减少请求次数• 保存获取到的HTML,供查错和重复使用• 关注网站的所有类型的页面• H5页面• APP• 多伪装• 代理IP• 随机请求头• 利用多线程分布式• 在不被发现的情况下我们尽可能的提高速度ajax基本介绍动态了解HTML技术• JS• 是网络上最常用的脚本语言,它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页• jQuery• jQuery是一个快速、简介的Ja

2021-02-22 09:18:39 263

原创 爬虫基本知识

0 爬虫准备工作前提知识urlhttp协议web前端,html, css, jsajaxre, xpathxml测试网站 https://inv-veri.chinatax.gov.cn/1. 爬虫简介爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。两大特征能按作者要求下载数据或者内容能自动在网络上

2021-02-22 09:17:23 732

原创 matplotlib简单用法总结

https://www.cntofu.com/book/172/docs/1.md

2021-02-01 14:16:04 244

原创 Pandas总结

文章目录信息

2021-01-29 23:50:34 638 1

原创 numpy的用法总结

文章目录NumPy - Ndarray 对象数组类型NumPy - 数组属性创建数组索引和切片索引切片高级索引整数索引布尔索引数组操作修改数组形状翻转数组修改数组维度对数组进行广播运算连接数组分割数组数组的添加和删除数组排序函数字符串函数数学函数用法算数函数矩阵空矩阵0矩阵全1矩阵单位矩阵,对角线为1对角阵随机矩阵NumPy - Ndarray 对象NumPy 中定义的最重要的对象是称为 ndarray 的 N 维数组类型。 它一系列相同类型的元素集合。以0下标作为索引的起点用array函数创建即可

2021-01-26 14:51:53 503

原创 正则获取网页练习

常用正则表达式爬取网页信息及分析HTML标签总结- 1.获取<tr></tr>标签之间内容- 2.获取<a href..></a>超链接之间内容- 3.获取URL最后一个参数命名图片或传递参数- 4.爬取网页中所有URL链接- 5.爬取网页标题title两种方法- 6.定位table位置并爬取属性-属性值- 7.过滤<span></span>等标签- 8.获取<script></script>等标

2021-01-14 20:43:55 184

原创 scrapy基础

https://docs.scrapy.org/en/latest/intro/overview.html

2021-01-14 20:43:21 543

原创 bs4美丽汤

bs4简介基本概念Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库源码分析• github下载源码• 安装• pip install lxml• pip install bs4bs4的使用快速开始html_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="t

2021-01-08 20:50:08 440

原创 selenium的使用

文章目录Selenium 介绍Phantomjs快速入门Phantomjs案例1.加载网页2.定位和操作3.查看请求信息4.退出selenium快速入门定位元素控制浏览器操作的一些方法鼠标事件键盘事件多表单切换操作表单元素Cookie操作Selenium页面等待打开多窗口和切换页面调用JavaScript代码Selenium 介绍• selenium是一个web的自动化测试工具,最初是为网站自动化测试而开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载

2021-01-08 20:37:54 414

原创 模块基础知识总结

文章目录1. 模块2. 模块的创建模块的使用1. 模块• 模块化指将一个完整的程序分解成一个个的小模块• 通过将模块组合,来搭建出一个完整的程序• 模块化的有点• 方便开发• 方便维护• 模块可以复用2. 模块的创建• 在Python当中一个py文件就是一个模块• 在一个模块中引入外部模块 import 模块名(模块名就是py文件)• 可以引入同一个模块多次,但是模块的实例只会创建一次• import 模块名 as 模块别名• 在一个模块内部都有一个__name__。通过它我们可以

2020-12-07 21:20:32 300

原创 正则及举例

正则表达式的简介概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑正则表达式的应用场景• 表单验证(例如 : 手机号、邮箱、身份证… )• 爬虫正则表达式对Python的支持普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号,都是"普通字符"。正则表达式中的普通字符,在匹配的时候,只匹配与自身相同的一个字符。例如:表达式c,在匹配字符串abcde时,匹配结果是:

2020-12-07 21:19:59 561

原创 xpath基本操作和Python操作Xpath提取数据

Python操作Xpathlxml库lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML数据我们可以利用xpath语法来快速的定位特定元素以及节点信息安装lxmlpip install lxmlfrom lxml import etreefrom lxml import etreehtml = '''fffffff'''html = etree.HTML(html) #利用etree.THML将字符串转换为HTMLres = html.xpath(

2020-12-07 21:18:05 790

原创 MongoDB简介和基本使用方式

MongoDB简介MongoDB是⼀个基于分布式⽂件存储的nosql数据库。在处理⼤数据的时候会 ⽐MySQL更有优势。爬⾍的数据如果上了⼀个量级,可能⽤MongoDB会⽐ MySQL更好MongoDB的优势(1)⽆数据结构限制没有表结构的概念,每条记录可以有完全不同的结构业务开发⽅便快捷(2)⼤数据量和⾼性能nosql数据库都具有⾮常⾼的读写性能,尤其在⼤数量下表现优秀(3良好的⽀持完善的⽂档⻬全的驱动⽀持MongoDB在Windows中安装⽹址:https:/

2020-12-07 21:17:21 332

原创 面向对象基本知识点总结和举例

文章目录1. 面向对象简介面向过程面向对象2. 类(class)3. 类的定义4. 参数self2. 封装1. 继承简介2. 方法重写3. super()4. 多重继承5. 多态6. 属性和方法属性方法1. 面向对象简介Python是一门面向对象的编程语言所谓面向对象的语言,简单理解就是语言中的所有操作都是通过对象来进行的面向过程面向过程指将我们的程序分解为一个一个步骤,通过对每个步骤的抽象来完成程序这种编写方式往往只适用于一个功能,如果要实现别的功能,往往复用性比较低这种编程方式符号人

2020-12-07 21:16:26 724

原创 异常介绍和使用方式

文章目录异常简介异常的传播异常对象异常简介• 程序在运行过程中可能会出现一些错误。比如: 使用了不存在的索引,两个不同类型的数据相加…这些错误我们称之为异常• 处理异常 程序运行时出现异常,目的并不是让我们的程序直接终止!Python是希望在出现异常时,我们可以编写代码来对异常进行处理异常的传播• 当在函数中出现异常时,如果在函数中对异常进行了处理,则异常不会在进行传播。如果函数中没有对异常进行处理,则异常会继续向函数调用传播。如果函数调用处处理了异常,则不再传播异常,如果没有处理则继续向调用处传

2020-12-07 21:15:15 155

原创 高级编程,生成器

文章目录推导式列表推导式生成器(genexpr)背景创建生成器的方式通过列表推导式的方式通过函数的方式迭代器(Iterate)推导式推导式分为 列表推导式、字典推导式、集合推导式等。在这里我们主要说其中一种也是用的最多列表推导式列表推导式列表推导式是Python构建列表(list)的一种快捷方式,可以使用简洁的代码就创建出一个列表简单理解就是由一个旧的列表来构建出一个新的列表语法[表达式 for 变量 in 旧列表][表达式 for 变量 in 旧列表 if 条件]生成器(genexpr)

2020-12-07 21:13:36 297

原创 函数基础知识点总结大全

文章目录函数上1. 函数简介2. 函数的参数2.1 形参和实参2.2 函数的传递方式3可变参数位置参数、默认参数、可变参数的混合使用函数中1. 函数的返回值2. 文档字符串3. 函数的作用域全局作用域函数作用域global用法4. 命名空间5. 递归函数函数下1. 高阶函数嵌套函数2. 闭包3. 装饰器的引入4. 装饰器的使用函数上1. 函数简介函数也是一个对象函数用来保存一些可执行的代码,并且可以在需要时,对这些语句进行多次调用语法def 函数名([形参1,形参2,形参3....]):

2020-12-07 21:12:53 3557

原创 文件的读写基础知识总结

文章目录文件打开关闭文件读取文件较大文件的读取文件的写入二进制文件写入删除目录json把文件以json格式储存打开json格式的文件文件打开读…r:以只读模式打开文件,文件的指针将会放在文件的开头rb以二进制格式打开文件,并且采用只读模式。文件的指针将会放在文件的开头,一般用于非文本文件,如图片、声音等r+打开文件后,可以读取文件内容,也可以写入新的内容覆盖原有内容(从文件开头进行覆盖)写–w以只写模式打开文件wb以二进制格式打开文件,并且采

2020-12-07 21:12:04 401

原创 python流程控制基础知识总结

文章目录条件判断if语句if-else语句if-elif-else 语句循环控制while语句break和continuefor循环遍历循环嵌套循环嵌套条件判断if语句• 执行的流程:• if语句在执行时,会先对条件表达式进行求值判断,• 如果为True,则执行if后的语句• 如果为False,则不执行• 语法:if 条件表达式 :代码块• 代码块代码块中保存着一组代码,同一个代码块中的代码,要么都执行要么都不执行• 代码块以缩进开始,直到代码恢复到之前的缩进级别时结束• 代码块就是一

2020-12-07 21:11:12 520

原创 集合基础知识总结

集合集合-set集合是高中数学中的一个概念一堆确定的无序的唯一的数据,集合中每一个数据成为一个元素集合的特征集合内数据无序,即无法使用索引和分片集合内部数据元素具有唯一性,可以用来排除重复数据,说明:由于Python中的set集合是无序的,所以每次输出时元素的排列顺序可能都不相同。集合内的数据,str, int, float, tuple,冰冻集合等,即内部只能放置可哈希数据集合表现形式set 集合和列表⾮常相似不同点集合只能存储不可变对象集合中存储的对象是⽆序的集合不

2020-10-27 23:48:14 259

原创 字典基础知识总结

字典字典的基本介绍字典属于⼀种新的数据结构称为映射(mapping)字典的作⽤和列表类似,都是⽤来存储对象的容器列表存储数据的性能好,但是查询数据的性能差,字典正好与之相反在字典中每⼀个元素都有唯⼀的名字,通过这个唯⼀的名字可以找到指定的元素这个唯⼀的名字我们称之为key 通过key可以快速查询value 也可以称之为值字典我们也称之为键值对(key-value)结构每个字典中都可以有多个键值对,⽽每⼀个键值对我们称其为⼀项(item)创建⼀个有数据的字典 语法 {key:value}

2020-10-27 23:19:23 1155

原创 元组基础知识总结

元组是序列表,有序元组数据值可以访问,不能修改,不能修改,不能修改元组数据可以是任意类型总之,list所有特性,除了可修改外,元组都具有也就意味着,list具有的一些操作,比如索引,分片,序列相加,相乘,成员资格操作等,一模一样可以超标元组不是空元组⾄少有⼀个 逗号(,) 当元组不是空元组时括号可以省略`#元组使用一对小括号将所有的元素括起来,但是小括号并不是必须的,# 只要将一组值用逗号分隔开来,Python就可以视其为元组a = "渔舟唱晚","高山流水","出水莲","汉宫秋

2020-10-27 22:22:59 1442

原创 列表基础知识总结

列表(list)列表的使⽤列表的创建:通过[]来创建⼀个空列表切⽚切⽚是指从现有列表中获得⼀个⼦列表通过切⽚来获取指定的元素语法: 列表[起始 : 结束 : 步⻓]通过切⽚获取元素时,会包括起始位置的元素,不会包括结束位置的元素– 起始位置和结束位置的索引可以不写– 如果省略结束位置, 则会从当前的开始位置⼀直截取到最后– 如果省略开始位置, 则会从第⼀个元素截取到结束的元素,但是不包括结束的元素– 如果开始位置和结束位置都省略, 则则会从第⼀个元素开始截取到最后⼀个元素步⻓表示

2020-10-27 22:04:06 432

原创 字符串基础知识总结

字符串什么是字符串字符串是由数字、字⺟、下划线组成的⼀串字符注意:单引号和双引号不能混合使⽤Python中⽤⼀对双引号或者⼀对单引号包裹的内容就是字符串转义字符转义字符是⼀种特殊的字符常量。转义字符以反斜线""开头,后跟⼀个或⼏个字符。转义字符具有特定的含义,不同于字符原有的意义,故称“转义”字符\t 表示制表符\n 表示换⾏符\ 表示反斜杠’ 表示 ’⻓字符串⻓字符串 ⼜叫做⽂档字符串 我们使⽤三重引号来表示⼀个⻓字符串’’’ ‘’’三重引号可以换⾏,并且会保留字符串中的格

2020-10-27 20:46:19 1315

原创 标识符基础知识总结

标识符关键字python⼀些具有特殊功能的标识符,这就是所谓的关键字关键字,是python已经使⽤的了,所以不允许开发者⾃⼰定义和关键字相同的名字的标识符标识符概念开发⼈员在程序中⾃定义的⼀些符号和名称。标识符是⾃⼰定义的,如变量名、函数名等组成:由26个英⽂字⺟⼤⼩写,数字 0-9 符号 _$标识符的规则:1.标识符中可以包含字⺟、数字、_,但是不能使⽤数字开头 例如:name1 name_1 _name1 1name(不⾏)2.Python中不能使⽤关键字和保留字来作为标识符命名

2020-10-27 20:15:07 497

原创 Python语⾔的基本概念

Python语⾔的基本概念Python 是⼀种极少数能兼具 简单 与 功能强⼤ 的编程语⾔。你将惊异于发现你正在使⽤的这⻔编程语⾔是如此简单,它专注于如何解决问题,⽽⾮拘泥于语法与结构官⽅对 Python 的介绍如下:Python 是⼀款易于学习且功能强⼤的编程语⾔。 它具有⾼效率的数据结构,能够简单⼜有效地实现⾯向对象编程。Python 简洁的语法与动态输⼊之特性,加之其解释性语⾔的本质,使得它成为⼀种在多种领域与绝⼤多数平台都能进⾏脚本编写与应⽤快速开发⼯作的理想语⾔Python 的创造者吉

2020-10-26 23:39:25 159

原创 ⽂本⽂件和字符集

⽂本⽂件和字符集⽂本⽂件⽂本分为两种 : ⼀种 纯⽂本 ⼀种 富⽂本纯⽂本只能保存单⼀的⽂本内容,⽆法保存内容⽆关的东⻄(例如 txt⽂本⽂档)富⽂本可以保存⽂本以外的东⻄(例如 有道笔记)纯⽂本在计算机底层也会转换为⼆进制保存将字符转换为⼆进制码的过程,我们称之为编码 encode()将⼆进制码转换成字符的过程,我们称之为解码 decode()常⻅的字符集ASCII 美国⼈编码使⽤7位来对美国常⽤的字符进⾏编码包含128个字符ISO-8859-1 欧洲的编码 使⽤8位来编码 包含25

2020-10-26 23:31:21 268

原创 交互⽅式

交互⽅式交互⽅式的种类1:命令⾏的交互⽅式 (Text-based User Interface) TUI2:图形界⾯化的交互⽅式 Graphical User Interfac) GUI⽂本交互模式打开的⽅式(win):win键 + R --> CMD --> 回⻋命令⾏结构Microsoft Windows[版本 6.1.7601] —> 版本版权所有© 2009 Microsoft Corporation。保留所有权利 —> 版权声明C:\User\Admi

2020-10-26 23:15:37 106

原创 计算机基本概述

计算机基本概述1. 计算机基本概念1.1 计算机是什么计算机(computer)俗称电脑,是现代⼀种⽤于⾼速计算的电⼦计算机器特点 : 数值计算 逻辑计算 存储记忆功能总结 : 能够按照程序运⾏、⾃动、⾼速处理数据的现代化智能电⼦设备1.2 计算机的组成?硬件:⿏标 键盘 显示器 CPU 硬盘… 看的⻅摸的着软件:PyCharm QQ 浏览器 英雄联盟… 看不⻅摸不着2. 计算机语⾔概述2.1 计算机语⾔的基本概念概念 :计算机语⾔(Computer Language)指⽤于⼈与计

2020-10-26 22:50:54 174

原创 开始纪念一下

简单介绍,大家好,我叫小云云,自己写代码敲代码也有一段时间了,从小白一步步走向大白,人生苦短,我用python,之前学过一段时间的java语言,每天挑灯夜战,为共产主义伟大事业奋斗,痛并快乐着,但是有一天。。。蓦然回首,python在那灯火阑珊处向我招手,可以说一见钟情,她很简单,对我很友好,很少发脾气,(其实有时候我也很苦恼)最终一发不可收拾,深深的爱上了她,突然有了初恋的感觉,想和她白头到老(到底什么感觉,鄙人也没有体会过,应该就是这种感觉,哈哈),其实前进的道路中也遇到很多问题,突然有一天遇到了csd

2020-10-26 22:37:30 115

爬虫基本知识总结.md

爬虫部分,# 0 爬虫准备工作 - 参考资料 - python网络数据采集, 图灵工业出版 - 精通Python爬虫框架Scrapy, 人民邮电出版社 - [Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983) - [Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) - 前提知识 - url - http协议 - web前端,html, css, js - ajax - re, xpath - xml

2020-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除