自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

XIAOTWOB的博客

今天你向上了吗?

  • 博客(11)
  • 收藏
  • 关注

原创 Pandas的主要模块

转自公众号数据分析1480,作者刘顺祥数据读写pd.read_csv:读取文本文件(csv、tsv、txt等格式)pd.read_excel:读取电子表格(xls或xlsx格式)pd.read_csv:读取数据库数据(需要pymysql或pymssql模块的配合)df.to_csv:写入文本文件(df为DataFrame对象)df.to_csv:写入电子表格df.to_csv:写入数...

2019-09-18 19:23:16 283

原创 数据仓库与联机分析处理

数据仓库与联机分析处理数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。面向主题的(subject-oriented):数据仓库围绕一些重要的主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常...

2019-09-16 23:17:50 1152

原创 数据预处理

摘自数据挖掘-概念与技术数据预处理数据质量:准确性、完整性、一致性、时效性、可信性和可解释性质量基于数据的应用目的评估。方法数据清理:试图填补缺失值,光滑噪声同时识别离群点,并纠正数据的不一致性。通常是一个两步的迭代过程,包括偏差检测和数据变换。如何处理缺失值1.使用一个全局常量来填充缺失值:简单但不是十分可靠2. 使用他属性的中心度量(如均值或中位数)填充缺失值:对于对称的数据...

2019-09-14 23:47:30 400

原创 认识数据

摘自数据挖掘-概念与技术中心趋势度量:均值、中位数和众数截尾均值:丢弃高低极端值后的均值。对于非对称数据,数据中心的更好度量是中位数众数是另一种中心趋势度量。众数是数据集中出现最频繁的值。中列数是最大值与最小值的平均值。评估数据发散程度:极差、四分位数、方差、标准差和四分位数极差极差是最大值与最小值之差;四分位数是指将数据分成均匀四份。四分位数极差(IQR)是Q3-Q1;对倾斜(...

2019-09-13 23:12:04 394

原创 十分钟入门pandas

对象创建通过传入一些值来创建一个Series,pandas会自动创建一个默认的整数索引(从0开始)pd.Series([1,3,5,np.nan,6,8])----------0 1.01 3.02 5.03 NaN4 6.05 8.0dtype: float64通过传递带有日期时间索引和带标签列的NumPy数组来创建DataFra...

2019-09-13 15:38:14 220

原创 数据分析汇总(NumPy篇)

数据分析什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。使用python做数据分析的常用库numpy 基础数值算法scipy 科学计算matplotlib 数据可视化pandas 序列高级函数numpy概述Numerical P...

2019-09-12 14:26:44 1220

原创 pandas简介

转自pandas中文网以下是 pandas 做够胜任的一些事情:在浮点和非浮点数据中轻松处理缺失数据(表示为NaN)。大小可变性:可以从DataFrame和更高维度的对象中插入和删除。自动和显式数据对齐:对象可以明确地与一组标签对齐,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据强大,灵活的**组(group by)**功能,可对数据...

2019-09-12 10:39:25 222

原创 Python语言特性

1、迭代器与生成器&nbsp迭代器是遵循迭代协议的对象,用户可以使用iter()以从任何序列得到迭代器(如list,tuple,dictionary,set等)&nbsp生成器(Generator),只是在需要返回数据的时候使用yield语句。每次next()语句被调用时,生成器会返回它脱离的位置(它会记忆语句最后一次执行的位置和所有的数据值。)生成器能做到迭代器能做的所有事...

2019-09-11 15:33:03 179

原创 numpy、pandas基础补充

三层结构容器层:canvas、figure、axes画板层(canvas):用户接触不到画布层(figure):plt.figure(figsize=(),dpi=) figsize:画布大小 dpi:清晰度plt.savefig('文件名'):以文件名的形式保存一个画布可以包含多个绘图区绘图区(axes):plt.subplots()辅助显示层:图例(legend)、网...

2019-09-10 09:24:07 747

原创 验证码的识别

利用OCR技术识别图形验证码的方法OCR,即Optical Character Recognition,光学字符识别是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesserocr是Python的一个ocr识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tes...

2019-09-01 21:40:00 164

原创 关于Selenium的延时等待

在Selenium中,get()方法会在网页框架加载结束后结束执行。此时如果获得网页源代码,可能并不是浏览器完全加载完成的页面,如果某些页面有额外的Ajax请求,我们在网页源代码中也不一定能成功获取到。所以需要延时等待一定的时间,确保节点已经完全加载出来。这里的等待方式有两种,一种是隐式等待,一种是显式等待。隐式等待当使用隐式等待执行测试的时候,如果Selenium没有在DOM中找到节点将继...

2019-09-01 11:18:34 896

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除