数学库之numpy+pandas+scipy
数学库之numpy+pandas+scipy
WoLykos
这个作者很懒,什么都没留下…
展开
-
数据分析——Matplotlib图形绘制
创建画布或子图函数名称函数作用plt.figure创建一个空白画布,可以指定画布大小,像素。figure.add_subplot创建并选中子图,可以指定子图的行数,列数,与选中图片编号。绘制图形函数名称函数作用plt.title在当前图形中添加标题,可以指定标...原创 2018-08-04 09:50:00 · 188 阅读 · 0 评论 -
Python之Numpy的基础及进阶函数(图文)
一样,咱的计算机还是得先拥有Python,并且安装了Numpy库。有疑问的话可以看这里呦~~~~下面开讲: NumPy的主要对象是齐次多维数组。它是一个元素表(通常是数字),并且都是相同类型,由正整数的元组索引。 其他暂且略过,咱主要说一些可以听懂的并且有实际效用的。 首先,我们得创建有一个ndarry对象,简单地介绍其中三种方法吧: a=np.a...原创 2018-03-20 21:30:00 · 93 阅读 · 0 评论 -
Numpy库的下载及安装(吐血总结)
Python很火,我也下了个来耍耍一阵子。可是渐渐地,我已经不满足于它的基本库了,我把目光转到了Numpy~~~~~ 然而想法总是比现实容易,因为我之前下的是Python3.3.x,所有没有自带pip!!!(这里得插一句:很多人以为Python都是自带pip的,之前的我也是(掩脸笑),印象中是Python2.7.x以上和Python3.4.x以上版本才自带的,我刚好飘过!!!)以至于后来...原创 2018-03-19 22:27:00 · 2062 阅读 · 0 评论 -
Python之Numpy的基础及进阶函数(图文)
一样,咱的计算机还是得先拥有Python,并且安装了Numpy库。有疑问的话可以看这里呦~~~~下面开讲: NumPy的主要对象是齐次多维数组。它是一个元素表(通常是数字),并且都是相同类型,由正整数的元组索引。 其他暂且略过,咱主要说一些可以听懂的并且有实际效用的。 首先,我们得创建有一个ndarry对象,简单地介绍其中三种方法吧: a=np.a...原创 2018-04-21 20:52:03 · 344 阅读 · 0 评论 -
Numpy库的下载及安装(吐血总结)
Python很火,我也下了个来耍耍一阵子。可是渐渐地,我已经不满足于它的基本库了,我把目光转到了Numpy~~~~~ 然而想法总是比现实容易,因为我之前下的是Python3.3.x,所有没有自带pip!!!(这里得插一句:很多人以为Python都是自带pip的,之前的我也是(掩脸笑),印象中是Python2.7.x以上和Python3.4.x以上版本才自带的,我刚好飘过!!!)以至于后来...原创 2018-03-24 21:23:23 · 115576 阅读 · 61 评论 -
数据分析处理——透析表和交叉表
1透视表 数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。 之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。 数据分析中的透析表十分强大,甚至可以说是相当于分组聚合外加哑变量三个步骤了。但有个前提就是:在使用透析表之前,你必须明确知道...原创 2018-08-04 09:25:00 · 1128 阅读 · 0 评论 -
数据处理——数据变换
1哑变量处理 也叫独热编码,英文:One-hot Encoding。可将任意离散型数据变为0-1数值。import pandas as pddf = pd.DataFrame({'性别':['男','女','男'], '学历':['本科','硕士','本科'], '民族':['汉族','仫佬族','维吾尔族...原创 2018-07-30 20:39:00 · 235 阅读 · 0 评论 -
数据处理——数据合并
# 一样,数据处理就先给导入pandas先import pandas as pd# df1==df2df1 = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None,66,56,80,57], ...原创 2018-07-28 15:42:00 · 406 阅读 · 0 评论 -
数据处理——时间数据处理
时间类型数据的转换(字符串转为时间)pd.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix')arg:表示想要转换...原创 2018-07-28 09:35:00 · 324 阅读 · 0 评论 -
数据处理——异常值检测
一、3σ原则 3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。 正态分布状况下,数值分布表:数值分布 在数据中的占比 (μ-σ,μ+σ) 0.6827 (μ-2σ,μ+2σ) 0.9545 (μ-3σ,μ+3σ) 0...原创 2018-07-28 09:15:00 · 2437 阅读 · 1 评论 -
数据处理——缺失值处理
数据导入可见:《Python之Pandas知识点》此文图方便,就直接输入数据了。import pandas as pddf = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None,66,56,80,57], ...原创 2018-07-28 08:54:00 · 287 阅读 · 0 评论 -
数据分析——数据校验
很多时候在数据分析之前,我们需要对样本进行校验,以确定样本的价值。 先写入数据:import pandas as pdimport numpy as npdf = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90], '二班':[75,98,100,None,77,45,None...原创 2018-07-25 22:31:00 · 818 阅读 · 0 评论 -
Python之Pandas知识点
很多人都分不清Numpy,Scipy,pandas三个库的区别。在这里简单分别一下:NumPy:数学计算库,以矩阵为基础的数学计算模块,包括基本的四则运行,方程式以及其他方面的计算什么的,纯数学; SciPy :科学计算库,有一些高阶抽象和物理模型,在NumPy基础上,封装了一层,没有那么纯数学,提供方法直接计算结果; 比如: 做个傅立叶变换,这是纯数学的,用Numpy; 做个滤...原创 2018-07-22 11:49:00 · 198 阅读 · 0 评论 -
Python 数据分析基础小结
一、数据读取1、读写数据库数据读取函数:pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, columns=None) pandas.read_sql_query(sql, con, index_col=None, coerce_float=True) pand...原创 2018-09-04 10:22:00 · 523 阅读 · 0 评论 -
WOE和IV
woe全称是“Weight of Evidence”,即证据权重,是对原始自变量的一种编码形式。进行WOE编码前,需要先把这个变量进行分组处理(离散化) 其中,pyi是这个组中响应客户(即模型中预测变量取值为“是”或1的个体,也叫坏样本)占所有样本中所有响应客户的比例,pni是这个组中未响应客户(也叫好样本)占样本中所有未响应客户的比例; #yi是这个组中响应客户的数量,#ni...原创 2018-09-04 15:35:00 · 199 阅读 · 0 评论