杨核桃Alvin-CSDN博客

原创置信区间

95%置信区间（Confidence Interval,CI）：当给出某个估计值的95%置信区间为【a,b】时，可以理解为我们有95%的信心（Confidence）可以说样本的平均值介于a到b之间，而发生错误的概率为5%。有时也会说90%，99%的置信区间，具体含义可参考95%置信区间。置信区间具体计算方式为:(1)知道样本均值(M)和标准差(ST)时：置信区间下限：a=M - n*ST;

2017-03-06 17:27:00 3937

原创数据预处理

数据清洗缺失值处理：拉格朗日插值法（当插值节点增加或删除时插值多项式也会变化）#拉格朗日插值代码import pandas as pd #导入数据分析库Pandasfrom scipy.interpolate import lagrange #导入拉格朗日插值函数inputfile = 'C:/Users/ecaoyng/Desktop/work space/DataMining/shizh

2017-03-02 12:38:09 1907

原创数据质量与特征分析笔记

脏数据：缺失值异常值不一致值重复数据以及特殊符号异常值分析：简单统计量分析3倍标准差原则如果数据服从正态分布，在3标准差原则的情况下，异常值被定义为超过三倍标准差的例如#-*- coding: utf-8 -*-import pandas as pdcatering_sale = '../data/catering_sale.xls' #餐饮数据data = pd.read

2017-02-28 20:29:21 2666

方差标准差变异系数度量标准差相对于均值的离中趋势标准分标准分提供了一种对不同数据集的数据进行比较的方法，这些数据来自于不同数据源的均值和方差都不一样，通过标准分，可以将这些数据视为来自同一个数据集或者分布，从而可以进行比较。标准分的作用是将几个数据集转换为一个理论上的新分布，这个分布的均值是0，标准差是1距离均值若干个标准差有时会说距离均值若干个标准差来表示特定数值的相对位置。z分（标准分）将数据集

2017-02-24 17:13:53 981

原创数据化运营（一）-概念

销售业绩是追踪出来的,尽量图表化常用工具Excel， SPSS ， SAS， R， python， Matlab游戏：车牌号24点销售层级店长，销售主管，城市经理同比与环比同比，就是跟去年同期比；环比，就是跟上一个周期比。例如，去年3月的价格指数是100，今年3月的价格指数是105，那么今年3月价格同比增长5%。例如，今年2月的价格指数是105，今年3月的价格指数是105，那么今年3月价格环比增长为

2017-02-04 14:42:50 5974

原创数据挖掘-概念

数据挖掘基本概念

2017-01-21 17:38:42 3882

原创数据挖掘 - 回归

回归分为线性回归与逻辑回归。基本概念R方：决定系数，反应因变量的全部变异能通过回归关系被自变量解释的比例。如销售额=a+b*广告费用。R方为70%，表示销售额的70%的表动可由广告费用的变动解释。R平方值=回归平方和(ssreg)/总平方和(sstotal)。总平方和：Const参数为True的情况下，总平方和=y的实际值与平均值的平方差之和；Const参数为False的情况下，总平方和=y的实际值

2017-01-20 21:24:05 620

原创 python/pandas数据分析（十六）- 数据索引与选取

我们对 DataFrame 进行选择，大抵从这三个层次考虑：行列、区域、单元格。其对应使用的方法如下：一. 行，列 –> df[] 二. 区域 –> df.loc[], df.iloc[], df.ix[] 三. 单元格 –> df.at[], df.iat[]df[]: 一维行维度：整数切片、标签切片、<布尔数组> 列维度：标签索引、标签列表、Callabled

2017-01-10 10:37:55 4957

原创 python爬虫（一）-基础篇

python 爬虫

2017-01-10 10:32:28 515

原创 python/pandas数据分析（十五）-聚合与分组运算实例

填充值

2017-01-09 15:01:07 2185

原创 python/pandas数据挖掘（十四）-groupby,聚合，分组级运算

groupby,聚合，分组级运算，python 数据分析

2017-01-09 14:23:39 209454 8

原创 python数据分析（十四）-matplotlib 绘图与可视化

尽管pandas的绘图函数可以处理很多普通的绘图任务，但是要使用高级功能的话需要学习matplotlib API。 matplotlib 的图像都位于Figure中，你可以用plt.figure创建一个新的Figureimport matplotlib.pyplot as plt#打开绘图功能%pylabfig=plt.figure() #创建一个新的Figure,会弹出一个空窗口。#plt

2017-01-06 20:57:35 5906

原创 Python/Pandas（十四）-字符串与正则

regex String Python

2017-01-06 20:12:26 11898

原创 python/pandas数据分析（十三）-数据清理、转换、合并，重塑

合并数据结构pandas.merge 根据一个或多个键将不同DataFrame中的行连接起来。pandas.concat 沿着一条轴将多个对象堆叠起来具体可以参考之前专门讲数据合并的章节索引上的合并有时，DF中的链接键位于其索引中。left_index=True or right_index=True(or 两个都传入)以说明索引应该被用作链接键left1=pd.DataFrame({'key':l

2017-01-01 17:36:40 14111

原创 pyhon/numpy/pandas(十二)-xml

pandas - xml

2017-01-01 13:56:44 3257

原创 python/pandas/numpy（十二）数据加载、存储与文件格式

基本命令pd.read_csv('1.txt')只想读几行文本文件pd.read_csv('1.txt', nrow=5)要逐块读取文件，需要设置chunksize（行数）chunker=pd.read_csv('1.txt',chunksize=1000)写出到文本文件(以逗号分隔的文件)data.to_csv('1.txt')当然可以使用其他分隔符data.to_csv('1.txt', sep

2016-12-29 16:27:18 2492

原创 python2与python3区别汇总

python3 和python2 的区别

2016-12-29 11:14:58 436

原创方差与标准差

最浅显易懂的协方差与标准差 https://www.zhihu.com/question/20852004

2016-12-29 10:36:00 1395

原创 python/pandas/Numpy数据分析-统计描述，唯一值，值计数

pandas 对象拥有一组常用的数学和统计方法，大部分属于简约统计，用于从Series中提取一个值，或者从DataFrame中提取一列或者一行Series注意：与NumPy数组相比，这些函数都是基于没有缺失数据的建设构建的，也就是说：这些函数会自动忽略缺失值。count 非 NA 值的数量describe 针对 Series 或 DF 的列计算汇总统计min , max 最小值和最

2016-12-29 10:23:51 12711

原创 python/pandas/numpy数据分析（十）-函数, rank,重复索引

DataFrame的apply方法，将函数应用到行或者列形成的一维数组上.frame=pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['Utha','Ohio','Texas','Oregon'])frame . b d e Utha -0.683356 -0.577942 -0.022012

2016-12-28 15:02:34 16223 1

原创 python/pandas/numpy数据分析(十一)-相关系数与协方差

axis=0和1分别的表格的纵轴和横轴

2016-12-27 17:20:38 25875

原创 python数据分析（九）-点积与线性代数

参考网址：http://www.cnblogs.com/begtostudy/archive/2010/08/03/1790935.htmlb=np.arange(15)print(b)[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14]b.reshape(3,5)Out[32]:array([[ 0, 1, 2, 3, 4], [

2016-12-27 13:28:58 587

原创回归，将要继续更新博文

前一两个月一直在出差，没有时间更新博客，现正式回归，还是喜欢平静的家庭生活，还有两周就要第一次当爸爸了，工作之余也没闲着，看了很多生孩子坐月子的书，愿一切平安！

2016-12-26 21:51:52 437

原创 Python数据分析（八）-xrange,range,arange与np.where

最近在出差，好久没有写了，继续…

2016-12-16 16:41:45 1120

原创 pandas使用笔记

dates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数，索引，列名称。df2=pd.DataFrame({'A':pd.Timestamp('20160728'),'B':pd.Se

2016-11-07 22:05:32 1116

原创 python/pandas/numpy数据分析（七）-MultiIndex

pandas numpy multiIndex python

2016-11-07 20:44:42 11571 1

原创利用python做数据分析（六）-reindex

参考文档：http://pda.readthedocs.io/en/latest/chp5.html http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.htmlDataFrame.reindex(index=None, columns=None, **kwargs) reindex 函数的

2016-11-07 16:50:33 30085 2

原创利用python做数据分析(五)-读取合并多个文件

pieces=[]columns=['name','sex','births']for year in range(1880,2011): path=('C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analysis\\pydata-book-master\\ch02\\names\\yob%d.txt' % year)

2016-11-06 17:43:52 9422

原创利用python做数据分析（四）-数据合并

参考链接：http://pandas.pydata.org/pandas-docs/stable/merging.htmlmerge用于通过一个或多个键将两个数据集的行连接起来，类似于 SQL 中的 JOIN。该函数的典型应用场景是，针对同一个主键存在两张包含不同字段的表，现在我们想把他们整合到一张表里。在此典型情况下，结果集的行数并没有增加，列数则为两个元数据的列数和减去连接键的数量。 on=N

2016-11-06 12:17:40 15803

原创利用python/pandas/numpy做数据分析（三）-透视表pivot_table

透视表 python pandas

2016-11-04 21:21:11 30422 1

原创利用python做数据分析札记（一）

因为自己对商业非常感兴趣，最近听了好多关大数据、BI等数据挖掘的讲座，很感兴趣，结合自己的技术背景与兴趣，志在讲自己的后半生布道在python，大数据、数据挖掘的路上。故心血来潮的想回顾一下python，并自学一下python的数据挖掘功能，作为笔记供自己参考并分享给大家。因为工作的关系之前一直用eclipse做python的IDE开发环境，最近潜心数据挖掘，发现好多任用IPython和Anacon

2016-11-03 21:40:49 1345

原创利用python做数据分析札记（二）

实验环境：Anaconda-> Jupyter 参考数据：利用python进行数据分析 python版本 3.5.2 所有的源文件和所需的数据地址是http://download.csdn.net/detail/liangjbdd/8842239#commentpath='C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analy

2016-11-03 21:16:01 1410

优步在中国官方文档

Postgresql 官方中文文档

空空如也