数据分析
文章平均质量分 60
yinger_0131
这个作者很懒,什么都没留下…
展开
-
《深入浅出数据分析》读书笔记
1.数据分析基本流程: 确定问题-分解问题-评估-决策 2.对不明显的数据,要进行数据挖掘来发现有用的知识 3.心智模型:大脑利用新信息的工具 4.当怀疑因果走向时,注重反向思考(B影响A) 5.混杂因素:演技对象的个人差异 怎样查清混杂因素:就自己正在研究的问题问自己一些常识性问题,借此想象这些变量是否会影响你的分析结果。 6.控制组(对照组): 一组体现现状的处理对象,...原创 2018-03-08 21:26:55 · 709 阅读 · 0 评论 -
python数据分析-客户价值分析
目标:企业针对不同价值的客户制定个性化的服务,将有限的资源集中于高价值客户。 1、借助航空公司的数据进行客户分类 2、比较不同类客户的价值并制定销策略 传统上识别客户价值模型是通过RFM模型: Recency: 最近消费时间间隔 Frequency: 消费频率 Monetary: 消费金额 但是存在问题: 同样的消费金额的不同旅客对航空公司的价值不同,例如买长航线、低等...原创 2018-03-09 20:07:11 · 4287 阅读 · 0 评论 -
python数据分析练手小项目-汽车销售偷漏纳税人识别
本项目主要掌握数据预处理和神经网络、决策树建模以及利用roc曲线进行模型评价。import pandas as pddata=pd.read_excel(data/cardata.xls',index_col=0)#数据探索import matplotlib.pyplot as pltdata.describe()pd.value_counts(data[u'销售类型']...原创 2018-03-09 10:18:09 · 5132 阅读 · 1 评论 -
五、挖掘建模
建模:分类和预测(监督)、聚类(非监督)、关联规则、时序模式、偏差检测等一、分类与预测(sklearn.linear_model,keras)常用算法: 1. 回归分析(线性回归、非线性回归、logistic回归、岭回归、主成分回归)sklearn.linear 2. 决策树(非线性分析) sklearn.tree 3. 人工神经网络(非线性分析)keras 4. 贝叶斯网...原创 2018-03-08 21:51:59 · 587 阅读 · 0 评论 -
四、数据预处理
预处理流程:数据清洗、集成、转换、规约一、数据清洗(1)缺失值处理 * 均值等插补 * 固定值 * 最近值插补 * 回归拟合 * 函数插值(拉格朗日插值法、牛顿插值法 ) def insert(x,n,k=5): y=x[list(range(n-k,n)+list(range(n+1,n+1+k))] ...原创 2018-03-08 21:49:47 · 257 阅读 · 0 评论 -
三、数据探索
两个角度:数据质量分析、数据特征分析一、数据质量分析(脏数据) 脏数据分类: * 缺失值(删除、插补、不处理) * 异常值(离群点): 简单统计量分析(判断合理范围) 3δ原则(偏离平均值3倍标准差) 箱形图分析 * 不一致的值(矛盾性、不相容性) * 重复数据以及带有特殊符号的数据二、数据特征分析(绘制图表、计算特...原创 2018-03-08 21:48:05 · 220 阅读 · 0 评论 -
二、数据分析与挖掘简介
1.基本命令: 幂:a**2 2.数据结构: 容器:list(列表)、tuple(元祖)、dict(字典)、set(集合) 列表和元祖: 共同点:都是序列结构 区别:列表可修改,元祖不可以 b=a是引用(别名),同时修改;如果只是复制:b=a[:] 相关函数: 共同:cmp(a,b)/len(a)/max/min/sum/sorted() 列表专有: a.append()添加...原创 2018-03-08 21:47:09 · 191 阅读 · 0 评论 -
八、时间序列
一、日期和时间数据类型及工具时间序列:datetime.datetime(2011-02-31),产生一个DatetimeIndex对象; pd.DatetimeIndex() 时间范围: pd.date_range(start=‘4/1/2012’,periods=20) 时间戳: pd.Timestamp(‘2011-03-12 04:20’...原创 2018-03-08 21:43:58 · 265 阅读 · 0 评论 -
七、数据聚合和分组运算
1. df[‘data1’].groupby(df[‘key1’]) 调用 等价于对部分列进行索引: df.groupby(df[‘key1’]) [‘data1’]2.分组(groupby) (1)选取一个或一组列 data.groupby(data[’ss’])[’ss1’] (2)通过函数进行分组 dataframe.groupby(len) (3)通过字典或者Serie...原创 2018-03-08 21:42:24 · 265 阅读 · 0 评论 -
六、可视化
当数据大的时候,先利用聚类等数据挖掘的算法,才能进行数据到可视化的过程。一些可视化原则:位置,大小,纹理,颜色,方向,形状。一些可视化场景:文本可视化(sentiment),时序数据可视化(time,股票),高位数据可视化,机器学习相关可视化,(社交网络)图可视化,科学可视化,交互。机器学习学习的是一种映射,训练集上得出的结论应用到新的数据上,进行判断。matplotlib: p...原创 2018-03-08 21:40:43 · 231 阅读 · 0 评论 -
五、pandas中的绘图函数
1.Series和DataFrame都有生成各类图表的plot()方法: data.plot(kind=‘bar/barh/line/kde’) 默认线性2.Series的plot()方法 ax=axes[0],相当于一个subplot对象; style=‘ko–’风格字符串 alpha 不透明度 kind label3.专用于DataFrame的参数...原创 2018-03-08 21:38:58 · 585 阅读 · 0 评论 -
四、数据规整化:清洗、转换、合并和重塑
1、合并数据集(merge,join,concat) pandas对象中的数据可以通过一些内置的方式进行合并 * pandas.merge可以根据一个或者多个键值连接起来,就是SQL中的数据库连接工作。 * pandas.concat可以沿着一条轴将多个对象堆叠在一起 * 实例方法combine_first可以讲重复数据编接在一起 ,用一个对象中的值填充另一个对象中的缺失值(外连接)。 ...原创 2018-03-08 21:37:48 · 641 阅读 · 0 评论 -
一、Numpy基础:数组和矢量计算
(1) shape:返回维度;dtype:返回元素类型 zeros(10):10个0的一维数组; zeros(3,6):3*6的二维数组 ones:元素为1的以为数组 empty:未做初始化,元素可以是任何数 np.arange(15):生成0到14的连续元素的数组 np.eye(3):N*N的单位矩阵(2) –array:将输入数据(列表、元祖、数组或其他序列列...原创 2018-03-08 21:35:45 · 162 阅读 · 0 评论 -
三、数据加载、存储和文件格式
输入输出通常分为几大类: (1)读取文本文件; (2)磁盘存储; (3)数据库 (4)利用web api操作网络资源读写文本格式的数据 pandas提供了一些用于将表格型数据读取为DataFrame对象的函数下面大致介绍一下这些函数在文本数据转换为DataFrame时的一些技术。可以分为一下几类: * 索引:将一个或者多个列当作返回的DataFrame处理,以及是否从文件、用户...原创 2018-03-08 21:33:06 · 367 阅读 · 0 评论 -
二、Pandas入门
pandas的数据结构介绍1.series:类似于一维数组的对象,由一组数据和与之相关的数据标签(索引)组成。也可以看出字典,是索引值到数据的映射。 * series运算保留索引和值之间的链接;series的索引值不只是整数 * 可以通过列表、字典创建series obj=Series([1,2,3]) obj=Series(dict) * pandas 的isnull 和notnu...原创 2018-03-08 21:31:52 · 234 阅读 · 0 评论 -
九、Numpy高级应用
1.ndarray对象的内部机理:由一个纸箱数组的指针,数据类型dtype,一个表示数组形状的元祖,有个跨度元祖(strides)组成 2.np.issubdtyoe(ints.dtype,np.integer)判断数据类型。 np.float64.mro()查看所有父类3.高级数组操作:花式索引、切片、布尔条件取子集, 数组重塑 reshape/ravel/flatten 多...原创 2018-03-08 21:29:07 · 198 阅读 · 0 评论 -
基于协同过滤算法的电子商务网站用户行为分析及服务推荐
对于用户而言,推荐系统和搜索引擎是两个互补工具。搜索引擎满足有明确目标的用户需求,而推荐系统能够帮助用户发现其感兴趣的内容。如今网上信息泛滥,想要在里面找一条适合自己的信息的成本真的有点高,所以就有了推荐系统。于用户而言,推荐系统能够节省自己的时间;于商家而言,推荐系统能够更好的卖出自己的商品。基于邻域的推荐算法是推荐系统中最基本的算法,该算法分为两大类:基于用户的协同过滤算法(UserC...原创 2018-03-10 10:53:58 · 4468 阅读 · 0 评论