数据分析与挖掘
文章平均质量分 53
yinger_0131
这个作者很懒,什么都没留下…
展开
-
一、数据挖掘基础
数据挖掘的任务: 分类与预测,聚类分析,关联规则,时序模式,偏差检测,智能排序数据挖掘的建模过程: 1.定义挖掘目标 2.数据采集,取样(随机抽样,分层抽样,等距抽样,分类抽样,起始顺序抽样) 3.数据探索:异常值分析、缺失值分析、相关性分析、周期性分析,有无明显规律和趋势 4.数据预处理:降维处理,缺失值处理,数据筛选,数据转换,坏数据处理,数据标准化,主成分分析,属性选择,数据规...原创 2018-03-08 21:45:49 · 258 阅读 · 0 评论 -
SVM常见的面试题整理
SVM的原理是什么?SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;(3)当训练数据线性不可分时,通过使用核技巧及软间隔最...原创 2018-04-15 23:39:22 · 1614 阅读 · 0 评论 -
基于协同过滤算法的电子商务网站用户行为分析及服务推荐
对于用户而言,推荐系统和搜索引擎是两个互补工具。搜索引擎满足有明确目标的用户需求,而推荐系统能够帮助用户发现其感兴趣的内容。如今网上信息泛滥,想要在里面找一条适合自己的信息的成本真的有点高,所以就有了推荐系统。于用户而言,推荐系统能够节省自己的时间;于商家而言,推荐系统能够更好的卖出自己的商品。基于邻域的推荐算法是推荐系统中最基本的算法,该算法分为两大类:基于用户的协同过滤算法(UserC...原创 2018-03-10 10:53:58 · 4491 阅读 · 0 评论 -
python数据分析-客户价值分析
目标:企业针对不同价值的客户制定个性化的服务,将有限的资源集中于高价值客户。 1、借助航空公司的数据进行客户分类 2、比较不同类客户的价值并制定销策略 传统上识别客户价值模型是通过RFM模型: Recency: 最近消费时间间隔 Frequency: 消费频率 Monetary: 消费金额 但是存在问题: 同样的消费金额的不同旅客对航空公司的价值不同,例如买长航线、低等...原创 2018-03-09 20:07:11 · 4301 阅读 · 0 评论 -
python数据分析练手小项目-汽车销售偷漏纳税人识别
本项目主要掌握数据预处理和神经网络、决策树建模以及利用roc曲线进行模型评价。import pandas as pddata=pd.read_excel(data/cardata.xls',index_col=0)#数据探索import matplotlib.pyplot as pltdata.describe()pd.value_counts(data[u'销售类型']...原创 2018-03-09 10:18:09 · 5141 阅读 · 1 评论 -
五、挖掘建模
建模:分类和预测(监督)、聚类(非监督)、关联规则、时序模式、偏差检测等一、分类与预测(sklearn.linear_model,keras)常用算法: 1. 回归分析(线性回归、非线性回归、logistic回归、岭回归、主成分回归)sklearn.linear 2. 决策树(非线性分析) sklearn.tree 3. 人工神经网络(非线性分析)keras 4. 贝叶斯网...原创 2018-03-08 21:51:59 · 595 阅读 · 0 评论 -
四、数据预处理
预处理流程:数据清洗、集成、转换、规约一、数据清洗(1)缺失值处理 * 均值等插补 * 固定值 * 最近值插补 * 回归拟合 * 函数插值(拉格朗日插值法、牛顿插值法 ) def insert(x,n,k=5): y=x[list(range(n-k,n)+list(range(n+1,n+1+k))] ...原创 2018-03-08 21:49:47 · 261 阅读 · 0 评论 -
三、数据探索
两个角度:数据质量分析、数据特征分析一、数据质量分析(脏数据) 脏数据分类: * 缺失值(删除、插补、不处理) * 异常值(离群点): 简单统计量分析(判断合理范围) 3δ原则(偏离平均值3倍标准差) 箱形图分析 * 不一致的值(矛盾性、不相容性) * 重复数据以及带有特殊符号的数据二、数据特征分析(绘制图表、计算特...原创 2018-03-08 21:48:05 · 225 阅读 · 0 评论 -
二、数据分析与挖掘简介
1.基本命令: 幂:a**2 2.数据结构: 容器:list(列表)、tuple(元祖)、dict(字典)、set(集合) 列表和元祖: 共同点:都是序列结构 区别:列表可修改,元祖不可以 b=a是引用(别名),同时修改;如果只是复制:b=a[:] 相关函数: 共同:cmp(a,b)/len(a)/max/min/sum/sorted() 列表专有: a.append()添加...原创 2018-03-08 21:47:09 · 196 阅读 · 0 评论