数据科学IBM-SPSS分析课

更多的是做算法解决应用工程师,偏重应用,而不是算法的开发。

常用算法

 

回归 分类 PCA 文本挖掘

 

如何进行数据分析思路

1、首先要将数据分成训练集和评估集。

2、定义数据基本信息 

是连续型 离散型

是输入变量 预测变量

3、确定数据的贡献度

4、填充缺失数据(连续数据:平均值 离散数据:众数中位数 数据分布)

5、确定模型的评价指标和参数

什么是大数据(特征)

体量大,超过PB,达到EB数据量

数据在不断产生的过程中,时时刻刻都在产生,产生的速度非常快,难以用传统数据工具处理

数据存储形式多样性

数据的不确定性(数据缺失),数据缺失不一定对大数据真正的有影响,比如注册时,不填性别、年龄,但是不影响整个数据,反而也有价值,可以分析为什么这部分人不填,借此分析出这部分人群更注重隐私,所以可以根据这一特性来给她们推荐保护隐私的样本,这是数据缺失的价值所在。

数据清洗(占据80%-90%的精力,更需要行业背景知识)

数据画像:大数据是人工无法分析的,要通过数据画像(柱状图,数据审计)。可以看出数据是不平衡的,

数据审计可以知道数据离散(普通的,有先后顺序的(早中晚))还是连续

数据过滤操作 数据平衡操作(100万男性,5万女性就需要平衡)装箱操作(binbu)把连续型变量转为离散型,关心时间段而不是时间点,把8,9,10点装成早上,简化计算。

数据准备

数据算法

分类回归可以解决所有问题

分类

线性回归 0.1 0.2 0.3

广义线性回归 0.1 0.4 0.9(开方转为线性)

广义混合线性回归(加入了一些随机效应)早上吃 中午吃 晚上吃 逻辑回归 树模型 SVM 贝叶斯神经网络 自学习算法

自行车租赁量:可以看出气温 天气 季节前三决定了租赁量 用GRE模型解决,用泊松分布,具体到多少量自行车投放

GRE模型分析前三因素:信用卡放贷风险防止欺诈:识别用户是否会拖延欠款,是否有能录还款,能不能贷款。收入 负债 在一个地方住多久 工作时间长久是最重要的指标

判断是否过拟合

 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

bing,频繁像极挖掘,时间序列 

关联分析:发现大量数据集中的关联性,比如购物篮:蔬菜罐头+冻肉,被用户频繁组合购买,商品摆放。挖掘频繁像极,携程旅游网站,0-600机票 600-1200机票分别装箱。立刻买保险,1-7天时间买保险,很长时间买保险。低价酒店。前项和后项,买低价机票,定低价酒店。土豪消费,买高价机票,立刻给推高价酒店

回归

聚类,分成几类不重要,比较重要的是异常点检测,为什么远离聚簇,更有价值分析,中风患者 马云财富 更关注异常 糖尿病分析 医疗费用比其他高

两步聚类 均值聚类

离散数据,一开始无法聚类,构建一个树模型,然后子节点聚类

时间序列:预测带宽的利用率 根据新闻情绪对油价的影响

自然语言处理API 获取出新闻的态度与情绪 是兴奋还是愤怒 沮丧。。。最终关联出一个情绪数据,最终构建出一个timeService模型。

生存分析:工件的使用寿命,灯泡 药物起效时间 门开关次数会坏掉 (4种算法:非参数拟合,不设参数直接用数学分布来拟合,)

时空模型 :process  处理时空中事件数据,处理事件发生的密度。寻找数据的时间维度扩展规则:比如在某些河流处犯罪率提高。机房温度

加强模型:随机30,一个模型不好,多个模型来凑。选取几十个模型,连续预测值取均值,离散选投票高的,boosting赋予每轮学习的权重。cross valuedition,做10次数据划分,而不是一次划分trainning和testing。是一种很有效的模型,这个可以解决很多问题。不同于前面的解决单一问题的模型。ibm bigdata visulstuio里面使用算法都可以,不收费基本模型,也可以图形化的输入,构建模型。公有云VisulStduio,不用自己写这些算法。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值