数据科学IBM-SPSS分析课

最新推荐文章于 2024-07-25 18:51:16 发布

静默安然

最新推荐文章于 2024-07-25 18:51:16 发布

阅读量500

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhao2chen3/article/details/109774636

版权

更多的是做算法解决应用工程师，偏重应用，而不是算法的开发。

常用算法

回归分类 PCA 文本挖掘

如何进行数据分析思路

1、首先要将数据分成训练集和评估集。

2、定义数据基本信息

是连续型离散型

是输入变量预测变量

3、确定数据的贡献度

4、填充缺失数据（连续数据：平均值离散数据：众数中位数数据分布）

5、确定模型的评价指标和参数

什么是大数据（特征）

体量大，超过PB，达到EB数据量

数据在不断产生的过程中，时时刻刻都在产生，产生的速度非常快，难以用传统数据工具处理

数据存储形式多样性

数据的不确定性（数据缺失），数据缺失不一定对大数据真正的有影响，比如注册时，不填性别、年龄，但是不影响整个数据，反而也有价值，可以分析为什么这部分人不填，借此分析出这部分人群更注重隐私，所以可以根据这一特性来给她们推荐保护隐私的样本，这是数据缺失的价值所在。

数据清洗（占据80%-90%的精力，更需要行业背景知识）

数据画像：大数据是人工无法分析的，要通过数据画像（柱状图，数据审计）。可以看出数据是不平衡的，

数据审计可以知道数据离散（普通的，有先后顺序的（早中晚））还是连续

数据过滤操作数据平衡操作（100万男性，5万女性就需要平衡）装箱操作（binbu）把连续型变量转为离散型，关心时间段而不是时间点，把8,9,10点装成早上，简化计算。

数据准备

数据算法

分类回归可以解决所有问题

分类

线性回归 0.1 0.2 0.3

广义线性回归 0.1 0.4 0.9（开方转为线性）

广义混合线性回归（加入了一些随机效应）早上吃中午吃晚上吃逻辑回归树模型 SVM 贝叶斯神经网络自学习算法

自行车租赁量：可以看出气温天气季节前三决定了租赁量用GRE模型解决，用泊松分布，具体到多少量自行车投放

GRE模型分析前三因素：信用卡放贷风险防止欺诈：识别用户是否会拖延欠款，是否有能录还款，能不能贷款。收入负债在一个地方住多久工作时间长久是最重要的指标

判断是否过拟合

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

bing,频繁像极挖掘，时间序列

关联分析：发现大量数据集中的关联性，比如购物篮：蔬菜罐头+冻肉，被用户频繁组合购买，商品摆放。挖掘频繁像极，携程旅游网站，0-600机票 600-1200机票分别装箱。立刻买保险，1-7天时间买保险，很长时间买保险。低价酒店。前项和后项，买低价机票，定低价酒店。土豪消费，买高价机票，立刻给推高价酒店

回归

聚类，分成几类不重要，比较重要的是异常点检测，为什么远离聚簇，更有价值分析，中风患者马云财富更关注异常糖尿病分析医疗费用比其他高

两步聚类均值聚类

离散数据，一开始无法聚类，构建一个树模型，然后子节点聚类

时间序列：预测带宽的利用率根据新闻情绪对油价的影响

自然语言处理API 获取出新闻的态度与情绪是兴奋还是愤怒沮丧。。。最终关联出一个情绪数据，最终构建出一个timeService模型。

生存分析：工件的使用寿命，灯泡药物起效时间门开关次数会坏掉（4种算法：非参数拟合，不设参数直接用数学分布来拟合，）

时空模型：process 处理时空中事件数据，处理事件发生的密度。寻找数据的时间维度扩展规则：比如在某些河流处犯罪率提高。机房温度

加强模型：随机30，一个模型不好，多个模型来凑。选取几十个模型，连续预测值取均值，离散选投票高的，boosting赋予每轮学习的权重。cross valuedition,做10次数据划分，而不是一次划分trainning和testing。是一种很有效的模型，这个可以解决很多问题。不同于前面的解决单一问题的模型。ibm bigdata visulstuio里面使用算法都可以，不收费基本模型，也可以图形化的输入，构建模型。公有云VisulStduio，不用自己写这些算法。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据科学IBM-SPSS分析课

更多的是做算法解决应用工程师，偏重应用，而不是算法的开发。常用算法回归分类 PCA 文本挖掘如何进行数据分析思路1、首先要将数据分成训练集和评估集。2、定义数据基本信息是连续型离散型是输入变量预测变量3、确定数据的贡献度4、填充缺失数据（连续数据：平均值离散数据：众数中位数数据分布）5、确定模型的评价指标和参数什么是大数据（特征）体量大，超过PB，达到EB数据量数据在不断产生的过程中，时时刻刻都在产生，产生的速度非常快，难以用传统数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。