更多的是做算法解决应用工程师,偏重应用,而不是算法的开发。
常用算法
回归 分类 PCA 文本挖掘
如何进行数据分析思路
1、首先要将数据分成训练集和评估集。
2、定义数据基本信息
是连续型 离散型
是输入变量 预测变量
3、确定数据的贡献度
4、填充缺失数据(连续数据:平均值 离散数据:众数中位数 数据分布)
5、确定模型的评价指标和参数
什么是大数据(特征)
体量大,超过PB,达到EB数据量
数据在不断产生的过程中,时时刻刻都在产生,产生的速度非常快,难以用传统数据工具处理
数据存储形式多样性
数据的不确定性(数据缺失),数据缺失不一定对大数据真正的有影响,比如注册时,不填性别、年龄,但是不影响整个数据,反而也有价值,可以分析为什么这部分人不填,借此分析出这部分人群更注重隐私,所以可以根据这一特性来给她们推荐保护隐私的样本,这是数据缺失的价值所在。
数据清洗(占据80%-90%的精力,更需要行业背景知识)
数据画像:大数据是人工无法分析的,要通过数据画像(柱状图,数据审计)。可以看出数据是不平衡的,
数据审计可以知道数据离散(普通的,有先后顺序的(早中晚))还是连续
数据过滤操作 数据平衡操作(100万男性,5万女性就需要平衡)装箱操作(binbu)把连续型变量转为离散型,关心时间段而不是时间点,把8,9,10点装成早上,简化计算。
数据准备
数据算法
分类回归可以解决所有问题
分类
线性回归 0.1 0.2 0.3
广义线性回归 0.1 0.4 0.9(开方转为线性)
广义混合线性回归(加入了一些随机效应)早上吃 中午吃 晚上吃 逻辑回归 树模型 SVM 贝叶斯神经网络 自学习算法
自行车租赁量:可以看出气温 天气 季节前三决定了租赁量 用GRE模型解决,用泊松分布,具体到多少量自行车投放
GRE模型分析前三因素:信用卡放贷风险防止欺诈:识别用户是否会拖延欠款,是否有能录还款,能不能贷款。收入 负债 在一个地方住多久 工作时间长久是最重要的指标
判断是否过拟合
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)
bing,频繁像极挖掘,时间序列
关联分析:发现大量数据集中的关联性,比如购物篮:蔬菜罐头+冻肉,被用户频繁组合购买,商品摆放。挖掘频繁像极,携程旅游网站,0-600机票 600-1200机票分别装箱。立刻买保险,1-7天时间买保险,很长时间买保险。低价酒店。前项和后项,买低价机票,定低价酒店。土豪消费,买高价机票,立刻给推高价酒店
回归
聚类,分成几类不重要,比较重要的是异常点检测,为什么远离聚簇,更有价值分析,中风患者 马云财富 更关注异常 糖尿病分析 医疗费用比其他高
两步聚类 均值聚类
离散数据,一开始无法聚类,构建一个树模型,然后子节点聚类
时间序列:预测带宽的利用率 根据新闻情绪对油价的影响
自然语言处理API 获取出新闻的态度与情绪 是兴奋还是愤怒 沮丧。。。最终关联出一个情绪数据,最终构建出一个timeService模型。
生存分析:工件的使用寿命,灯泡 药物起效时间 门开关次数会坏掉 (4种算法:非参数拟合,不设参数直接用数学分布来拟合,)
时空模型 :process 处理时空中事件数据,处理事件发生的密度。寻找数据的时间维度扩展规则:比如在某些河流处犯罪率提高。机房温度
加强模型:随机30,一个模型不好,多个模型来凑。选取几十个模型,连续预测值取均值,离散选投票高的,boosting赋予每轮学习的权重。cross valuedition,做10次数据划分,而不是一次划分trainning和testing。是一种很有效的模型,这个可以解决很多问题。不同于前面的解决单一问题的模型。ibm bigdata visulstuio里面使用算法都可以,不收费基本模型,也可以图形化的输入,构建模型。公有云VisulStduio,不用自己写这些算法。