大数据分析与挖掘笔记(1)

第一章 绪论
大数据特点:4V
容量Volume 多样性Variety 速度Velocity 价值Value

数据分析时用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论并对数据加以详细研究和概括总结的过程。
分为三个层次:
描述分析,预测分析,规范分析
大数据分析时指对规模巨大的数据进行分析,是从大数据到信息、再到知识的关键步骤
数据挖掘是指从数据集合中提取人们感兴趣的知识,这些知识是隐含的,事先未知的,潜在有用的信息。
提取出来的知识一般可表示为概念、规则、规律、模式等形式。

大数据分析和挖掘的步骤:
1 任务目标的确定
2 目标数据集的提取
3 数据预处理
4 建立适当的数据分析和挖掘模型
5 模型的解释和评估
6 知识的应用

数据挖掘的主要功能
1 对数据的统计分析与特征描述
2 关联规则挖掘和相关性分析
3 分类与回归
4 聚类分析
5 异常检测或离群点分析

大数据分析与挖掘工具
1 Sklearn
对于一些常用的机器学习方法进行封装,只需要简单的调用Sklearn里的模块就可以实现大多数机器学习任务。
机器学习任务包括:
分类 回归 聚类 数据降维 数据预处理
常用的分类器:
KNN 贝叶斯 线性回归 逻辑回归 决策树 随机森林 GBDT

2 Spark ML
通用内存并行计算框架,常用于构建大型的、低延迟的数据分析应用程序。
目前spark已经拥有了实时计算、批处理、机器学习算法库、SQL、流计算等模块。
MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、降维等,同时还包括底层的优

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值