大数据理论基础

最新推荐文章于 2023-11-19 13:47:40 发布

彩虹马同志

最新推荐文章于 2023-11-19 13:47:40 发布

阅读量3.2k

点赞数 3

分类专栏：大数据分析师学习个人记录文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46499291/article/details/111871845

版权

PART1大数据理论基础

1.大数据分析基础
python基础
Linux & Ubuntu 操作系统基础

1.大数据分析基础

5V概念

Volume（大量）——数据的大小决定所考虑的数据的价值和潜在的信息；

Velocity（高速）——指获得数据的速度；

Variety（多样）——指数据类型的多样性；

Value（价值）——合理运用大数据，以低成本创造高价值；

Veracity（真实性）——数据的质量；

大数据处理思想

1.分而治之
2.并行计算
3.计算向数据移动
4.数据本地化读取

将单一节点的庞大任务由分布式网络将任务分配给每个单一计算机进行并行处理计算。

数据分析与数据挖掘

简单的来说

数据分析主要通过统计学，计算方法处理，偏重业务，得出的结论偏向与结果（例如：某宝某商品某颜色商品销售量占比）为决策者提供数据依据

数据挖掘主要通过机器学习，人工智能，由编写的算法输入一组参数，得出一组参数，偏重技术。包含对未来的预测，趋势等

分布式处理优点

分布式网络中的每台机器都能存储和处理数据，降低了对机器性能的要求，所以不必购买昂贵的高性能机器，这大大降低了硬件投资成本；
扩展性极佳。在当前系统存储或计算能力不足时，可以简单地通过增加廉价PC机的方式来增加系统的处理和存储能力；
处理能力极强。庞大的计算任务可以在合理分割后由分布式网络中的机器并行地处理

常见数据挖掘方法

A.神经网络方法。神经网络是模拟人类的形象直觉思维，在生物神经网络研究的基础上，根据生物神经元和神经网络的特点，通过简化、归纳、提炼总结出来的一类并行处理网络，利用其非线性映射的思想和并行处理的方法，用神经网络本身结构来表达输入和输出的关联知识。

B.粗糙集方法。粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集处理的对象是类似二维关系表的信息表。从经过归约后的知识库抽取得到更有价值、更准确的一系列规则。因此，基于粗糙集的数据挖掘算法实际上就是对大量数据构成的信息系统进行约简，得到一种属性归约集的过程，最后抽取规则。

C.决策树方法。决策树是一种常用于预测模型的算法，它通过一系列规则将大量数据有目的分类，从中找到一些有价值的、潜在的信息。

D.遗传算法。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。

python基础

python基本语法这里推荐廖雪峰教程不做过多描述自行百度即可

python函数

Python 函数式编程，常用高阶函数，包括 map 函数、reduce 函数、filter 函数及模块相

一个函数就可以接收另一个函数作为参数，这种函数就称之为高阶函数。
高阶函数

// abs为绝对值函数
def add(a,b,f):
    return f(x) + f(y)

print(add(-5,

最低0.47元/天解锁文章

彩虹马同志

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
大数据理论基础

大数据理论基础1.大数据分析基础大数据5V概念大数据处理思想数据分析与数据挖掘分布式处理优点常见数据挖掘方法python基础python函数python面向对象编程特性python常用链接库Linux & Ubuntu 操作系统基础1.大数据分析基础大数据5V概念Volume（大量）——数据的大小决定所考虑的数据的价值和潜在的信息；Velocity（高速）——指获得数据的速度；Variety（多样）——指数据类型的多样性；Value（价值）——合理运用大数据，以低成本创造高价值；Ver
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。