大数据技术概述

最新推荐文章于 2024-09-20 16:14:05 发布

nobody小程序员

最新推荐文章于 2024-09-20 16:14:05 发布

阅读量677

点赞数 15

文章标签：大数据 hadoop 数据库开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62967932/article/details/136582501

版权

本文基于《实战大数据（Hadoop+Spark+Flink）》一书，讲述了大数据的概念、误解，以及大数据处理框架（包括数据服务、数据获取、离线实时处理、交互式分析、机器学习、资源管理、数据存储等），强调了数据获取的结构化和非结构化之分。

摘要由CSDN通过智能技术生成

（超基础内容，找个地方记记笔记）

本文章为阅读《实战大数据（Hadoop+Spark+Flink）》（机械工业出版社）有感而所记笔记，侵权必删。

一、什么是大数据？

大数据=信息资产（巨多的、一般人用不了需要新处理模式的、高增长率的、多样化的）

作者之前的错误理解：大数据=hadoop （X）

大数据是一种理念、一种解决问题的思维、一系列技术的合集。

Hadoop是一种具体的处理数据的框架，与Spark和Flink一个级别。

二、大数据框架

数据服务与可视化

（用户能看到的一层）

数据处理

交互式分析

机器学习与数据发觉

资源管理

（为了支持数据的处理进行统一的资源调度与分配）

数据管理

（大数据的根基，处理框架都是构建在基础之上）

数据获取

（大数据的来源）

数据处理

可以分为离线处理和实时处理。（按照执行时间的跨度划分）

离线处理：用于处理复杂的批量数据，也称批处理。数据处理的时间跨度在几分钟到数小时之间。比如电视台的收视率统计。

实时处理：用于处理实时数据流，也称流处理。数据处理的时间跨度在数百毫秒到数秒之间。主要的特点是其处理的数据是源源不断且实时到来的。

交互式分析

有时我们需要对数据根据不同条件进行分析查询并及时返回结果，这时就需要交互式分析。如实时报表分析、在线话单查询，火车站实时大屏等。交互式查询具有以下特点：

低延时
查询条件复杂
查询范围大
返回结果数据量小
并发数要求高
需要支持SQL等接口

机器学习与数据挖掘

常规有序的数据可以使用离线实时分析，交互式分析，复杂的数据需要利用数据挖掘和机器学习的方法。

机器学习是通过通过特定算法使计算机模拟人的学习行为，使之在工作中重新组织已有的知识结构，不断改善自身性能。（人工智能相关）

数据挖掘是从海量数据中通过算法搜索隐藏的信息过程。

在获取信息的过程中，数据挖掘强调结果，机器学习强调使用方法，两个领域有交集，但不能同一而论。

资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配。其中多租户、弹性伸缩、动态分配是资源管理系统要解决的核心问题。

数据存储

想象一下小学应用题中用一根管子在一个大水塘中抽水，如果是两个一半大小的水池用两根管子同时同时抽水，那我们只需要一半的时间，如果分成更多的小水池同时抽水，那时间将会变得无限小。类比到存储上，一个1TB的硬盘在传输速度100MB/s的情况下读完所有数据要花2.5小时，如果分存到100个硬盘，只需要2分钟。这就是大数据存储的基础思维。但问题是如果同时保存一百个硬盘，可能会弄丢一两个，还可能摔坏几个，这就需要一些方法来避免数据丢失，这点之后再讲。

数据获取

大数据时代，数据是第一生产力，大数据技术的核心为从数据中挖掘价值，首先要明确的就是如何获取数据。数据可以划分为结构化数据和非结构化数据，结构化数据就是可以由表格来表现的必须严格遵循数据格式与长度规范的数据；非结构化数据就是一切格式的有用数据，不管是文字，图片，音频还是视频。

nobody小程序员

关注

15
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

nobody小程序员 CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

147万+: 周排名

24万+: 总排名

4674: 访问

: 等级

115: 积分

77: 粉丝

84: 获赞

0: 评论

65: 收藏

私信

关注

热门文章

最新评论

Ubuntu静态IP配置+远程SSH连接+JDK配置+Spark下载
CSDN-Ada助手: 恭喜您写出了这么一篇详细的博客，分享了Ubuntu静态IP配置、远程SSH连接、JDK配置和Spark下载的经验，对读者来说无疑是一次极大的帮助。希望您能继续保持创作的热情，分享更多有益的知识和经验。下一步可以考虑写一些实际操作中遇到的问题及解决方案，相信会更加受读者欢迎。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
搭建Linux虚拟机（CentOS7安装配置+静态IP）
CSDN-Ada助手: 非常棒的博文！通过你的详细说明和步骤，我学到了如何在VMware Workstation 17 Player中搭建CentOS7的Linux虚拟机并配置静态IP。希望你能继续分享更多关于Linux系统搭建和配置的内容。另外，除了静态IP配置，你还可以尝试学习如何设置动态IP、防火墙配置、SSH远程连接等技能，这些都是Linux系统管理中非常重要的知识。期待看到你更多的精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
大数据技术概述
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618198201。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。