【大数据开发--概念篇】

前言:
💞💞大家好,书生♡,今天主要和大家分享一下大数据的相关概念,以及我们大数据开发的环境,希望对大家有所帮助。
💞💞路漫漫,希望大家坚持下去,不忘初心,成为一名优秀的程序员

个人主页⭐: 书生♡
gitee主页🙋‍♂:闲客
专栏主页💞:大数据开发
博客领域💥:大数据开发,java编程,前端,算法,Python
写作风格💞:超前知识点,干货,思路讲解,通俗易懂
支持博主💖:关注⭐,点赞、收藏⭐、留言💬

在这里插入图片描述

1.大数据概念

什么是大数据?

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

我们通过对这段话的简化其实就是:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。

2. 大数据有什么用处?为什么要学习大数据?

大数据就是为了解决以下两个问题:
1.海量数据存储
2.海量数据运算

那为什么要解决海量数据的存储和运算呢?又是怎么解决的呢?

  海量数据就是数据的量太大,正常计算时无法在短时间内得到最终的结果,没有最终的结果就不能一次性的装入内存,这时候就要分批次或者搭配合适的数据,最终才能达到目的。
  所谓的大数据其实比海量数据稍微升级了一点点,大数据其实就是把海量数据按一定的方法将其分解,再对其分解的每一个数据进行逐一的解决,并分别找出其结果,再组成最终的结果。

大数据跟海量数据有什么联系呢?

海量数据与大数据的关系 ,海量数据与大数据的关系其实是相互的,海量数据可以包含在大数据里面,同样大数据也可以包含在海量数据里面。
海量数据需要找合适的数据来进行计算时,大数据也可以将海量数据分解并帮助其计算完成。

  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术
  随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
  大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

3.大数据的特性

大数据的特点用五个字表述就是:大多值快信

大:全球数据体量大
全球: 35ZB(2020年)
百度:74PB、8PB(前面的是硬盘数据量,后面的是内存数据量)
阿里:60PB,7.2PB
腾讯: 100PB, 4PB

在这里插入图片描述

多:种类和来源多样化
数据受大量互联网用户等因素的影响,来源广泛,因此大数据的类型也多种多样。大数据按因果关系强弱可分为三类,即结构化数据、非结构化数据和半结构化数据,统称为大数据。数据显示,结构化数据在整个大数据中所占比例比较大,高达75%,但能够产生高价值的大数据是非结构化数据。

值:低价值密度
大数据价值在大数据特征中占有核心地位。大数据的总量与其价值密度成反比。同时,任何有价值的信息都是经过大量基础数据处理后提取出来的。在大数据蓬勃发展的今天,如何提高计算机算法处理海量大数据并提取有价值信息的速度一直是人们探索的问题。

快:速度快
大数据的高速特性主要体现在数据量的快速增长和处理。与传统媒体相比,在大数据时代的今天,信息的生产和传播发生了巨大的变化。在互联网和云计算的影响下,大数据可以快速产生和传播。此外,由于信息的时效性,在处理大数据的过程中也要求反应迅速,不能延迟数据的输入和提取。

信:数据的质量
数据的准确性和数据的可信赖度,也是我们大数据的必备要求之一。

4. 大数据的应用场景

大数据技术的应用领域有哪些?

1、电商领域:相信大数据在电商领域的应用,大家已经屡见不鲜了,淘宝京东等电商平台利用大数据技术,对用户信息进行分析,从而为用户推送用户感兴趣的产品,从而刺激消费。

2、政府领域:“智慧城市”已经在多地尝试运营,通过大数据,政府部门得以感知社会的发展变化需求,从而更加科学化、精准化、合理化的为市民提供相应的公共服务以及资源配置。

3、医疗领域:医疗行业通过临床数据对比、实时统计分析、远程病人数据分析、就诊行为分析等,辅助一声进行临床决策,规范诊疗路径,提高一声的工作效率。

4、传媒领域:传媒相关企业通过收集各式各样的信息,进行分类筛选、清洗、深度加工,实现对读者和受众葛新华需求的准确定位和把握,并追踪用户的浏览习惯,不断进行信息优化。

5、安防领域:安防行业可实现视频图像模糊查询、快速检索、精准定位,并能够进一步挖掘海量视频监控数据背后的价值信息,反馈内涵知识辅助决策判断。

6、金融领域:用户画像的基础上,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求。

7、电信领域:电信行业拥有庞大的数据,大数据技术可以应用于网络管理、客户关系管理、企业运营管理等,并且使数据对外商业化,实现单独盈利。

5. Linux系统概述

  • linux发行时间: 1991年
  • linux的创始人: 林纳斯·托瓦兹
  • linux的吉祥物: 企鹅
  • linux的内核完全开源免费,但是linux的发行版不一定免费

常见的linux发行版有哪些?

  • redhat : 世界最大的linux发行版厂商, 已经被IBM收购
  • ubuntu: 桌面操作系统做的最好的
  • centos: 目前中国市场使用最多的linux版本,目前已经被redhat收购,但依然免费
  • deepin: 深度公司开发的linux版本.国内做的最好的linux发行版

  今天的内容理解较为简单并且大多数为概念问题。所以大家只需要了解就可以了,掌握最主要的几个知识点就可以,如大数据的特性以及什么是大数据,大数据的单位是什么,为什么要使用大数据,需要用它解决什么问题。
  欢迎大家沟通交流,点赞评论,互关三联,💖💖💖💖。
  愿各位在程序员的道路上越走越远,前途无限。

  • 30
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
非常感谢您的提问。作为AI语言模型,我会尽力回答您的问题。 关于2021年从零到大数据专家面试篇之sparksql篇,我可以给您一些基本的信息和建议。 首先,Spark SQL是Apache Spark的一个模块,它提供了一种基于SQL的编程接口,可以让开发人员使用SQL语句来查询和分析大规模的数据集。在大数据领域,Spark SQL是非常重要的一个组件,因为它可以帮助我们更方便地处理和分析海量的数据。 如果您想成为一名大数据专家,并且想在面试中展现您的Spark SQL技能,那么您需要掌握以下几个方面: 1. SQL基础知识:首先,您需要掌握SQL的基本语法和常用的SQL函数。这些知识对于使用Spark SQL非常重要,因为Spark SQL的语法和SQL非常相似。 2. Spark SQL的基本概念:您需要了解Spark SQL的基本概念,例如DataFrame、Dataset、SQLContext等。这些概念是Spark SQL的核心,您需要掌握它们的使用方法和特点。 3. Spark SQL的高级特性:除了基本概念之外,您还需要了解Spark SQL的一些高级特性,例如窗口函数、聚合函数、UDF等。这些特性可以帮助您更高效地处理和分析数据。 4. 实践经验:最后,您需要有一定的实践经验,例如使用Spark SQL处理过大规模的数据集,或者使用Spark SQL进行数据分析和挖掘。这些经验可以帮助您更好地理解和掌握Spark SQL的使用方法和技巧。 总之,如果您想在面试中展现您的Spark SQL技能,那么您需要掌握SQL基础知识、Spark SQL的基本概念和高级特性,以及一定的实践经验。希望这些信息对您有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值