大数据技术概论

大数据技术概论

大数据技术的产生
大数据的基本概念
●大数据简介:
大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。
大数据有三个V:
一是数据量(Volume),数据量是持续快速增加的;
二是高速(Velocity)的数据;三是多样化(Variety)数据类型和来源。
随着云时代的来临,大数(Big data)也吸引了越来越多的关注。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性。
●大数据的处理流程
数据采集数据统计分析数据挖掘
1.数据采集:
利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,具有并发性高的特点。经常使用的产品有:MySQL,Oracle,HBase,RedisMongoDB和等,并且这些产品的特点各不相同
2.统计分析:
将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。会面临:导入数据量大,查询涉及的数据量大,查询请求多的挑战。
3数据挖掘
基于前面的查询数据进行数括挖掘,来满足高级别的数据分析需求:这一步面临算法复杂,并且计算涉及的数据量和计算量都大的难题。一般使用R/SAS等统计软件。
●大数据在各个领的应用
咨询业:BM对50000名咨询顾问的档案建立了数学模型,从而计算机可以对不同的项目自动挑选出最合适的团队。广告业:硅谷的最优边界公司对网上广告提供了优化服务,对每一条网上广告都可以计算出反应率和投资收益率市场营业:
UMBRIA公司通过数值计算选择博客网站上应该跳出来的广告产品,通过向量数学,可以确认汉堡王的广告的确对年轻人的目标客户最有效媒体业:
纽约的 INFORM公司运用几何学原理将文章根据单词和词组进行转换,存入虚图书馆,然后根据读者档案挑选出最适合读者阅读的文章提供给读者社交网络:
社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖握这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。
●IBM的大数据战略
基于“3A5步”动态路线图,IBM提出了“大数
据平台”架构。该平台的四大核心能力包括
Hadoop系统、流计算
(StreamComputing)、数据仓库(DataWarehouse)和信息整合与治理(InformationIntegration and Governance)。在这里插入图片描述
大数据产生的原因
1,互联网的发展,产生海量可获得的非结构化数据。
2,传统数据库在处理非结构化数据出现瓶颈。
3,分布式技术和搜索技术的发展。
大数据概念的提出
1、“大数据的名称来自于未来学家托夫勒所著的《第三次浪潮》尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,茗名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年月推出了名为大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。
2、最早应用大数据的是麦肯锡公司(McKinsey)对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司右到了各种网络平台记录的个人淘备潜在的商业价值,于是投入大量人力秘密进行调研,在2011年6月发布了关于大数据”的报告:该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。
3、“大数据的特点由维克托迈尔恩伯格和肯尼斯库克耶在大数据时代》中提出过维克托迈尔舍恩怕格和肯尼克耶编写的大数据时代中提出:“大数据的4V特点: volume(数据量大)、 Velocity入和处理速度快)、 Variely(数据多样性)、 Value(价值密度低)。这些特点基本上得到了大家的认可,凡提到“大数据特点的文章,基本上采用了这4个特点。
4、在云计算出现之后大数据才凸显其真正价值自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值有人就形象地将种“大数据的应用比作一辆辆汽车”,支撑起这些“汽车”运行的“公路“就是云计算,最名的实例就是Google搜索引擎面对海量Weh数据:Google于2006年首先提出云计算的概念。支撑Gogl内部各种“大数据应用的,正是 Gougle公司自行研发的云计算服务器。
“大数据”的基本判断标准
什么样的数据才是“大数据”?透过层层的迷雾和众说纷纭,可以讲:有了云计算服务器才有了“大数据”应用的价值。维克托曾说过:“假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,也可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度,十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混。试想,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底迷失。虽然得到的信息不再准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带来更多好处。为了规模的扩大,我们接受适量错误的存在。”其中描述葡萄园测量仪采集的数据就是大数据。大数据实质上是全面、混杂的并且具有数据量大、输入和处理速度快、数据多样性、价值密度低特点的数据。
第四范式——大数据对科学研究产生的影响
吉姆·格雷是一个传奇人物。他是1998年图灵奖得主,著名的计算机科学家。2007年1月28日,他在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前,1月11日,他在加州山景城召开的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,发表了他的著名演讲:科学方法的一次革命。在这篇演讲中,吉姆·格雷将科学研究的范式分为四类——除了之前的实验范式、理论范式、仿真范式之外

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
大数据概论是指对海量的、复杂的、高维度的数据进行收集、处理和分析的一门学科。随着信息技术的快速发展,大量的数据被产生和积累,想要从这些数据中获得有价值的信息和洞察力,就需要借助大数据概论的方法和技术。 大数据概论主要包括以下几个方面。首先是大数据的处理和存储技术,包括分布式存储系统、并行计算框架、分布式文件系统等。这些技术可以帮助我们有效地存储和处理大规模的数据。其次是数据挖掘和机器学习的方法,通过这些方法可以从大数据中发现隐藏的模式和规律,并用于预测和决策。此外,数据可视化和探索性数据分析也是大数据概论的重要内容,通过可视化技术可以将复杂的数据转化为直观的图表和可视化图像,帮助人们更好地理解和分析数据。 大数据概论在各个领域都有广泛的应用。在商业领域,大数据概论可以帮助企业分析市场趋势、预测产品需求,并进行个性化推荐和营销策略优化。在金融领域,大数据概论可以用于风险控制和反欺诈,帮助银行和保险公司降低风险和损失。在医疗领域,大数据概论可以用于疾病预测和诊断,辅助医生做出更准确的诊断和治疗方案。 总之,大数据概论是一门应用于处理和分析大数据的学科。它涵盖了数据处理和存储技术、数据挖掘和机器学习方法,以及数据可视化和探索性数据分析等方面。通过应用大数据概论的方法和技术,可以从海量的数据中提取有价值的信息和知识,为各个领域带来新的机遇和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值