hadoop介绍以及未来发展

大数据作为当今世界的重要商业行为,给无数商家和企业带来了无数的发展机遇和机会,这里介绍一下,因为sap也是需要进入大数据时代的,毕竟跟这互联网,sap有发展,如果单纯就是应用在企业中,会错失很多良机。比如sap服务的很多客户,卖苹果的一家单位,当时只是一家小作坊,但是后来通过sap达到了一定量级,然后做到了当地的巨无霸企业。
大数据主要有如下几个特点:
1.数据体量很大
2.数据类型多样
3.商业价值
4.速度快
有两个例子,一个是电子地图,比如Google maps ,百度maps,高德地图。还有一个是网站购物,可以通过用户最近购买的东西做判定,知道这个用户最近的情况,可以做一个用户画像,分析的指标有如下几个:
基本信息,购买能力,行为特征,社交网络,心理特征以及兴趣和爱好。比如特喜欢的车,丰田凯美瑞或者中国红旗,可以经过往年的营销和口碑,以及功能判定这个人的个性,以及以后他的职业。还可以通过喜欢的音乐歌手,比如周杰伦,林俊杰判断特喜欢的歌曲类型来做营销,一般是情一些明星过来代言,明星收取一部分代言费,然后代言的产品价格上涨,还是消费者买单,没办法,谁让你喜欢他呢。

我是计算机这边的,不是营销的,所以这里介绍一下,你说你经常参与营销活动,但是你只是参与的线下活动,后台的事情,没有了解。实际上,计算机都是通过后台收集的用户数据进行精准营销的,比如你喜欢关晓彤,那么商家可能就会联系她来做代言,然后向你推销产品了,加油吧,你女神的酒,够你喝一壶了。
这里我来写写做好大数据,作为basis,应该做哪些事情。
首先,搞清楚,大数据的两个核心,一个是数据的存储,一个是数据的计算。
最早时Google研发了世界上第一个真正意义上的大数据分布式存储和计算产品,就是google file system 和google mapreduce。

根据分布式的思想,文件数量体量超过一台服务器的最大容量的时候,如果要继续存储,那必须根据数据整体的规模大小,以及单台服务器的存储最大容量,计算出存储该文件 数据需要的服务器总台数,从而实现服务器节点数量的规划,然后将这些节点用网络的方式组织起来,变成一个集群。再部署一个系统,作为管理。
并行处理也有一些问题,如下:
一个作业如何平均分布很多个单独的任务去处理?
计算过程中各个节点上的资源如何统一分配和回收?
中间产生的计算结果如何及时的统计汇总?
集群服务器计算完成的最终结果是如何统一的输出?

大数据符合以下的架构:
数据交易万象 接口等
数据生成dag 数据分析软件
数据分析。hiv分布式数据仓库 sql
数据存储 云存储 云数据库 Hadoop集群
数据收集 历史数据文件 点击流 数据市场 实时日志 数据流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Troc_wangpeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值