大数据架构(一)大数据系统介绍

【摘要】

大数据系统介绍,挑战和发展。

【背景】

      大数据架构是我最喜欢的架构,不知道怎么形容,第一次看到的时候就一个感觉:优雅,太优雅了。不管是后面的深入学习还是实践利用,因为喜欢掌握得特别快,这种感觉也在逐渐加深,所以希望能系统性地讲明白大数据,让大家都能get到它的优美。

【问题】

大数据的发展现状怎么样,以及挑战和发展趋势。

【大数据发展介绍】

我认为大数据的发展到了今天是个必然的结果。随着云计算、大数据、AI 等技术的飞速发展及应用的不断普及, 我们逐渐进入了一个数字化时代,现在移动互联网产生的数据量是难以想象的,不是之前装一个关系型数据库就能用的系统了。而且数据的类型和来源也发生了很大的变化,日志、视频、网页、终端、物联设备等等都会产生大量数据,要从这些数据里获取有效信息就太难了,可能要花费很多时间,还不一定准确。所以大数据有4V特性:Volume(大量)、Variety(多样性)、Velocity(速度)、Veracity(真实性)、一说是Value(价值密度低)。

在目前和可预见的未来,各行业都在以云计算大数据为基础设施进行构建新型数字化数据,数据就是生产资料,生产力就是算力,生产关系就是工业互联网,生产工具是大数据和AI,把数字化架构搭好可以实现无人少人。这对于产业来说当然是好事,但对于个人来说就意味着很多岗位可能不需要人了,这个发展路线谁都能看得到,既然看到了我们就要先知先觉,早做准备。不要做新技术的替代品,要做这个架构的设计者、建设者,因为新技术也同时会带来很多效益。对个人来说就是会提供一些新岗位,这些岗位可能比原来要求高一些,但并不是绝对的高,比如智商要达到很高,学历要达到博士这样的,这种人才在哪里都能发光。而是说要不断学习新知识、新技术,没有持续学习和进步能力的人可能会跟不上这波浪潮吧。

可以看一下官方的一些文件,会发现国家数据战略已经提了好几年了:

我个人是很喜欢一句话:时来天地皆同力,运去英雄不自由。人一定要借势,以前有句话很流行“风口上猪都能飞”,但是经济调整期哪里容易追逐风口?所以不是说要追逐风口,而是要顺应时代的大势。国家施行什么战略,十X五规划要发展什么产业,工作报告提什么,这就是大势,顺着这个方向走,才能借力,才能省力,才能出成果。

在大数据行业里,什么细分领域发展最好呢?行业解决方案和大数据应用占比最高。

其实这两种细分领域都是比较偏应用侧了,也就是说现在更需要的是把技术落地的过程,小开发者再去研究算法或者模型什么的意义不大,再会写算法能写得过大厂么,基础设施这块市场大厂早就占下了。

【大数据的挑战】

一个新技术要落地总是要面临许多挑战和困难的,大数据也不例外:

1、业务部门需求不明确

很多企业业务部门不了解大数据的应用场景和价值,因此难以提出大数据的准确需求。由于业务部门需求不清晰,大数据部门又是非盈利部门,企业决策层担心投入产出比不高,在搭建大数据系统时犹豫不决,甚至由于暂时没有应用场景,删除了很多有价值的历史数据。准确地说很多公司甚至不清楚大数据是做什么的,自然也不觉得自己需要,目前还是大公司在做这样的战略。而且即便是在做大数据的公司,部门领导也不一定懂大数据,可能是赶鸭子上架,亲眼见过一个对大数据一无所知的领导面试大数据架构师,场面只能用尴尬来形容......

2、数据孤岛严重

数据孤岛和烟囱系统的问题不只是大数据业务的挑战,在传统信息化建设里也很常见,但是大数据建设特别限制于数据的碎片化。在大型企业中,不同类型的数据常散落在不同部门,使得同一企业内部数据无法共享,无法发挥大数据的价值。

3、数据质量差

数据可用性低是很多大中型企业的通病,因为每天会产生大量的数据,但很多企业在大数据的预处理阶段很不重视,导致数据处理很不规范。大数据预处理阶段需要抽取数据把数据转化为方便处理的数据类型,对数据进行清洗和去噪,以提取有效的数据等操作。还有很多企业的信息化系统是早先就建设的,当时甚至没有大数据的概念,规划建设时也没有这方面的考虑,可能中间做过数据治理,但每次治理都是推翻重来,并没有统一的数据标准。到现在要做大数据建设,就很难做数据ETL。以前跟过一个国网设备资产管理的信息化系统建设,每年都搞数据治理,每年都更新数据,不客气地说就是造数据,为了应对检查。搞笑的是当时为了提高效率,写了很多自动化脚本给他们,结果他们图省事把脚本里的数值全都写成了一样的,就是不管是啥电缆母线导线什么的,长度规格全都一样,就这数据质量。

4、数据存储问题

大数据之所以有个“大”字,就是因为与传统的数据量级别不同, 传统的数据库不适合处理 PB级别的数据。而且传统的数据库基本都存放结构化数据,没有考虑数据的多样性,尤其对半结构化数据和非结构化数据的兼容。这也是为什么大数据一般跟数据仓、数据湖等是一起建设的,因为传统的多源存储和多源数据集成不太适合了,但是这种新的建设方案还是技术要求比较高,且成本较高。

5、数据安全问题

信息化和数字化给我们生活带来了很大方便,但是也让犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段。数据泄露越来越严重,据说在暗网上各种敏感数据会以特别低的价格卖掉,普通人还没法维权。数据泄露也越来越容易,比如说家里的摄像头连接公网,很容易就被人黑进去,可能会拍到一些隐私镜头,同样会以很便宜的价格卖掉。还有那些电信诈骗的怎么得到的联系方式还用问么......大家一般都不知道这些风险,即便知道了也无法确定是怎么泄露的,溯源了也无法维权,用户协议可以仔细看看,平台早就把这些责任摘清了。感觉我们能便利上网好像就默认接受了这些代价,只能寄希望于相关法律法规和监管的加强了。

6、数据开放和隐私

如果要发展数据经济,数据资源的开放共享是关键,但是数据的开放不可避免的会侵害一些用户的隐私。在数据全面开放的过程中,怎么保证保护公民和企业隐私,怎么保证数据伦理,怎么明确侵犯隐私的边界和惩罚措施,这都是难点。之前大数据杀熟不是火了一阵子么,这个词条就很险恶,什么叫大数据杀熟,那明明就是崽种平台杀熟,哦,把事情推到技术上,平台就逃脱了是吧?这些平台明明靠着消费者吃饭,还把消费者当猪来宰,一旦暴露就推到技术上,技术只是刀罢了,拿刀的那把手才是关键。

7、大数据人才缺乏

大数据建设的每一个环节都需要依靠专业人员完成,因此必须培养和造就一支掌握大数据,懂管理,有大数据应用经验的大数据建设专业队伍。全球每年将新增数十万个大数据相关的工作岗位,未来将会出现100万以上的人才缺口。这个挑战可能跟普通人关系最大,也是我们能从其中寻求机会的关键。

【大数据的机遇】

大数据所能带来的巨大商业价值,被认为将引领一场足以与 20 世纪计算机革命匹敌的巨大变革。大数据正在对每个领域都造成影响,包括商业、经济等领域。数字经济、数据经济可能成为新的经济增长点,尤其是国家数据局的挂牌成立,是一个很好的信号。

1、大数据挖掘

大数据的重心从存储与传输已经逐步过渡到数据的挖掘与应用,已经开始并正在改变着大多数企业的发展途径及商业模式。

2、大数据支撑信息技术应用

要从事大数据产业,不一定非要从数据挖掘、数据治理开始,传统的信息技术应用现在也很需要大数据。这些技术以大数据为节点,不断汇集所产生的信息,并通过对不同来源数据的统一性、综合性的处理、分析与优化,将结果反馈或交叉反馈到各种应用中,可以进一步改善用户的使用体验。包括移动互联网、物联网、社交网络、数字家庭、电子商务等。信息技术应用结合大数据,可能创造出巨大的商业价值、经济价值和社会价值。因此,大数据具有催生社会变革的能量,但是释放这种能量,需要更严谨的数据治理、富有洞见的数据分析和激发管理创新的环境。

3、大数据创造新的市场

随着行业用户对大数据价值认可程度的增加,新的市场需求将出现,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。
同时,大数据技术将为信息产业创建一个新市场: 在硬件与集成设备领域,大数据面临的有效存储、快速读写、实时分析等挑战,将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场; 在软件与服务领域,因为大数据中蕴涵的巨大价值,带来对数据快速处理和分析的迫切需求。

【大数据未来发展趋势】

这个不是我说的哦,是目前很多大佬做的预测,看看是不是能够与我们从事的工作结合呢:
大数据与人工智能、云计算、物联网、区块链等技术日益融合。
大数据资源将成为对各国经济政治等方面产生重要的影响。
大数据应用基础条件发生跨越式变化。
扎实大数据技术基础。加强数学方法论研究。
构筑开放共享的大规模数据基础设施,到 2025 年实现大量公共机构的数据开放充分挖掘数据资源价值,强化未来竞争力源头。
有序推进 5G 商用化进程,实现大规模机器间通信,实现不同业务网络之间的实时超连接;充分利用物联网和云计算万物智能连接。
分阶段引进量子通信与安全网络等。
支持新型学习推断、量子计算、神经形态芯片等下一代计算技术研究,推动科研大数据开放共享,强化产学研合作共同研发产业共性技术等。
  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值