很久没有更新博客了,今天主要是想谈一谈自己工作几年总结的心得。
1.浅尝辄止
数据库:基于mysql,oracle来实现数据库分析(存储在数据库,使用数据库语言直接分析,最后成报表形式)。
数仓&大数据平台;随着数据量暴增,业务复杂度增高,以及烟囱式开发的弊端(导致了数据不互通、重复造轮子、研发效率低的问题,相似的数据产品也有非常多,占用了大量的存储和计算资源,数据口径也无法对齐,内部沟通和管理成本变得很高),追求时效性等,采用大数据hadoop平台组件hdfs做存储,以hive为主的数仓体系,大数据计算引擎(一代是mapreduce,二代是tez,三代是spark),依据公司的适用性,会采用其他的计算引擎,比如MPP计算引擎架构(impala,presto,click house等),注重时效性,会采用实时组件,flink、spark streaming等,存储非关系性数据,采用no_sql组件,redis、hbase、mongondb、log4j等,构建一套完整数据仓库,对外提供出即席查询、报表开发、多维分析的能力。
数据中台:在大数据平台基础套了个数据服务的马甲。以数据中台组件化、智能化的方式,将