大数据业务模型和技术架构简图
1.背景
- 大数据技术随着互联网的发展而兴起于21世纪初,最早遇到海量数据技术问题的是搜索引擎公司,如谷歌
- 数据量级别的暴增是由于2010年之后的互联网兴起,网络用户数量暴涨带来的海量用户数据暴增。对大数据处理的存储成本、量级、处理实时性都提出了更高要求
- 未来随着5G技术发展,物联网势必兴起,万物互联之下,产生的数据会进一步提升,预计是2–3个数量级以上。大数据处理技术会遇到更大挑战。
2.业务模型和技术架构简图
- 常规大数据业务模型,最简化如下
- C/S,客户端服务器模型,
- 客户端和服务器端2者会产生大量业务数据,如电商,社交应用
- 同时为了对业务数据和用户行为做监控分析,会有大量客户端和服务端日志数据产生
- 部分特殊业务场景下,数据可能是购买,交换得来的。
- 大数据处理流程简化如下
- 数据的导入和导出,从mysql等数据库导入到分布式文件系统,一般使用sqoop、datax、spark sql等工具软件导出。
- 数据导入过程中,或者导入之后,进行数据预处理。例如一些业务数据中的脏数据例如由于生产环境测试而来的假数据,例如日志文件中字段缺失严重的数据等等。
- 数据存储到分布式文件系统中,如HDFS
- 数据分析,针对大量数据,进行分析和处理。例如Hadoop的mapreduce、Spark、Flink、Storm。由于这些数据类型不一,采用的技术也会有差异ÿ