1、大数据相关概念
1.1 数据库(DB)
概念:数据库(DataBase,简称DB)是数据库系统的核心部分,是数据库系统的管理对象,它是以一定的组织方式将相关的数据组织在一起,长期存放在计算机内,可为多个用户共享,与应用程序彼此独立,统一管理的数据集合。
特点:1数据按一定的数据模型组织、描述和储存的 2多用户共享 3冗余小 4数据独立性 5易扩展
1.2 数据仓库(DWH)
概念:数据仓库(Data Warehouse,简称DW或DWH)一个面向主题的69集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。数据仓库也是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
特征:面向主题、集成性、稳定性、随时间变化。
1.3 大数据
概念:大数据指的是大小超出常规的数据库工具,获取,存储管理和分析能力的数据集,但他同时强调,并不是说一定要超过特定TB值的数据集才算是大数据
特征:(4V)1 体量巨大(Volume) 2处理速度快(Velocity) 3类型繁多(Variety) 4价值密度低(Value)。
2、大数据关键技术
2.1 大数据采集
概念:指对于来源丰富且类型多的庞大数据进行采集,网站数据,移动设备的数据,语音、图像、视频和图片等数字化数据,空间数据,非结构化的文本数据。常用工具: Flume、sqoop、Kafka等
2.2 大数据存储
概念:大数据存储与管理采用的是分布式文件系统,可实现高吞吐量的数据访问。人们利用大数据存储和管理工具,将分散在不同数据节点的数据,通过数据备份、镜像来保证数据的安全,以及保证相对快速的访问请求。常用工具有: HDFS、Hbase、Hive等。
2.3 大数据分析
概念:指在数据工程师把大数据“整理、清洗、集成”之后,借助数据分体的工具和业务问题实际需要,采用不同的算法和方法等进行数据分析大数据存储和大数据分析两者密切相关,大数据存储是大数据分析的基础,大数据分析是大数据存储的数据价值的挖掘和数据的再造。常用的工具:MapReduce、Spark、Flink等。
2.4 大数据可视化
概念:大数据可视化包括科学可视化和信息可视化,科学可视化主要面向自然科学,如地理、医学、生物学、气象学和航天航空等学科领域;信息可视化更关心和是应用层面的可视化问题。常用的工具: EchartsTableau、DLV等。
3 大数据场景化应用案例
3.1 医学病症的分析
相关:阿尔兹海默症:CDT画钟测试用大数据集做训练,然后模型泛化性大大增强
3.2 金融行业
相关:金融行业的数据非常多,通过各个用户交易情况个性化推荐相关内容。
参考文献: