数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入大数据时代——至少不是以一种成功的方式。
在将各种形状和大小的数据资产以非统一方式汇入Hadoop环境或另一个大数据存储库的情况下,尤其如此。这种无序的方法会带来一些挑战和问题,这可能会成为使用数据湖来支持大数据分析应用程序的一大阻碍。
例如,您可能无法记录哪些数据对象存储在数据湖中,或纪录其来源和出处。这使得数据科学家和其他分析人员很难找到分布在Hadoop集群中的相关数据,也难以使数据管理者识别谁可以访问特定数据集,并确定其访问权限级别。
如果您没有一个良好的管理流程,组织数据并将相似的数据对象“桶装”在一起以帮助简化访问和分析也将是一个挑战。
这些问题都与数据湖或底层环境的物理架构无关,无论是Hadoop分布式文件系统还是像Amazon Simple Storage Service这样的云对象存储——或这些技术的组合,每种技术包含不同的类型数据。相反,成功实施数据湖的最大障碍来自对数据管理的规划和监督不足。
合理建立Hadoop数据库的7个步骤
处理Hadoop数据:做需要做的事
好的一点是,这些挑战很容易克服。以下是解决和避免这些问题的七个步骤:
1、创建数据分类方法。在数据湖中对数据对象进行组织取决于其分类方式。在分类中需要确定数据的关键维度,例如数据类型、内容、使用方案、可能的用户组和数据敏感性。后者涉及保护个人和公司数据,例如保护有关客户的个人身份信息,或者保护知识产权。
2、设计适当的数据架构。应用定义好的分类方法来指导如何在Hadoop环境中组织数据。最终的计划应包括诸如用于数据存储的文件层次结构、文件和文件夹命名约定、用于不同数据集的访问方法和控件、以及用于指导数据分发的机制之类的内容。