数据仓库建设方案详细(一):数据仓库建设(下)

问题导读:
1、常用的算法模型有哪些?
2、如何对数据进行监控管理?
3、大数据平台的数据服务是怎样的?

 

1.5    数据分析建模
伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度。数据已经作为企业、事业单位的重要资产被广泛应用于盈利分析与预测、客户关系管理、合规性监管、运营风险管理等业务当中。如何建立大数据分析模型,以提供决策依据是很多用户所迫切解决的问题。
专家数据仓库建立在Hadoop分布式系统之上,提供了多种丰富的算法模型,不同的应用通过借助不同的接口实现数据的多维呈现和结果展示,为用户提供科学的决策支持。

图 10-7 hadoop算法模型图

大数据平台提供数据挖掘模型、分布式计算引擎、高性能机器学习算法库(包含分类 、聚类 、预测、推荐等机器学习算法)、即席查询功能,可以帮助决策者快速建立数据分析模型立方体,便于决策者进行OLAP分析。
常用算法模型:

  • 分类算法:
    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。如政务网中将用户在一段时间的网上办理所遇到的问题划分成不同的类,根据情况向用户推荐关联类的问题解决方案,从而方便用户快速解决网上办事审批中遇到的各类问题。
  • 回归算法
    回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。在回归算法常将数值结果转化为了0到1之间的概率,数值越大,函数越逼近1,数值越小,函数越逼近0,它可以应用到对数据序列的预测及相关关系的研究中去。如我们根据这个概率可以做垃圾预测,例如概率大于0.5,则这封就是垃圾。
  • 聚类算法
    聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。分类算法中的一个显著特征就是训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在聚类的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。以二维的数据来说,一个数据就包含两个特征,可通过聚类算法,给他们中不同的种类打上标签,通过聚类算法计算出种群中的距离,根据距离的远近将数据划分为多个族群。
  • 关联算法
    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。
  • 推荐算法
    推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。
  • 神经网络模型
    神经网络模型,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型;第二类是用于联想记忆和优化算法的反馈式神经网络模型。第三类是用于聚类的自组织映射方法。
  • Adaboost算法
    其核心思想是针对同一个训练集,训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
  • 深度学习
    深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络,用来处理存在少量未标识数据的大数据集。


1.6    数据资源管理
专家系统数据具有数据量大、数据类别多、数据关联关系紧密等特点,随着数据的积累,数据资源的利用价值逐步体现,提高数据的管理,是对数据资源充分利用的前提条件。数据资源管了包括如下几部分容:数据标准化管理、数据监测管理及元数据管理等。
1.6.1    数据标准管理
汇集整理数据资源管理所需的标准规信息,建立数据标准数据库。利用专家系统数据标准管理系统的接口同步更新标准信息。包括数据元标准以及信息代码标准。

  • 建设数据资源库,实现专家系统发布标准数据元与本地扩展数据元标准的汇集。实现与车辆检修等数据源管理系统接口对接。
  • 建设信息代码资源库,梳理国标、部标和本省定义的标准代码以及各业务信息系统需要使用的其它代码,建立字典代码实体数据库。应具备字典代码定期同步功能。并建设信息代码在线映射维护功能,以便对数据标准化转换提供支持。

1.6.2    数据监控管理
大数据运行监控通过对大数据资源库相关服务器、Oracle数据库、分布式存储系统、Hadoop平台等的运行状态、性能指标以及数据更新情况进行持续监控,及时发现存在的问题及隐患,辅助系统管理员及时采取措施,提高大数据资源库的运行可靠性,保障大数据资源库稳定高效运行。发现异常问题时通过短信、等方式通知系统管理员及时处理,实现通过自动、智能、持续的自动监控预警代替人工巡检,降低运维工作量,提高运维效率。通过可视化图表对监控结果进行统计分析直观展现平台运行各类运行指标,辅助管理员从宏观角度掌握平台运行情况。

  • 性能指标监控
    可以对服务器CPU负载、Oracle数据库连接数、分布式存储IO负载、Hadoop负载等各类性能相关指标进行监控,以便掌握平台负载情况,及时发现性能问题,辅助平台优化。
  • 大数据库日志监控
    自动采集大数据相关组件运行日志,并根据既定规则进行分析,发现异常及时告警。提供日志查询检索功能,可以按组件类型、时间、关键字等进行过滤。
  • 数据量监控
    数据量监控通过对数据总量以及增量进行定期监控,可以掌握数据量变化情况,也可以从数据增量角度发现数据入库异常。数据量监测结果可同步到数据台帐,以便数据台帐统计数据总量情况。

1.6.3    元数据管理
元数据是数据仓库中存储的基本单元,实现对元数据的管理,数据仓库的最基本功能之一。元数据管理包括元数据注册登记、元数据存储、元数据建模等多方面功能。

1.7    数据服务
大数据平台开放存储访问接口,提供基于 Hadoop 技术体系的 HDFS、HBase访问接口,以 OpenAPI 的方式,为应用提供大数据存储服务。
数据服务层主要由数据服务总线来建设,主要负责将大数据平台的能力接口注册进去,再以标准化接口开放给应用系统使用,支持多种协议转换、服务质量 控制、访问控制、规则引擎等。数据服务层将大数据平台的数据服务能力开放出去,供第三方平台使用。

如上图:应用服务系统使用服务接口,来接入数据服务总线,经过数据服务 总线的接入端点,进行过滤。同时根据访问控制、服务质量、协议转换、策略调 度、规则引擎的处理,接出到大数据平台的能力接口。

相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页