本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。
部分资料内容:
一.1.1 数据采集子系统
数据采集需要实现对全区各委办单位的数据采集功能,包括离线采集、准实时采集和实时采集的采集方式,根据各委办局业务数据的情况进行采集技术的实现。
Ø 数据采集:政府数据来源多样,包含视频类数据、物联感知类数据以及传统的政务公共数据,各数据来源的数据格式也不一致,在收集的过程中需对数据进行规范化处理,以便于管理使用。
Ø 大数据存储:实现现有应用的大量结构化数据、半结构化数据,以及将全市统一规划的大量图片、视频资料等非结构化数据的存储需求,要求大数据基础平台采用分布式文件系统实现对汇聚的多类型海量数据的存储。
Ø 大数据分析计算:数据分析的处理速度、准确度对实际应用的及时性、高效性都有至关重要的影响。大数据平台提供分布式计算、流式计算、内存计算多种数据计算引擎,能够针对不同的场景采用不同的计算模型,对数据进行大规模批量处理或者实时处理,大大提升政府部门的决策效率能力。
Ø 分布式资源管理和调度:Hadoop 2.0中的资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。
Ø&nb