散杂货码头大数据平台建设方案

1概述

1.1“大数据平台”建设目标

建立可提供统一数据服务的“大数据智慧运营一体化管理平台”,建设数据应用集合与终端全覆盖的一体化平台,技术层面保障数据安全与平台稳定,坚持自主可控。“大数据平台”的建成,要能全面提升码头运营的可视化程度,形成“厄尔东散杂货码头”全天候运营管理能力。

同时,“大数据平台”,为各业务单元提供数据共享,用数据支撑日常业务运营进行精益管理,持续优化,降本增效。这些数据包括包括调度计划、船舶管理、装车管理、设备物资、商务计费等。

1.2整体技术建设方案

整体技术架构如图所示,在数据底层以EMS、NTOS为支撑。通过数据中台(Data Operation Center)按照数据质量管理规范进行数据清洗和数据加工,通过数据实时同步和定时同步完成数据整合,统一存储在数据仓库。按照五级架构(ODS/DW/DWS/ADW)设计的数据仓库,可对数据进行不同层次的划分和处理,以满足不同的数据需求和分析目的。架构设计,ODS层按照原系统数据表的抽取,在DW和DWS层进行数据脱敏和数据建模,按照前端展示需求进行ADS应用层建设,形成最终的结果应用。在前端界面,通过数字大屏、移动应用、数据报表做前端展示。

1.3重点难点分析

结合海州“厄尔东散杂货码头”目前的实际情况以及本次数字化建设的目标,“大数据平台”建设的重点及难点主要分为以下几个方面:

(1)数据标准的统一。按照业内数据治理标准规范,采用在统一业务标准和技术标准前提下的模式,制定与之一致的业务指标,后续系统建设及数据清洗完全按照数据治理规范进行。

(2)建立业务指标体系。通过识别关键业务流程,分析码头生产经营核心生产要素,对每个业务流程进行梳理,确定主要环节和关键指标;定义指标名称、确定指标的维度、设计指标体系,并确保业务指标体系与业务目标相一致,以此作为“大数据平台”建设的基本和关键。

(3)建议集中的数据处理平台。结合海州“厄尔东散杂货码头”的实际业务现状及数据分析需求,建设数据应用集合与终端全覆盖的一体化平台技术层面保障数据安全与平台稳定,坚持自主可控,方便后续扩展。

(4)形成跨域互联共享的数据应用。基于项目建设的各子系统,整合设备数据、物资数据、生产数据并现有相关业务系统,实现数据分析的全面覆盖,贯通各业务板块,实现数据穿透和贯通。

2数据治理

厄尔东整体业务数据管理和策略制定,包括主数据管理,指标体系建设,数据质量管理,数据安全等。

2.1指标体系构建

2.2.1 指标体系梳理方法

运用5W方法,结合实际业务分析梳理指标体系,明确业务指标的具体解释和定义。包括指标的计算方法、数据来源、使用场景,数据采集周期、分析维度等信息。

2.2.2 制定数据标准

根据码头业务实际情况,与市场行销部、操作部、设备管理部等各部门进行密切沟通,共同沟通“厄尔东散杂货码头”数据指标体系建设的相关事项,形成统认识,并以此为前提开展数据治理工作,制定与之一致的业务指标。

建设统一指标管理体系:以“一数一源,一源多用”为原则,从各业务单元和主题域澄清指标口径、指标归属部门、指标分析维度等,形成统一指标体系。

指标提取与分类:根据数据分析框架进行归类,梳理基础数据和过程数据,并将各项指标与业务实体进行对照,在同一报表或报告中的指标可能涉及多个主题或跨主题的不同描述。

指标梳理与标准定义:主要工作在于区别命名相似、业务含义不同的指标,明晰业务定义和用途,明确指标的计算逻辑和指标溯源,并与实际业务场景进行对照。

指标管理规则定义:整体的业务主数据维护,基于公共数据提取基础数据表,维护基础表中具体指标,包含指标的定义、指标的维护、分析维度等,后续用户查看指标、分析指标、申请指标等都通过统一管理。

2.2.3 指标体系方案

以码头发展的战略目标和生产运营的业务目标为导向,建立一套科学、全面、可操作、可管理、可落地的指标体系。其方案设计的关键是根据业务需求和实际情况进行定制化设计。确保指标的准确性、可靠性、有效性和统一性。同时,指标体系设计需要与组织的战略目标相一致,以确保基于方形成可落地的数据资产,能持续的为组织提供有价值的数据支撑。

指标体系设计包括如下几个方面:

(1)确定业务目标:面向码头业务和战略发展方向,分解出可够量化、可衡量的,业务目标数据,以此作为梳理指标体系的边界和工作范围。

(2)确定关键指标:根据整体的业务目标,确定关键绩效指标,这些指标能够直接反映业务的核心绩效和关键结果。关键绩效指标应该具有可衡量性、可比较性和可操作性。

(3)确定衡量方法和数据来源:为每个关键绩效指标确定合适的衡量方法和数据来源。衡量方法可以包括定量指标、定性指标、比率指标等。数据来源可以是生产系统、设备物资系统、财务系统或其他途径导入。

(4)设计指标体系结构:根据关键绩效指标和衡量方法,设计指标体系的结构。指标体系应该具有层次结构,包括战略级指标、运营级指标和执行级指标,以便从整体到细节全面覆盖各业务领域。

(5)实施、监控和持续改进:根据指标体系设计方案,通过工具和技术手段将其落地到大数据平台,并进行监控和评估。定期审查指标的有效性和适应性,并根据需要进行调整和优化。数据治理的指标体系建设是一个持续的过程。定期评估和调整指标体系,根据实际情况进行优化和改进。

海州“厄尔东散杂货码头”数据指标体系设计方案图

指标体系建设的实施步骤:

(1)首先,由数据治理团队,通过分析现有生产流程、数据报表、生产报告等材料提出数《海州厄尔东码头数据指标建议方案》,根据“人员”、“设备”、“疏港”、“库场”、“卸船”、“物资”、“市场”等主题进行划分,由业务部门确定主题的筛选。

(2)基于数据治理团队提出《数据指标建议方案》,与业务部门进行访谈、调研,核对、澄清相关的指标的正确性、适用性,完成最终指标的梳理。

(3)第三步是根据指标体系,将指标细化,明确数据源、维度、分析方法、展现形式等。

2.2主题指标梳理

基于不同业务板块开展数据治理工作,形成各类型主题数据指标。

2.2.1 疏运主题数据指标

序号指标名称数据样例数据源指标周期
1装车量(吨)4,109,613NTOS日、周(常用)、月、年
2车数64,698NTOS日、周(常用)、月、年
3平均效率951NTOS日、周(常用)、月、年
4进港车数65,407NTOS日、周(常用)、月、年
5不良车709NTOS日、周(常用)、月、年
6车辆合格率1NTOS日、周(常用)、月、年
7最大效率2,376NTOS日、周(常用)、月、年
8最小效率0NTOS日、周(常用)、月、年
9平均 检车0NTOS日、周(常用)、月、年
10平均 待装1NTOS日、周(常用)、月、年
11平均 装车2NTOS日、周(常用)、月、年
12平均 平顶0NTOS日、周(常用)、月、年
13平均 待离2NTOS日、周(常用)、月、年
14MTL11,781,045NTOS日、周(常用)、月、年
15MTL21,646,641NTOS日、周(常用)、月、年
16股道停时(1道)GD1NTOS日(常用)、周、月
17股道停时(3道)GD3NTOS日(常用)、周、月
18股道停时(4道)GD4NTOS日(常用)、周、月
19股道停时(5道)GD5NTOS日(常用)、周、月
20股道停时(7道)GD5NTOS日(常用)、周、月
21股道停时(8道)GD5NTOS日(常用)、周、月
22股道停时(9道)GD5NTOS日(常用)、周、月
23股道停时(10道)GD5NTOS日(常用)、周、月
24股道停时(11道)GD5NTOS日(常用)、周、月
15股道停时(12道)GD5NTOS日(常用)、周、月

2.2.2 卸船主题数据指标

序号指标名称数据样例数据源指标周期
1卸船日期1900/1NTOS日、周(常用)、月、年
2货主南方电网NTOS日、周(常用)、月、年
3船名国家电网NTOS日、周(常用)、月、年
4堆场位置(米)3#NTOS日、周(常用)、月、年
5流程CD10NTOS日、周(常用)、月、年
6开始时间2023/1/2 16:06NTOS日、周(常用)、月、年
7结束时间2023/1/2 18:07NTOS日、周(常用)、月、年
8作业时长4.55NTOS日、周(常用)、月、年
9是否开喷淋NTOS日、周(常用)、月、年
10是否开除尘NTOS日、周(常用)、月、年
11结束(停止)原因切换堆场NTOS日、周(常用)、月、年
12皮带机BC22NTOS日、周(常用)、月、年
13泊位2NTOS月(常用)、年
14内/外内贸NTOS月(常用)、年
15船名流动号NTOS月(常用)、年
16航次V86NTOS月(常用)、年
17装港海州港港NTOS月(常用)、年
18货主南方电网NTOS月(常用)、年
19载货量69919NTOS月(常用)、年
20皮带秤总数69100NTOS月(常用)、年
21水尺量69923NTOS月(常用)、年
22抵港最大吃水13.8NTOS月(常用)、年
23舱口7NTOS月(常用)、年
24靠泊2023/1/2 16:06NTOS月(常用)、年
25开卸2023/1/2 18:07NTOS月(常用)、年
26完货2023/1/4 16:25NTOS月(常用)、年
27离泊2023/1/4 17:48NTOS月(常用)、年
28在港(d)2.07NTOS月(常用)、年
29作业(d)1.93NTOS月(常用)、年
30卸率(t/d)36243NTOS月(常用)、年
31停卸时间(h)5.37NTOS月(常用)、年
32扣除故障卸率(t/d)40998NTOS月(常用)、年
33清舱效率(h/舱)4.17NTOS月(常用)、年
34清舱油耗(L)440NTOS月(常用)、年
35加水量(t)131NTOS月(常用)、年

2.2.3 库场主题数据指标

序号指标名称数据样例数据源指标周期
1月份202301NTOS日、月(常用)、年
2船名大阳V86NTOS日、月(常用)、年
3货主2NTOS日、月(常用)、年
4载货量1NTOS日、月(常用)、年
5清场时间2023/1/8 12:01NTOS日、月(常用)、年
6车数20NTOS日、月(常用)、年
7装车量12179吨NTOS日、月(常用)、年
8库存532355.20吨NTOS日、月(常用)、年
9状态已清场/NANTOS日(常用)、月、年
10盈亏-23532.30吨NTOS日、月、年(常用)

2.2.4 设备主题数据指标

序号指标名称数据样例数据源数据周期
1设备SR4EMS日、月(常用)、年
2维保类型普通/重大EMS日、月(常用)、年
3作业类别卸船EMS日、月(常用)、年
4故障原因大车行走故障EMS日、月(常用)、年
5开始时间1/1 0:20EMS日、月(常用)、年
6结束时间1/1 0:38EMS日、月(常用)、年
7时长0.3EMS日、月(常用)、年
8备注(船名)乾熙V2214NTOS日、月(常用)、年

5.3数据中台建设

基于数据技术,对“厄尔东散杂货码头”生产运营数据进行集中管理,形成统一标准和口径,将数据加工以后封装成一个公共的数据产品或服务的能力复用平台。通过整合和统一管理码头各个业务单元、生产过程、经营环节以及运营节点的跨域数据。将来自不同业务系统、不同时段、不同维度数据源的数据进行抽取、清洗、整合和存储,形成一个一致的数据视图。为更清晰的理解和分析码头的运营情况,优化业务流程,提高效率和效益,挖掘数据潜力和价值,扩展数据应用,提供全面、准确、实时的数据支持。

数据中台建设包括,数据标准制定、数据模型搭建、数据仓库开发、数据采集模块开发等几个部分,其建设目标如下:

(1)数据采集和清洗: 从码头的各个业务系统和数据源中采集数据,并进行清洗和处理,确保数据的准确性和一致性。

(2)数据集成和存储:将清洗后的数据进行整合和存储,构建一个统一的数据仓库.以便后续的数据分析和应用。

(3)数据分析和挖掘:利用数据中台提供的数据,进行各种数据分析和挖掘工作,包括:生产效率分析、库存管理等。

(4)数据可视化和报表:将分析结果以可视化的方式展示,生成各种报表和图表,使管理者能够直观地了解码头的运营情况和业务指标。

(5)数据安全和隐私保护:在数据中台建设过程中,要注重数据的安全和隐私保护,采取相应的措施确保数据的机密性和完整性。

通过数据中台建设,码头可以更好地利用数据资源,提高运营效率和管理水平,实现数字化转型和智能化建设。同时,数据中台也为码头货主、船公司等产业链客户进行信息共享和合作提供了基础,促进未来协同发展。

3.1数据仓库建设

3.1.1数仓建设概述

建设数据仓库,以此作为数据中台的核心组件,满足业务数据的存储、清洗、计算等要求。随着码头业务的发展,数据产生方式的丰富,数据规模将不断增长,并在数据仓库中逐步沉淀和累积。 通过对这些数据的分析和价值提取,形成数据资产,支撑上层经营分析、生产数据应用、设备管理数据应等业务的开展。为未来开展人工智能应用、码头数字孪生应用、智慧生产应用等提供数据保障。

结合海州“厄尔东散杂货码头”的实际情况,数据仓库建设的总体方针是合理定位、适度范围、统筹规划、保护数据资产。在本项目中,为了提高数据的可用性、一致性和灵活性,使数据仓库能够更好地支持码头运营管理、经营决策和业务分析。拟采用分层结构设计,每个层次都有不同的作用和处理手段,解决特定的问题,使数据的组织和管理结构清晰、易于维护,数据处理任多层分解,实现高效的查询和灵活的应用。在数据开发方面,通过规范的分层设计,可以开发一些通用的中间层数据,减少重复计算和开发工作;统一数据口径,可以提供统一的数据出口,确保数据的一致性和准确性。

主要是数据分层结构如下:

(1)数据引入存储层(ODS, Operation Data Store):数据引入层是数据仓库的第一层,用于存放原始的、未经处理的数据。ODS是介于业务系统和数据仓库之间的数据层,存储当前各数据源的数据快照,是各数据源的大集成,在数据引入层中,数据的结构与源系统和源数据保持一致,主要负责对原始数据进行规范化的采集和存储,确保进入数据仓库的数据质量符合标准。

(2)数据处理层 (DW, Data Warehouse):是存放来源于ODS层根据主题汇总之后的数据,它是在ODS层的基础上进行数据加工和整合的一层。主要对ODS层的数据进行清洗、转换、整合,建立一致性的维度和面向分析的事实表。提供统一的数据口径和可复用的数据集合,形成更加规范和结构化的数据模型,以支持上层有数据调用及后续的分析和查询操作。

(3)数据服务层(DWS, Data Warehouse Service):是在DW层的基础上构建的一层,用于提供面向特定业务需求的数据服务。DWS层可以根据不同的业务需求,对DWD层的数据进行汇总、聚合和计算,生成更高层次的数据集,以满足特定的分析和决策需求。

(4)数据应用层(ADS, Application Data Service):数据应用层是数据仓库的最上层,主要用于提供面向具体业务需求的数据服务。在数据应用层中,可以根据不同的业务需求构建特定的数据集市、报表和分析应用,以支持决策和业务分析。

5.3.1.2数仓功建设内容

本项目的的主要建设内容包括:生产管理、设备和物资管理各模块的系统接口开发、数据抽取、数据处理、数据加载。可以按业务主题加载数据,能自动按照特定规则和执行时间加载数据。同时,对于非系统化的数据,提供通过导入方式加载数据的途径。

数据仓库主要完成数据底层的工作。包括源数据对接、ETL流程建立、EDW数据仓库的建立,在这部分中确保系统所需数据均能完整进入数据仓库中,同时满足数据标准、数据口径。

可视化多源异构数据整合,通过搭建企业级数仓,快速消灭信息孤岛,历史数据全部入仓,支持更多分析场景;同时让数据仓库承载计算压力,降低对业务系统的依赖。

ETL(Extract-Transform-Load)数据处理模式

实现跨域、跨业务单元的自动实时同步数据,通过日志监控的增量技术,提高数据增量更新效率,解决数据量大以及网络带宽限制带来的数据延迟,解放重复劳动人力,为决策提供更准确的数据依据。

各系统的数据接口,采用集成的数据接口,实现读取数据主要是BI平台能从不同的数据源读取系统所需要的数据,将数据按照约定的规则进行相应的转换后,放置到数据仓库中,利用BI平台软件对不同维度不同指标的数据进行可视化分析。

(1)数据引入存储层功能描述(ODS)

数来来源:各业务系统的原始数据抽取或数据导入。

数据存储范围:增量数据存储。业务系统的每条数据记录有时间戳,每次ETL抽取时,设定抽取的时间窗范围,时间戳在范围内的数据将被抽取到ODS层,通过增量数据甄别,减少数据处理量,提高ETL效率。

数据更新方式:按照数据跟新规则,增量更新数据。

数据结构:保留业务系统表字段,去除外键索引,非空约束,并添加数据源标识字段,以区分来自不同服务器,不同业务系统的接口数据。

主要功能特性:确认证业务数据的完整性,抽取业务系统特有的业务处理结果数据,分担部分业务系统的报表查询功能, 存储业务系统的分析主题相关的明细单据,作为二次分析开发的数据平台,隔离上层分析加工数据对业务系统的依赖,开放统一的数据读取接口。

(2)数据处理层功能描述(DW)

数仓DW层组件架构图

数据来源:数据来源于“数据引入存储层”(ODS, Operation Data Store)增量数据。

存储数据范围:全量的业务数据

数据处理方式:插入(Insert),更新(Update)操作。

数据结构:继承ODS层结构,并添加代理键(PK_ID),数据有效开始时间(START_DT),有效结束时间(END_DT),是否有效(IS_ACT),数据版本(VERSN)等字段,以保证核心业务的历史变化数据能够保存并加以版本管理,可进一步结合码头生产经营期间上下文进行查询和数据挖掘分析。

主要功能特性:在本层遵循3NF规则建表,存储基于业务主题的明细数据,承载各类型数据的存储和处理功能,包括如下:

DWD:事实表(data warehouse detail) 数据仓库明细表,以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。

DWS:事实表 (data warehouse summary) 数据仓库轻度汇总层,按照各个业务域进行轻度汇总成分析某一个主题域的服务数据,一般是宽表。

DIM:维度表,公共维度层,基于维度建模理念思想,建立整个业务过程的一致性维度,在本项目中,将根据实际应用得数据处理需求,采用 MySQL、Hbase、Redis 三种存储引擎中的一种或多种,对于维表数据比较少的情况可以使用 MySQL,对于单条数据大小比较小,查询 QPS 比较高的情况,拟使用 Redis 存储,降低机器内存资源占用,对于数据量比较大,对维表数据变化不是特别敏感的场景,使用HBase 存储。

(3)数据服务层功能描述(DWS)

采用数据模型,建立标准的基于业务主题的明细数据,为各种分析类应用提供细节性数据支持,同时为未来需求的扩展提供数据支持。形成轻度汇总以宽表的形式存在,主要是针对业务域进行快速方便的查询;形成高度汇总由明细数据层或轻度汇总层通过聚合计算后写入到存储引擎中,产出一部分实时数据指标需求,以支撑大屏展现生成应用。

(4)数据应用层功能描述(ADS)

本层主要面向应用,通过对DW层数据进行预处理,并给予预处理数据形成多维分析模块,提高了后续数据处理和访问性能,将应用过程中的常用信息进行共同沉淀和处理,例如以宽表形式冗余了维度表的名称,级次等属性,作为分析模型之间的一个过渡层次,提高分析模型数据的加工效率。

数据粒度保留到业务实体ID级、数据粒度由细变粗、选取主要维度、保留事件的业务度量,进行数据轻度汇总和沉淀。

3.2基于数据仓库的数据模型设计

本项目采用KimBall(维度建模)方法进行数据模型设计。以业务为驱动,重点关注用户理解和方便使用,兼顾上层应用及未来可能出现的大规模复杂查询的性能问题,旨在提供简单灵活性可扩展的数据模型。按照事实表和维度表来构建数据仓库和数据集市,维度是描述事实的角度,如日期、货类、代理名称等;事实是要度量的指标,如吞吐量、装车量、散杂货平均效率等。数据仓库数据加载将按照数据模型进行预处理,数据仓库收到应用层的数据访问时,根据所需要的报表维度,快速的从数据仓库读取数据。

3.3.1事实表设计

事实表是维度模型的基本表,每一行对应一个度量值,其所有度量值必须具有相同的粒度。其中如图所示存放有大量的业务性能度量值。力图将从一个业务处理过程得到的度量值数据存放在单个数据集市。由于度量值数据成为任何数据集市的最大部分,因此应该避免在不同地方存储其拷贝。在各维度值(货类、航线、货主、同比、环比和日期等)的交点处就可以得到一个度量值。维度值的列表给出了事实表的粒度定义,并确定出度量值的取值范围。

装车作业事实表设计样例

序号字段名称字段类型字段说明
1Entrucking_idInt装车作业ID
2consignor_idInt货主ID
3Shipping_idInt船公司ID
4goods_class_idInt货类ID
5dateDate日期
6Consignor_nameString货主名称
7Shipping_nameString船名
8BatchString批次
9vehicles_numberInt车数
10Broken_trainString坏车
11railroad trackString轨道
12ProcessString流程
13start_timeDate Time开始时间
14end_timeData Time结束时间
15business_durationData Time作业时长
16carloaderString装车机
17actual_weight _loadint装车机实装量
18equipment_srString斗轮机
19Actual_weight_srint斗轮机实装量
20equipment_bcString皮带机
21Actual_weight_bcString皮带机实装量
22Check_location_timeData Time对位时间
23fasten_timeData Time加固时间
24Start_load_timeData Time开装时间
25End_load_timeData Time完货时间
26Smooth_timeData Time平顶时间
27Depart_timeData Time离港时间
28berth timeData Time在港停时
29Terminal_timeString结束(停止)原因
30check_trainInt检车
31await ordersInt待装
32Loading_timeInt装车时长

3.3.2维度表设计

维度表是事实表不可分割的部分。维度表包含业务的文字描述。维度表有多列属性,这些属性给出对维度表的行所进行的描述。维度表的行数少且变更频率底,每个维度用单一的主关键字进行定义,确保同一与之相连的任何事实表之间存在引用完整性的基础。

3.3.3融合维度与事实表

本项目拟主要采用“星型模式”连接方案进行维度表与事实表的融合,同时,在定义了事实和维度表之后,由数字型度量值组成的事实表连接到一组填满描述属性的维度表中。在此模式中,维度表只和事实表关联,维度表之间没有关联;每个维度表的主码为单列,且该主码放置在事实表中,作为两边连接的外码。如下图样例所示:

以事实表为核心,维度表围绕核心呈星形分布。

数仓星形建模样例图

在实际项目实施过程中,基于项目建模场景的需要,结合使用“雪花模式”和“星座模式”进行数据建模设计。

数仓雪花模式建模样例图

数仓星座模式建模样例图

3.3.4建模设计过程

维度建模设计过程示意图

(1)选择业务过程

建模需紧贴业务,在这个业务过程中选择和定义需要建模的业务,根据业务需求考虑后续的扩展和生产运营管理情况选择业务。在本项目中选择的业务环节包括生产、卸船、堆场、火车、设备、商务等多个业务单元。

(2)声明粒度

在同一个事实表中的数据须相同粒度,不同粒度的数据处理方式是建立不同的事实表。并且从给定的业务过程中获取数据时,从最细粒度开始设计,最细粒度的数据能够承受无法预期的用户查询,基于原子粒度数据可建立上卷汇总粒度。

(3)确认维度

维度表是业务分析的入口和描述性标识。在本项目中,将对具体数据值的描述而非具体数据本身的数据设计在维度表中,定义维度表的字段,使得维度中无重复数据,维度主键唯一。设置维度表的主键和外键,确保维度表与事实表之间的正确关联。

(4)确认事实

事实表是用来度量的,基本上都以数量值表示,事实表中的每一行对应一个度量值,每行中的数据是一个特定粒度的细节数据。在本项目的建设中,须确保同一事实表中的所有度量数据必须有相同的粒度,对于区分哪些是事实类型数据时,重点关注数值类型和可加类型的数据。

3.3数据采集功能

为了防止“垃圾数据”进入数据仓库,须在ETL过程中进行数据清洗。ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。为了清除噪声数据,须在数据库系统中进行数据清洗。

3.3.1 ETL过程中实现数据清洗的实现方法

首先,在理解源数据的基础上实现数据表属性一致化。为解决源数据的同义异名和同名异义的问题,可通过元数据管理子系统,在理解源数据的同时,对不同表的属性名根据其含义重新定义其在数据挖掘库中的名字,并以转换规则的形式存放在元数据库中,在数据集成的时候,系统自动根据这些转换规则将源数据中的字段名转换成新定义的字段名,从而实现数据挖掘库中的同名同义。

其次,通过数据缩减,大幅度缩小数据量。由于源数据量很大,处理起来非常耗时,所以可以优先进行数据缩减,以提高后续数据处理分析效率。最后,通过预先设定数据处理的可视化功能节点,达到可视化的进行数据清洗和数据转换的目的。针对缩减并集成后的数据,通过组合预处理子系统提供各种数据处理功能节点,能够以可视化的方式快速有效完成数据清洗和数据转换过程。

对于存于业务系统中的数据,直接通过ETL工具进行数据库底层的数据抽取,无需其他系统对外的二次开发的接口获取。目前仅需数据库访问权限,通过后台进行数据抽取,清洗,转化到数据仓库中。另外,对于线下数据,开发录入接口,设置了一定的填报规则之后,将筛选后的数据据补录进入数据仓库中。

3.3.2数据集成平台ETL工具的应用

本次项目拟采用的ETL工具进行数据采集,通过此工具,可实现实时数据传输、数据调度、数据治理等各类复杂组合场景的能力,为企业业务的数字化转型提供支持。以数据为基础,以全链路加工为核心,提供数据汇聚、研发、治理等多种功能,满足平台用户的数据需求。,帮助管理

5.4智能报表底座平台

此功能为业务人员自主快速的、所见即所得的开发报表提供基础平台,在此平台通过简单操作链接数据源,根据需求制作报表,改变了提交需求给开发人员发布版本,开发新报表的模式,提高了数据使用的效率。

4.1数据可视化分析和报表开发工具

(1)快速开发(报表设计):在智能报表底座平台,采用零编码的设计理念,绝大多数操作通过拖拽即可完成。设计器是类EXCEL的风格,会使用EXCEL就会使用数据分析平台。支持多SHEET和跨SHEET计算,完美兼容EXCEL公式,完全支持公式、数字和字符串的拖拽复制,支持行列变化时单元格引用的内容自动变化等,用户可以所见即所得的设计出任意复杂的表样。

(2)丰富的数据展现形式

数据报表底座平台提供丰富的数据展现形式,以满足报表查看人员不同的数据分析需求。具有丰富的图表类型和样式。包括支持柱形图、折线图、条形图、饼图、面积图、玫瑰图、环形图、散点图、气泡图、雷达图、股价图、仪表盘、全距图、组合图、地图、甘特图、GIS地图、圆环图、漏斗图等样式的图表,每一类图表有多种形态,如柱形图包括堆积柱形图,百分比堆积柱形图,三维柱形图,三维柱形图(横向),三维堆积柱形图,三维百分比堆积柱形图等等。

丰富的数据图标工具界面

4.2数据报表交互功能

(1)交互操作体验

数据分析工具有良好的人机交互操作体验,可以帮助用户更好的制作报表,发现数据价值。上文中已经提到的图表钻取、 图表联动、参数查询也都是交互分析的一部分。

(2)数据联动

数据分析工具提供快捷的联动展现方式,即在同一个报表内,一个区域的数据发生变化,另外其他区域的数据也发生变化。联动的区域(元素块)可以自己定义,可以2个元素联动,也可以多个元素联动。

数据联动交互页面样例图

(3)数据钻取(上钻和下钻)

数据分析工具提供图表之间的钻取,通过一个图表块,根据自己的需求,进行上钻和下钻操作。通过钻取的功能,我们对数据能更深入了解,更容易发现问题,做出正确的决策。

上钻(Drill-up)是指从当前数据细节层次向上回归到上一层数据总结的操作。通过上钻,可以将数据从较低层次的细节数据聚合到更高层次的总结数据,以便获得更广泛的视角和概览。例如,在销售数据分析中,可以从产品级别上钻到类别级别,从而查看整个产品类别的销售情况。

下钻(Drill-down)是指从当前数据细节层次向下展开到下一层数据的操作。通过下钻,可以查看更详细的数据细节,以便更深入地了解特定层次的数据。例如,在销售数据分析中,可以从类别级别下钻到产品级别,以查看每个产品的销售情况。

上钻和下钻是相对的操作,它们可以帮助分析人员在数据维度层次结构中自由导航,从而更全面地理解数据。这些操作在数据分析和决策过程中非常有用,可以帮助发现数据中的模式、趋势和异常情况,从而支持更准确的决策和行动。

4.3移动端报表功能

支持报表集成到移动应用程序中,并可按照移动设备操作特点显示报表,比如支持页面的放大、缩小等。支持数离线查看,支持移动端进行在线填报和离线填报,支持与PC端共用模板,减少开发量。 支持IOS、Android系统,适应于移动端操作特性,支持图表手势操作、各种钻取联动等交互特性。支持移动设备硬件地址绑定,支持 VPN,保障用户信息安全。

采用移动端APP开发技术开放移动端应用,专为移动处理器加速优化,相比传统的 HTML 报表,渲染 的速度、交互操作的流畅度均有大幅提升。查看报表所需传输的数据量仅为传统HTML报表的1/10至1/5, 即便使用3G网络,也能迅速打开报表,顺畅地进行交互操作。

此外,为了适应不同的屏幕大小,数据分析平台会对报表页面进行缩放以达到最佳效果(移动端支持竖屏、横屏查看,两种屏幕方向均会进行自动缩放)。用户也可以通过手动缩放来进行局部放大,以便更清楚地查看一些明细数据,支持双指缩放和双击缩放。

4.4报表定时调度功能

定时调度功能满足需要定期产生、定时发布的报表场景。数据分析工具,定时调度功能自动产生和发布报表,将人力资源从重复操作中解放出来,可以方便快捷的设置日报、月报、季报、年报等任务。定时任务设定后服务器便会在指定的时间自动完成设定的任务,生成所需的文件。并可根据业务需要以邮件、短信、平台消息通知的方式进行通知。

(1)定时日报:日报功能是在每天生成固定某个时间段的数据,比如在今天生成昨天的00:00:00到23:59:59的所有数据,这些数据可根据需要以PDF、WORD、XLS等格式保存在设定的目录当中。

(2)定时月报或年报:每月在固定某个时间段统计需月报数据,还可在年底统计全年数据生产年报,这些数据可根据需要以PDF、WORD、XLS等格式保存在设定的目录当中,进而备份数据。

(3)定时任务文件处理:在定时任务完成后可以将结果文件保存在指定的目录、FTP或者以附件形式进行邮件提醒,也可以进行短信通知、平台消息通知,还可以推送到移动终端。

(4)条件型定时任务:在执行定时任务之前进行一次条件的校验判断,如果不满足条件就不执行或者延迟后再次校验执行(只有在勾选了任务重启才会出现延迟一段时间后再次校验执行)。条件判断包含三种类型的选择:始终执行、公式判断和自定义类判断。

(5)任务管理:针对已设置的各项定时任务,可以进行集中管理,包括任务运行状态查看、暂停、编辑、复制等等。

4.5平台权限管理

数据分析工具,提供丰富的权限认证方式和细致的权限粒度控制方案,更可方便实现单点登录。只需在权限控制页面简单设置,即可实现对模板的查看、填报权限,模板远程设计数据连接使用权限,模板内容的显示权限控制。另外还可以对报表模板进行加密设置。用户在登录平台系统时,要告诉系统当前访问系统的用户是谁,其输入的用户名密码是否正确,此时 就需要对登录的用户进行认证, 数据分析平台提供了三种用户身份验证的方式来实现该功能充分的保证了数据的安全性。

权限控制可对报表模板查看、设计的权限进行配置。用户登录系统,查看数据报表,可以通过以下四种方式来控制该用户所能查看的报表。通过数据权限控制和安全性保障,能够确保数据的安全各级操作权限的合理管控。

5.5领导驾驶舱

通过整合不同指标体系,汇聚多维度数据,形成可统揽全局的“领导驾驶舱”集中视图,从不同的管理视角和业务视角,展示不同业务单元所关注的各指标体系,为管理和业务提供决策依据。统一的数据分析系统提供给各应用的手机端、网页、大屏呈现,解决报表多,呈现形式多,数据源多的难题。

领导驾驶舱示例图

5.1驾驶舱仪表板功能

驾驶舱仪表板功能可将多个分析内容,多组件组合成一个仪表板或者报告成为可能。是一个面向分析主题的数据呈现方式,用户可以基于仪表板监测关键指标,定期进行工作汇报展示。在驾驶舱仪表板中用户可以随时通过筛选器对数据进行过滤,可以通过组件直接的联动功能,实现关联分析,可以通过跳转功能将多个仪表组合成一个更大的分析主题。

同时,作为一个数据主题展现的容器,驾驶舱仪表板还提供了易用的自适应布局,各种主题颜色样式的配置,除了添加主要的分析组件,还提供了动态的富文本组件,图片组件,WEB组件等功能,让用户可以更好的展示和表达数据分析的思路和结果。

5.2驾驶舱数据联动功能

在下图所示的驾驶舱仪表板功能中,用户拖拽的分析组件只要数据有关联关系,就可以产生联动,展现出频率最高的关键词,要掌握高频词汇相关的其他数据表现,用户点击关键词,其他组件就会根据展现出相关的数据,方便的让用户查看数据发现问题。

5.3驾驶舱仪表板组合功能

可以将多个仪表板组合成一个更大更完整的分析主题,通过点击主仪表板上的各种元素,可以以新窗口,当前窗口,弹窗的方式打开相关的仪表板,进行更细致的数据展示。

5.4领导驾驶图表渲染和布局

5.4.1可视化图表

领导驾驶舱。摆脱了图表类型对可视化效果的限制,而代之以各类形状。其强大的数据处理引擎和图表渲染机制,满足更高数据量的要求,前端展示数据量可达百万级。

可展示形状包括:自动、柱形图、点、热力点、线、面积、矩形块、饼图、文本、填充地图、漏斗图和仪表盘等,辅以颜色,大小,提示,标签,细粒度,可以组合成丰富的可视化效果。

除了基础的图表类型,可视化图表还可以实现,如日历图,颜色表格,KPI指标卡等等。

5.4.2地图展示功能

强大的地图功能,自助平台支持区域地图,点地图,热力地图,流向地图等丰富的地图效果。

分析效果:提供了一种将多项指标并列分析的视角。通过分面,可以分析不同指标的相关性,从而发现数据的潜在关联。

列举一个简单的例子,不同年份,不同产品线的合同金额,回款金额,购买数量之间的相关性。

5.4.3多种图形的组合展示

支持不同指标采用不同的图形映射,因此用户可以将任意多种图表类型进行组合显示,并单独设置各图表的属性。

5.4.4布局样式

为了达到更好的展现效果,采用自适应布局,自动根据屏幕的大小和分辨率进行适应。支撑多种主题的配色,可以根据需要对组件透明度,字体,颜色,重叠等各种属性进行变更,使其可读性和冲击力更强。

6 生产数据应用

聚焦生产全过程管理,支持接入业主方数据大屏展示,通过数据分析中心为了解生产计划完成情况选取指标,涉及大型装卸设备数量、吞吐量、自然吨、库场堆存量、重点货种完成情况、在港船舶作业数等。

分析维度,包括时间维度(当日完成量、月度、年度计划累计完成进度)、货种维度、组织维度 (部门等)

展现形式,通过指标卡、进度仪表盘、词云、柱形图等进行展示,凸显各类型数据的不同变化,时间进度、相互位置等。

生产数据分析看板示例图

6.1疏运场景数据分析

数据应用名称主要涉及指标和数据样例分析方法举例
1火车疏运数据分析①装车量:3807312.25吨②车数:64968③平均效率 823 t/小时①货主维度汇聚分析②货类维度汇聚分析③时间维度汇聚分析(日、月、年等)④统计量(平均值)⑤对比方法(环比、同比)
2火车装车数据分析①检车时长:0.42小时②待装时长:1.05小时④平顶时长:0.22小时③装车时长:1.99小时⑤待离时长:2.40小时①装车机维度汇聚分析②货类维度汇聚分析③统计量(平均值、最大值、最小值)
3车辆合格率分析①进港车数:54208车②不良车:392车③车辆合格率:99%①时间维度汇聚分析(日、月、年等)②对比方法(同比、环比)
4装车机数据分析①装车机实装量:2976.18②装车时长:3.5③装车效率 850.33t/h①装车机维度分析②装车量数据分析②统计量(最大、最小、平均)效率
5股道停时分析①1股道停时(小时):1340.88 ②3股道停时(小时):1573.50③4股道停时(小时):1781.20 ④5股道停时(小时):1486.27①股道维度汇聚统计②股道总停时②统计量(最大、平均、最小)停时
6疏运故障数据分析①作业总时间:330.62小时②作业总吨数:367284.45吨③故障总时间:42.72小时④故障率:12.92%①皮带线维度汇聚统计②装车机维度汇聚统计③同比、环比数据分析④月度、季度、年度 数据分析⑤平均、最大、最小数据分析
7原油直供故障数据分析①作业总时间:120.97小时②作业吨数:122,884.21吨③故障总时间:2.07小时④故障率:1.71%①皮带线维度汇聚统计②斗轮机维度汇聚统计③同比、环比数据分析④月度、季度、年度 数据分析⑤平均、最大、最小数据分析

6.2卸船主题数据应用

数据应用名称主要涉及指标和数据样例分析方法举例
1卸船数据分析①作业时间:17.5小时②作业量:26354吨③卸船效率:1505.9吨/小时①平均作业量②平均作业效率
2卸船状态数据分析①开始时间、结束时间②结束或停止原因① 卸船作业结束时间分析② 卸船作业停止原因分析(交接班、完货、切换流程等)③ 设备故障原因联动设备运维分析

6.3库场主题数据应用

数据应用名称主要涉及指标和数据样例分析方法举例
1库存数据分析①库存量:23342吨①以时间维度分析②以客户维度分析
2盈亏数据分析②装车量:34282吨③载货量:77543吨③盈亏数据 43261吨①以船名分析②以货主维度分析
3库存状态数据分析①疏运数据②卸船数据③库存数据①库存状态分析:出库中 已清场②以船名、时间等维度分析

7商务分析数据应用

针对商务相关维度的数据分析,包括客户委托数据、货源数据、商务计费数据等

通过数据分析中心,统一数据分析入口,对各项指标进行总览监控。选取指标包括散货自然吨、主要货种、 完成数据、大客户完成数据、综合单价等。 分析维度涉及,时间维度(同比、环比、年度计划累计完成进度)、货种维度、组织维度等。

8设备统计分析数据应用

“大数据平台”,通过接入“NTOS”和“EMS”的数据,对设备数据进行分类统计和数据汇聚,形成设备数据分析看板,集中展示,保养次数、完成率、费用统计等。以及故障趋势分析、维修工单统计(故障次数、费用、工单耗时、故障原因等统计)。

8.1设备主题数据应用

通过在“大数据平台”进行设备类数据指标的存储、统计和分析,形成基于设备类主题数据的“设备维修数据分析”、“设备保养数据分析”、“设备点巡检数据分析”和 “设备信息统计数据分析”等多种数据应用。

8.2物资主题数据应用

通过在“大数据平台”进行设备类数据指标的存储、统计和分析,形成基于物资备件管理类主题数据的“入库环节数据分析”、“盘点数据分析”、“出库环节数据分析”、“物资备件资产数据分析”等多种数据应用。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值