财政大数据中心:财政数据信息资源目录、数据标准存储及大数据资产化规划方案 目 录1 概述 12 规划思路 12.1 整体逻辑关系 12.1.1 数据资

财政大数据中心:

财政数据信息资源目录、数据标准存储及大数据资产化规划方案

目  录

1 概述. 1

2 规划思路. 1

2.1 整体逻辑关系... 1

2.1.1 数据资源目录总体结构... 2

2.1.2 数据资源目录技术框架... 4

2.2 整体技术路线... 5

3 功能设计. 5

3.1 资源目录管理... 6

3.1.1 面向资源提供者的功能... 8

3.1.2 面向资源管理者的功能... 9

3.1.3 面向资源使用者的功能... 10

3.1.4 多维度资源目录展现... 11

3.2 ETL功能... 13

3.2.1 元数据管理... 13

3.2.2 数据采集... 15

3.2.3 数据质量检查... 16

3.2.4 数据转换... 17

3.2.5 ETL任务... 18

3.2.6 任务调度... 19

3.2.7 ETL日志... 20

3.2.8 ETL监控... 20

3.3 数据采集及ETL技术支撑功能... 21

3.3.1 数据采集配置... 21

3.3.2 数据采集... 22

3.3.3 数据确认... 23

3.3.4 数据审核... 23

3.3.5 数据转换... 23

3.4 数据查询、统计与比较... 25

3.4.1 分类数据查询... 25

3.4.2 单位数据综合查询... 30

3.4.3 收支统计查询... 31

3.4.4 地区排行查询... 34

3.4.5 多年对比查询... 36

4 数据分析与挖掘主题展望. 40

5 大数据资产化. 42

5.1 大数据资产的价值尺度衡量标准... 42

5.2 大数据时代的数据资产管理... 43

5.2.1 让数据成为资产... 44

5.2.2 数据资产的保值增值... 46

5.2.3 推动数据交易市场建设,加速数据资产化进程... 48

  1. 概述

基于目前各地数据分析产品应用现状,为了切实推进大数据应用、落地数据分析,亟需建设基于“金财工程”应用支撑平台的财政数据资源目录。一方面可以使财政各类数据资源真正有序管理起来,做到“资源清晰、取用便利”,一方面又可真正推进数据应用规划方案向具体实现的落地工作。

本方案旨在阐明财政数据资源目录在整个数据分析产品体系中的位置、总体结构、功能设计等。

  1. 规划思路
    1. 整体逻辑关系

首先阐明数据资源目录与整体数据分析应用的逻辑关系:

图2-1 数据资源目录及标准存储在整体数据分析应用中的逻辑结构图

图2-1 数据资源目录及标准存储(分布式方案)

数据资源目录的建设需建立在《财政基础数据规范》及《财政标准存储规范》基础上,按照一定的清洗转换规则自生产系统中获取数据后形成符合规范的标准存储,供形成进一步的主题分析资源库使用,最终实现深层次的数据分析、数据挖掘。

生产系统数据源可以是已建立的容灾备份池,也可以是原始生产库,甚至是非基于平台的第三方系统或外部文件等资源。数据资源目录依据标准存储建立后,还可提供多地区多年度收支统计、地区排名、多年对比等初步的数据查询比较主题。当然,进一步的主题分析、深层挖掘,还需要基于形成的标准存储数据仓库进一步进行抽象分类提取。

      1. 数据资源目录总体结构

数据资源目录体系主要由数据资源目录服务系统组成,同时还具备软硬件、网络的支撑环境,以及标准与管理规范建设和安全保障。

整个数据资源目录建设是一个上下贯通、统一管理的架构,遵循财政基础数据规范和标准存储规范、统一的前段码管理。整个数据资源目录体系结构体现为省、市、县(区)三级体系架构。

图2-2 数据资源目录层次体系结构

    这三层体系架构从上至下逐级建立数据资源目录管理中心,每级目录管理中心建设和管理本级及下级财政的数据资源目录。具体实施时,依照所处财政级次不同而变化体系层次。总体而言,省级数据资源管理中心主要职责是负责全省数据资源开发利用总体规划,制定信息提供、交换、共享的规则和范围,对全省各级财政的数据资源目录进行统一管理。其他财政级次数据资源目录建设思路参照省级执行。

每级目录管理中心除了建设本级财政数据资源目录外,还要充分考虑向上的兼容性,特别是一些关键内容如目录和交换的核心元数据库的兼容。本级数据资源目录建设完成后,作为上级财政资源目录体系的一个节点,要进行元数据的注册等工作,使本级资源目录能作为上级财政数据资源目录树的一个分支。

财政数据资源目录体系是一个独立完整的目录体系,其总体结构可概括为数据资源、数据资源目录体系及数据资源目录交换体系三部分。

数据资源是财政数据资源目录体系建设的基础。其含义是指财政业务过程中采集、加工、使用的信息资源,包括财政业务过程中应用支撑平台内产生和生成的信息资源及财政掌握的其他业务系统数据库、外部文件资源等。

数据资源目录体系和数据资源目录交换体系,这两个体系是密切不可分的。目录其定义是为使用“名字一地址映射”允许在客体与其位置之间建立动态联系。财政数据资源目录的概念更类似于图书馆中使用的分类目录概念。以核心元数据为主要描述方式,按照信息资源分类体系或其他方式对财政信息资源核心元数据有序排列。通过目录能够准确地了解和掌握信息资源的基本概况,发现和定位所需要的财政信息资源。

而数据资源目录交换体系则是提供了一个通道把相关联的上下级财政信息资源有机结合起来,是信息资源通过网络系统从一个物理位置到另一个物理位置的过程。交换方式较为宽泛,邮件传输、文件传输、消息传输等方式都能实现资源的交换。其重点关注的是上下级财政间在数据资源目录建设过程中的信息整合实现、统一管理实现问题。

目录体系与交换体系既是相对独立的、可以独自工作的平台,也是财政信息资源开发和利用领域的两个重要组成部分。通过数据资源目录体系准确定位资源和服务的位置,并准确了解信息资源的概况后,可在授权范围内通过交换体系得到信息资源。另一方面,数据资源目录体系的形成要通过交换体系交换资源描述信息。两个体系相辅相成,目录体系是交换体系的前提条件,交换体系是目录体系的实现载体。

      1. 数据资源目录技术框架

数据资源目录体系技术框架主要由两类目录组成,即公共资源目录和交换服务目录。公共资源目录主要针对的是数据,提供数据资源目录信息,以便发现和定位信息资源;交换服务目录主要针对的对象是数据交换服务资源,提供交换服务地址等目录信息,以便发现和定位交换服务。

图2-3 数据资源目录技术框架

目录体系建设和使用过程中存在三类角色:信息提供者、信息使用者和目录信息管理者。信息提供者负责信息的编目、注册,保证编目信息的正确性和实时性。信息使用者通过应用系统查询公共资源目录和交换服务目录,发现所需信息。目录信息管理者负责资源目录的建立和管理,并保证目录信息的安全和维护。

    1. 整体技术路线

整体上是利用多年度多财政的平台2.0的数据字典、标准存储、文件服务等组件来支撑结构化和非结构化数据的存储和管理,让平台真正的成为财政数据中心的管理者。

       在数据利用时,还需根据分析主题的要求,利用分布式、搜索引擎、数据挖掘等相关技术来实现数据分析利用。

  1. 功能设计

财政数据资源目录体系定义为以元数据为核心,以财政数据分类表和主题词表为控制词表,对财政数据资源进行网状组织,满足从分类、主题、应用等多个角度对财政信息资源进行管理、识别、定位、发现、评估与选择的工具。

通过定义数据资源目录体系,建立数据资源管理机制。数据资源目录体系应具有以下功能:

  • 建立描述资源的核心元数据,标识并描述所有的数据资源,包括数据资源的名称、描述等信息;
  • 建立描述数据资源的分类体系,以此为基础将所有数据资源分类;
  • 与资源文件存储相关联,描述资源的访问信息,包括权限、访问方法、 地址等,以此为基础通过资源目录记录的信息获取资源实体。

结合整体数据分析应用功能逻辑,数据资源目录体系的建立大体可分为数据采集及ETL技术支撑功能、数据资源目录管理功能、对比主题展现功能三大部分。总体的功能结构图如下:

图2-7 数据资源目录功能结构图

    1. 资源目录管理

数据资源目录体系管理架构包括数据资源目录体系使用和管理的三个角色和六项活动。三个角色是数据资源目录的提供者、使用者和管理者。六项活动包括规划、编目、注册、发布、维护、查询。

信息提供者负责财政数据资源目录内容的规划和编目,向管理者注册目录内容并负责更新,对本财政数据资源目录内容设置使用权限,负责提供与目录内容相关的信息资源。

信息管理者负责数据资源目录内容的注册、发布及系统维护,按照国家标准及相关管理办法进行资源标识符的分配、管理和使用,提供数据资源目录内容的查询服务。

信息使用者可以查询数据资源目录内容,对获取的目录内容在授权范围内使用。

图2-4 数据资源目录管理活动图

数据资源目录体系的业务流程包括资源编目、资源注册、资源发布,并提供资源访问和资源维护等功能。编目提供公共资源核心元数据和交换服务资源核心元数据的编辑功能;注册是指数据资源目录提供者向数据资源目录管理者提供公共资源核心元数据和交换服务信息资源核心元数据登记;发布是指管理者通过目录服务器,把财政信息资源核心元数据库的内容发布到系统中;查询是指为应用系统提供标准的调用接口,支持公共资源核心元数据和交换服务资源核心元数据的查询。

图2-8 数据资源目录体系业务流程

      1. 面向资源提供者的功能
        1. 资源编目

各财政组织业务人员进行业务梳理和资源梳理,并依据统一的标准规范,从信息资源库中对数据资源和服务资源提取特征,形成元数据。

(1)根据信息资源核心元数据标准对信息资源提取相关特征信息,并在此基础上结合具体业务适当增加所需元数据,形成信息资源元数据。

(2)根据信息资源标识符编码标准,向目录管理机构申请信息资源的标识符编码,并对元数据中的标识符信息进行赋值。

(3)根据信息资源分类标准对元数据中的分类信息进行赋值。

        1. 资源注册申请

资源提供者将编目形成的元数据通过元数据注册系统向目录中心的管理机构申请注册。本级资源提供者提交数据资源元数据,下级目录中心将该级财政目录服务地址和核心元数据注册到上级目录中心。

      1. 面向资源管理者的功能
        1. 资源注册审核

管理机构确认提供者提交的信息资源元数据格式及内容是否符合标准要求,未通过审查的元数据返回给提供者修改。对于通过审核的元数据,生成数据资源核心元数据和服务资源核心元数据,形成正式目录。

        1. 资源发布

经过审核的元数据进入元数据库,各级目录中心管理机构按照规定的核心元数据标准,自动或手动抽取核心元数据放入本级目录中心标准存储中,作为目录展现的基础。下级目录中心提取本级中心的核心元数据发布到上级目录中心的核心元数据库中,并且发布目录中心的地址信息,包括目录中心的名称和网络位置标识符,各级目录中心管理机构根据已注册的元数据,生成、发布并维护目录内容。

发布是管理者根据各分类的编目规则为入库资源进行分类,发布最新入库的元数据并通过目录服务系统根据目录服务的要求,从财政信息资源元数据库中导出注册成功的财政数据资源目录信息,生成资源目录条目,并导入到数据资源目录库中,供用户访问。

        1. 资源权限管理

给不同的用户分配不同的访问权限,以保证用户可以正确地访问资源目录信息,并且保护目录系统目录信息的安全。根据用户的划分和目录服务系统安全管理的需求,把用户分为三类:第一类是公共用户,可以访问公共的数据资源目录信息;第二类是财政用户,可以访问公共的数据资源目录信息和有限的交换资源目录信息;第三类是目录服务系统管理者,负责对目录服务系统的管理、目录信息的更新和维护等工作。在这三个角色中分别设定几类权限等级,此权限等级对应资源的六大安全等级(全社会、本单位、限制、秘密、机密、绝密)。用户在使用目录服务系统时,系统会根据用户的权限确定用户可以执行的操作和过滤,阻止用户的非法操作,并且会根据用户的权限和目录条目中资源保密属性过滤用户执行目录查询的结果。

        1. 资源维护

建立信息资源元数据库、核心元数据库和目录,并进行定时更新、备份与恢复,入库与出库;对目录服务器的运行进行监控;根据查询日志,统计访问系统的次数,统计分析不同信息资源的查询次数等。

维护包括目录结构树和目录条目信息的维护。当资源的分类体系发生变化时,目录服务系统要调整目录结构。当资源条目信息需要修改、删除、添加和更新时,目录服务系统支持管理员实现这些操作。除了对目录结构和内容的维护以外,目录系统还应该提供辅助的系统功能,主要包括:

          1. 日志分析

根据元数据查询日志,统计访问资源目录的次数,统计不同信息资源元数据的查询频度。

          1. 服务监控

监控目录服务器的运行性能,为调优提供依据。

          1. 用户反馈

管理用户的反馈意见,并和提供者进行协调。

          1. 扩展分类

扩展目录服务系统的分类编目方案,根据不同的应用需求提供多个目录索引,并根据用户的特点提供个性化目录服务。

      1. 面向资源使用者的功能

使用者通过数据资源目录体系查询系统向目录服务器发送目录查询请求,目录服务器根据查询条件和用户权限将查询结果返回给使用者。

        1. 资源查询

查询是目录服务系统通过HTTP或者消息访问接口提供用户查询目录信息的功能。目录查询支持用户按照分类、单项条件和组合条件三种方式进行。除此之外,还可以按主题词联想查询、快速定位、查询资源在各个分类中的目录位置、下载结果列表等。

        1. 资源定位链接

资源定位链接是对资源目录条目中包含的获取资源的信息进行链接或访问。

      1. 多维度资源目录展现

为满足不同资源目录使用者的使用要求,对于数据资源目录的展现应实现多维度的展现方式,例如:

图2-5 年度维度展现

图2-6 地区维度展现

    1. ETL功能

通过元数据管理将数据源及数据进行分类登记,按照登记之后的数据源采集数据,对初采的数据不做任何处理,按照原有数据的格式进行数据的迁移存储。对采集过来没有经过处理的数据进行数据质量检查,确保数据转换之前的格式及包含的数据关系的完整。对确认之后的数据进行分层的转换处理,通过数据表登记将每层的数据表进行登记。通过ETL任务及调度管理将多个转换过程进行组合,得到标准数据。标准数据是数据存储中的一层,是数据分析利用的一个基础点,对ETL转换得到标准数据进行维度分析等数据分析整理操作之后,作为数据分析利用的数据层。

图 3.1:ETL总体流程图

      1. 元数据管理

维护ETL过程中涉及到的数据源、表和字段等信息,根据设计的细化逐步引入其他类型信息,如转换规则摘要等。

        1. 登记数据源

登记各类数据来源,通过登记数据源的连接信息,提供对各种数据源的访问方式,可以作为用户管理数据源的一种方式,也可以作为ETL过程的第一步输入来源。

3.2:数据源登记图

数据源登记信息项包括:数据来源类型、区划、年度、数据库类型、服务器地址、端口、数据库名称等。

数据源类型标识此数据源为一体化数据库、用友支付数据、华青预算数据等类型标签。

        1. 登记数据表

按照事先约定好数据采集接口采集各类数据到标准库中形成数据的第一层,第一层数据完全按照原有数据格式进行存储不进行任何处理,保证数据与来源数据的一致性。

源数据表登记

对采集来的数据表按照原有的数据格式进行登记,包括原有数据表中包含的数据项,字段类型等

转换表登记

登记数据源以及经过每一层转换所需要的数据表,数据表能够分类、分层管理。按照标准业务规范将其语义化,明确各个数据表的业务含义。对于源数据表中的每个字段按照标准业务规范对应进行转化,进行第一步的数据转换,按照标准数据要求,将数据表名称及字段名称语义化。在不改变数据内容的前提下将数据由源数据表转换为标准库中的数据表。

        1. 登记字段

登记数据表中的各个字段,按照标准业务规范将其语义化,明确各个字段的业务含义。类似于平台的数据字典的登记。

        1. 血缘分析

数据处理转换的过程中设计到多个数据层,为了保证数据的准确性、可追溯性和唯一性等要求,对数据处理的过程进行相应的记录。

首先应该提供数据表追溯功能,对某一个数据表而言,可以查看它的数据转换轨迹,数据由哪张表得来,经过了几层数据转换处理等。

      1. 数据采集

根据数据采集配置的内容,数据采集分为自动采集、人工导入、在线填报三种途径。

        1. 自动采集

自动采集是由系统自动检测运行的。根据数据采集配置的系统自动导入的数据采集分类内容、格式、频率等,自动将数据采集到采集平台中,并将采集时间、采集分类、采集文件名称、采集方式、采集人(系统或实际操作人员)等写入采集日志表。

数据增量采集处理:对配置数据源进行自动采集的数据要根据采集时间进行数据增量处理。

        1. 人工导入

人工导入主要对于采集方式为人工手工导入类型的。对系统管理员级开放系统自动导入类型的采集分类可以采用人工手工导入,以解决系统发生不可预料的异常引起的自动导入数据彻底失败的情况。人工导入的数据采集也要写入采集日志表。

        1. 在线填报

在线填报是由采集数据提供者登录系统,在线根据采集表单录入采集数据,确认无误后,一次将本次的采集结果上报,上报后的采集结果不能够再进行修改。

      1. 数据质量检查

按照数据间的逻辑关系,定义数据检查规则,在执行ETL时发现数据问题。数据质量检查的流程是由数据校验规则设置确定的。反馈校验结果后流转到人工检查确认流程。

        1. 检查组件

完整性组件

  • 个别完整性

必需有值的字段不能为空。

  • 条件完整性

根据条件字段值必须始终存在。

唯一性组件

  • 单独唯一性

字段必须为唯一值。

  • 条件唯一性

根据业务条件,字段值必须唯一。

有效性组件

  • 范围有效性

字段值必须在指定的范围内取值。

  • 日期有效性

字段值为日期类型的时候,必须是有效日期值。

  • 形式有效性

字段值必须与指定的格式一致。

一致性组件

  • 指标代码一致性

当字段以整合代码作为指标代码加以应用的时候,要保证其参照一致性。

  • 参照一致性

表之间的字段值具有参照关系的时候,必须要保持其一致性。

  • 数据流一致性

数据产生或加工之后,数据发生迁移的时候,相关的数据必须保持一致。

  • 字段连贯性

以管理为目的产生重复字段并加以应用时,相同的字段在不同表中,值必须保持一致。

正确性组件

  • 先后关系正确性

多个字段值之间具有先后关系的时候,必须保证此规则。

  • 计算正确性

一个字段的值是由多个字段值计算得出的时候,计算值必须保证正确。

  • 业务规则正确性

字段在业务上具有复杂的连贯性的时候,必须确保与业务规则的一致。

  • 数据增量正确性

维护好信息的产生,收集以及更新周期。

      1. 数据转换

开发多个数据转换模块,每个模块针对一个具体的数据转换应用场景,同时支持Kettle和存储过程,按照2/8原则,用有特定转换逻辑的转换模块完成大部分数据转换工作,剩下少量的个性化的、难度大的可以用Kettle或存储过程完成。

        1. 数据同步组件

负责完成数据从数据源读取,并写入目标表的过程,是ETL过程的第一步,数据同步主要完成对数据增量读取逻辑的封装,支持多种数据增量同步方式,主要有:全表更新(全表先删除后插入)、按标志位更新和全文比对更新。

        1. 对照表定义组件

对照表定义组件是一个辅助定义组件,用来完成对照表的前台维护,比如在功能分类编码发生变化时,通过前台操作维护其变化关系。在代码转换组件中可是使用这个组件生成的数据。

        1. 编码转换组件

把编码转换过程中包含的处理逻辑封装成编码转换组件,基于已经维护的对照表,完成编码统一化工作,主要针对编码的增删改、相同业务含义的不同编码体系的对照等业务场景。

对不同采集分类在采集格式中设置的引入类型数据项,如果内外编码不一致时,为保障数据的准确度,设置内码和外码的一一对应转换;内外码一致的引入数据项不用设置编码转换规则。

        1. 数据汇总组件

封装数据汇总的处理逻辑。

        1. 行列互换组件

封装行列互转的处理逻辑。

        1. 存储过程组件

对于特殊数据通过提供的转换组件进行处理比较复杂时,需要人工使用存储过程的方式,对复杂的特殊数据进行特殊处理,提供编写存储过程的入口。

      1. ETL任务

用ETL任务的形式,将多个数据转换组织称一个完整的ETL过程。

        1. 任务分类

在数据源分类的基础上对数据进行处理,可以新建多个任务对数据进行处理,对每个任务进行任务分类。

      1. 任务调度

按照各种任务执行方式,配置任务调度机制。主要有手工执行、定时执行、定期执行、触发执行等。

3.3:定时器配置图

每个任务是由一个或者多个转换组件组合而成,都有任务的开始和结束,对应着数据的输入和输出。

3.4:任务调度配置图

      1. ETL日志

记录ETL过程执行中的正常或异常信息。

        1. 数据采集日志

数据采集日志包括记录数据源标示、采集时间、采集数据表个数、数据量等指标。

        1. 处理过程日志

处理过程包括对数据表的所有操作流程,任务的开始时间、经过几个数据转换组件、数据量、任务结束时间等指标。

        1. 校验日志

对数据整个处理过程的校验进行记录,发现错误信息及时界面反馈。

      1. ETL监控

通过前台页面监控ETL过程执行状态,可以人工干预。

        1. 执行过程监控
        2. 访问日志管理
        3. 组件性能监控
        4. 缓存监控
    1. 数据采集及ETL技术支撑功能

数据采集模块包含采集分类配置、数据采集、数据确认三大模块。数据采集配置的作用是维护数据采集的各项设置信息;数据采集是根据采集端的配置系统自动或人工方式采集数据;数据确认是针对采集的数据根据设置的确认规则,以系统、人工结合的方式确保采集数据的准确性。

采集的数据有些来源于财政内部业务系统,有些来源于其他部门的数据提供;并且对于不同部门或者不同的数据分类,提供的模式可能是数据文件、中间表或者是直接从业务库中获取,还有一部分数据需要业务人员在线填报。

      1. 数据采集配置

数据采集配置分为采集分类设置、采集格式设置、编码转换设置、采集方式设置、校验规则设置五个主要模块。

        1. 采集分类设置

本模块内容是根据采集数据内容的不同,创建并维护采集分类信息,主要的信息项包括:名称、是否启用、备注、创建人、时间等要素。

        1. 采集格式设置

在本模块中是对已定义的分类维护,维护各个数据项,包括名称、类型、长度、引入数据项对应的要素表或者是枚举表、是否可修改等,以及根据采集源数据格式调整数据项的先后顺序。信息项目的维护符合数据库建表的要求,初次新增数据项同时在采集平台库中创建采集数据的物理表。

        1. 编码转换设置

本模块内容是对不同采集分类在采集格式中设置的引入类型数据项,如果内外编码不一致时,为保障数据的准确度,设置内码和外码的一一对应转换;内外码一致的引入数据项不用设置编码转换规则。

        1. 采集方式设置

采集方式分为:系统自动导入、人工手动导入、人工在线填报三种类型。在本模块中,针对不同的采集分类设置采集方式。

        1. 校验规则设置

校验规则分为两类:一类是纯人工检查确认,一类是先外部系统校验,然后人工检查确认。根据采集数据的不同要求,对每个采集分类设置不同的校验规则。

人工检查确认需要设置检查确认的流程,默认的通用流程为对口业务部门经办人修改确认、对口业务部门负责人审核确认。可以修改流程,采用多审核节点或者无审核节点。

外部系统校验采用的是系统自动处理,分为文件格式和中间表格式。

      1. 数据采集

根据数据采集配置的内容,数据采集分为自动采集、人工导入、在线填报三种途径。

        1. 自动采集

自动采集是由系统自动检测运行的。根据数据采集配置的系统自动导入的数据采集分类内容、格式、频率等,自动将数据采集到采集平台中,并将采集时间、采集分类、采集文件名称、采集方式、采集人(系统或实际操作人员)等写入采集日志表。

        1. 人工导入

人工导入主要对于采集方式为人工手工导入类型的。对系统管理员级开放系统自动导入类型的采集分类可以采用人工手工导入,以解决系统发生不可预料的异常引起的自动导入数据彻底失败的情况。人工导入的数据采集也要写入采集日志表。

        1. 在线填报

在线填报是由采集数据提供者登录系统,在线根据采集表单录入采集数据,确认无误后,一次将本次的采集结果上报,上报后的采集结果不能够再进行修改。

      1. 数据确认

数据确认的流程是由采集分类中数据校验规则设置确定的。如果有外部系统校验规则,那么先由外部系统校验,反馈校验结果后流转到人工检查确认流程;否则直接转到人工检查确认流程。

数据采集结果对口的业务负责处室的经办人员对刚采集的数据进行确认,也可以对数据进行手工的修正。

      1. 数据审核

根据确认的流程设置,如果需要负责人审核确认的,由本处室的负责人对采集结果进行最终的审核确认。

      1. 数据转换

数据转换是进行数据的清洗和汇总的工作,得到符合数据分析在维度和口径等方面要求格式的数据,为查询分析做准备;数据转换平台提供对明细数据库的清洗和汇总以及对已汇总数据的二次清洗。

        1. 转换设置

在数据转换平台中,转换设置实现四个功能:参数设置、元数据定义、清洗规则设置、汇总规则设置。

          1. 参数设置

本模块中主要功能是设置转换平台的公共参数,例如转换执行频率参数、清洗/汇总库参数等。

          1. 元数据定义

在元数据定义模块定义内容包括:数据源表名称、数据源类型、服务器地址、数据库名、用户、口令、物理表名称、备注等。

          1. 清洗规则设置

清洗规则模块中设置清洗规则名称、清洗源表、清洗目标表物理表名、目标表数据项定义、清洗规则等。根据设置的清洗目标表物理表名和定义的数据项创建维护清洗目标物理表。初始创建规则时,默认将清洗源表结构数据项定义复制到目标表数据项定义中。

          1. 汇总规则设置

汇总规则模块中设置汇总规则名称、汇总源表(可以多选)、汇总目标表物理表名目标表数据项定义、汇总规则等。根据设置的汇总规则目标表物理表名和定义的数据项创建/维护汇总目标物理表。

        1. 数据清洗

数据清洗的目的是保证数据质量。数据清洗内容包括数据拆分、合并和数据项补充等。数据清洗过程由系统根据清洗规则自动清洗和人工手动清洗两部分。首先是系统根据设置的转换频率自动按规则清洗数据,对已清洗成功数据标识,对不合规则的未清洗数据标识清洗错误,清洗错误的数据转到人工手动清洗,由负责本业务清洗的业务人员根据清洗目标要求,手工对数据进行拆分或则合并或者数据项补充,将清洗结果保存在目标表中。

不论是系统自动执行的规则清洗操作还是人工进行的清洗操作都要记录到清洗日志中。

        1. 数据汇总

数据是用来分析的,分析的目标是为决策提供支持,因此不需要非常明细的数据。数据汇总对分析数据按粒度进行聚合,提高分析结果的一致性和提升分析执行过程的效率。

数据汇总过程也是由系统根据汇总规则自动汇总和人工手动汇总两部分。首先是系统根据设置的转换频率自动按规则汇总数据,对已汇总成功数据标识,对不合规则的未汇总数据标识汇总错误,汇总错误的数据转到人工手动汇总,由负责本业务汇总的业务人员根据汇总目标要求,手工对数据进行按粒度要求进行汇总,将汇总结果保存在目标表中。

不论是系统自动执行的按规则汇总操作还是人工进行的胡总操作都要记录到汇总日志中。

        1. 特殊处理

随着时间的进程,业务分析口径也会发生变化,对于统计口径的变化要求,影响大部分数据的情况下可以重新清洗和汇总,而某些情况下只需对小部分已汇总数据的要素数据项(例如单位、科目、项目等)进行调整即可满足统计要求,对所有数据进行重新清洗和汇总反而会加大资源消耗,特殊处理功能目标就是解决这中情况的。

特殊处理功能操作目标是已汇总数据,对已汇总数据进行要素数据项调整、拆分、合并等操作,除了满足单条数据的处理,还需要满足批量数据的处理要求。

对特殊处理进行系统操作要记录到系统的安全操作日志中。

    1. 数据查询、统计与比较
      1. 分类数据查询

分类数据查询主要是按照数据的分类进行查询,不涉及到数据的计算、对比、排名等。以下仅列出常用查询如下:

  1. 收支决算总表。按照项目等进行汇总,统计信息包括收入决算数、支出结算数、用事业基金弥补收支差额、结余分配、结余和结转等。
  2. 一般公共预算支出执行情况表。按照功能科目等进行汇总,统计信息包括本年支出合计、基本支出、项目支出等。
  3. 政府性基金支出执行情况表。按照功能科目等进行汇总,统计信息包括本年支出合计、基本支出、项目支出等。
  4. “三公”经费公共财政拨款支出决算表。按照项目等进行汇总,统计信息包括本年决算数等。
  5. 预算执行情况表。按照预算单位、功能科目、资金性质、项目或预算来源进行汇总,统计信息包括指标金额、已用指标、剩余指标、计划总额、直接支付计划、授权支付计划、计划结余、支付总额、直接支付、授权支付等。
  6. 预算单位资金情况查询。按照单位进行汇总,统计信息包括部门预算金额、单位指标金额、已批计划金额、已支付金额、政府采购总金额、公务卡报销金额、实发工资金额等。

收入

支出

项目

决算数

项目(按经济分类)

决算数

一、财政拨款

 

一、基本支出和项目支出

 

  其中:政府性基金

 

    工资福利支出

 

二、上级补助收入

 

    商品和服务支出

 

三、事业收入

 

    对个人和家庭的补助

 

    其中:财政专户管理资金

 

    对企事业单位的补贴

 

四、经营收入

 

    赠与

 

五、附属单位缴款

 

    债务利息支出

 

六、其他收入

 

    基本建设支出

 

    其中:本级横向财政拨款

 

    其他资本性支出

 

      非本级财政拨款

 

    贷款转贷及产权参股

 

 

 

    其他支出

 

 

 

二、上缴上级支出

 

 

 

三、经营支出

 

 

 

四、对附属单位补助支出

 

本年收入合计

 

本年支出合计

 

    用事业基金弥补收支差额

 

    结余分配

 

    上年结转和结余

 

    年末结转和结余

 

合计

 

合计

 

科目编码

科目名称

本年支出合计

基本支出

项目支出

类款项

合计

 

 

 

201

一般公共服务支出

 

 

 

20106

财政事务

 

 

 

2010601

  行政运行

 

 

 

2010602

  一般行政管理事务

 

 

 

2010604

  预算改革业务

 

 

 

2010605

  财政国库业务

 

 

 

2010607

  信息化建设

 

 

 

2010650

  事业运行

 

 

 

2010699

  其他财政事务支出

 

 

 

20199

其他一般公共服务支出

 

 

 

2019999

  其他一般公共服务支出

 

 

 

208

社会保障和就业支出

 

 

 

20805

行政事业单位离退休

 

 

 

2080501

  归口管理的行政单位离退休

 

 

 

2080502

  事业单位离退休

 

 

 

210

医疗卫生与计划生育支出

 

 

 

21005

医疗保障

 

 

 

2100501

  行政单位医疗

 

 

 

2100502

  事业单位医疗

 

 

 

2100503

  公务员医疗补助

 

 

 

215

资源勘探信息等支出

 

 

 

21508

支持中小企业发展和管理支出

 

 

 

2150805

  中小企业发展专项

 

 

 

216

商业服务业等支出

 

 

 

21606

涉外发展服务支出

 

 

 

2160699

  其他涉外发展服务支出

 

 

 

229

其他支出

 

 

 

22999

其他支出

 

 

 

2299901

  其他支出

 

 

 

科目编码

科目名称

本年支出合计

基本支出

项目支出

类款项

合计

 

 

 

208

社会保障和就业支出

 

 

 

20822

大中型水库移民后期扶持基金支出

 

 

 

2082299

  其他大中型水库移民后期扶持基金支出

 

 

 

项目

本年决算数

合计

 

1、因公出国(境)费用

 

2、公务接待费

 

3.公务用车购置及运行维护费

 

其中:1)公务用车运行维护费

 

2)公务用车购置费

 

单位

指标

计划

支付

指标金额

已用指标

剩余指标

计划总额

直接支付

授权支付

计划结余

支付总额

直接支付

授权支付

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

单位

部门预算金额

指标金额

计划金额

支付金额

政府采购金额

公务卡报销金额

实发工资金额

 

 

 

 

 

 

 

 

  1. 本地区生产总值。按照产业等进行汇总,统计信息包括本月止累计、比上年同期增减百分比等。
  2. 省内辖区生产总值。按照地区进行汇总,统计信息包括地区生产总值、比去年同期增减百分比、其中第一产业总值、比去年同期增减百分比、其中第二产业总值、比去年同期增减百分比、其中第三产业总值、比去年同期增减百分比等。
      1. 单位数据综合查询

指标名称

计量单位

本月止累计

比去年同期±%

地区生产总值(GDP)

 

 

 

    第一产业

 

 

 

    第一产业

 

 

 

        #工业

 

 

 

           建筑业

 

 

 

    第三产业

 

 

 

        #交通运输、仓储和邮政业

 

 

 

           批发和零售业

 

 

 

           住宿和餐饮业

 

 

 

           金融业

 

 

 

           房地产业

 

 

 

           其他服务业

 

 

 

地区

地区生产总值

第一产业

第二产业

第三产业

本月止累计

比去年同期±%

本月止累计

比去年同期±%

本月止累计

比去年同期±%

本月止累计

比去年同期±%

全省

 

 

 

 

 

 

 

 

太原市

 

 

 

 

 

 

 

 

大同市

 

 

 

 

 

 

 

 

阳泉市

 

 

 

 

 

 

 

 

长治市

 

 

 

 

 

 

 

 

晋城市

 

 

 

 

 

 

 

 

朔州市

 

 

 

 

 

 

 

 

晋中市

 

 

 

 

 

 

 

 

运城市

 

 

 

 

 

 

 

 

忻州市

 

 

 

 

 

 

 

 

临汾市

 

 

 

 

 

 

 

 

吕梁市

 

 

 

 

 

 

 

 

单位数据综合查询可以查询单位资产、负债、净资产、收入、支出、人员信息等。

  1. 单位基本情况查询。按照预算单位等进行汇总,统计信息包括资产总额、其中流动资产金额、固定资产金额、负债、净资产、收入、支出、人员编制数、在职人数等。

单位名称

资产

负债

净资产

收入

支出

人员信息

合计

流动资产

固定资产

人员编制数

在职人数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

点击“固定资产”列的金额可以对数据进行钻取,弹出固定资产的明细数据,如下表:

单位名称

卡片编码

资产编码

资产名称

数量

单价

金额

取得日期

录入日期

使用状态

取得方式

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. 单位基本情况多年度对比。每个单位按照类别等进行汇总,统计信息包括2012年数据、2013年数据,比上年增减数、2014年数据,比上年增减数、2015年数据,比上年增减数等。
      1. 收支统计查询

类别

2012

2013

2014

2015

2013

比上年增减

2014

比上年增减

2015

比上年增减

资产

 

 

 

 

 

 

 

  其中:流动资产

 

 

 

 

 

 

 

  固定资产

 

 

 

 

 

 

 

负债

 

 

 

 

 

 

 

净资产

 

 

 

 

 

 

 

收入

 

 

 

 

 

 

 

支出

 

 

 

 

 

 

 

人员编制数

 

 

 

 

 

 

 

在职人数

 

 

 

 

 

 

 

收支统计查询是以年度、月度为口径统计某一地区的收入、支出以及结余情况。以下仅列出常用查询如下:

  1. 当月收入完成情况查询。按照预算科目等进行汇总,统计信息包括本年预算数、本月实际收入数、比上年同期增加额、比上年同期增长百分比、完成预算百分比等。
  2. 当月支出完成情况查询。按照功能科目等进行汇总,统计信息包括年度预算、当月完成、本期完成、同期完成、增减额、比同期增减百分比等。
      1. 地区排行查询

预算科目

本年预算数

本月实际       收入数

同口径比上年同期

完成        预算%

增减额

增长%

财政总收入

 

 

 

 

 

一、税收收入

 

 

 

 

 

增值税

 

 

 

 

 

营业税

 

 

 

 

 

企业所得税

 

 

 

 

 

个人所得税

 

 

 

 

 

资源税

 

 

 

 

 

城市维护建设税

 

 

 

 

 

房产税

 

 

 

 

 

印花税

 

 

 

 

 

城镇土地使用税

 

 

 

 

 

土地增值税

 

 

 

 

 

车船税

 

 

 

 

 

耕地占用税

 

 

 

 

 

契税

 

 

 

 

 

二、非税收入

 

 

 

 

 

专项收入

 

 

 

 

 

行政事业性收费收入

 

 

 

 

 

罚没收入

 

 

 

 

 

国有资产(资源)有偿使用收入

 

 

 

 

 

其他收入

 

 

 

 

 

功能科目

年度预算

当月完成

本期完成

同期完成

增减额

比同期增减百分比

合计

 

 

 

 

 

 

201-一般公共服务

 

 

 

 

 

 

203-国防支出

 

 

 

 

 

 

204-公共安全支出

 

 

 

 

 

 

205-教育支出

 

 

 

 

 

 

206-科学技术支出

 

 

 

 

 

 

207-文化体育与传媒支出

 

 

 

 

 

 

208-社会保障和就业支出

 

 

 

 

 

 

210-医疗卫生与计划生育支出

 

 

 

 

 

 

211-节能环保支出

 

 

 

 

 

 

212-城乡社区支出

 

 

 

 

 

 

213-农林水支出

 

 

 

 

 

 

214-交通运输支出

 

 

 

 

 

 

215-资源勘探信息等支出

 

 

 

 

 

 

216-商业服务业等支出

 

 

 

 

 

 

217-金融支出

 

 

 

 

 

 

219-援助其他地区支出

 

 

 

 

 

 

220-国土资源气象等支出

 

 

 

 

 

 

221-住房保障支出

 

 

 

 

 

 

222-粮油物资储备支出

 

 

 

 

 

 

227-预备费

 

 

 

 

 

 

228-国债还本付息支出

 

 

 

 

 

 

229-其他支出

 

 

 

 

 

 

230-转移性支出

 

 

 

 

 

 

地区排行可以统计省内所辖市区的情况,也可以和其他省份进行横向对比。常用查询如下:

  1. 全省一般公共预算收入完成情况排行情况表。按照地区进行汇总,统计信息包括预算数、累计收入数、完成预算百分比、排名等。
  2. 全省支出进度排行情况表。按照地区进行汇总,统计信息包括已下达单位指标、已批复计划、已支付金额、支出进度、排名等。
  3. 全省收支增幅排名情况表。按照地区进行汇总,统计信息包括一般预算收入累计金额、排名、一般预算收入增幅、排名、其中税收收入金额、税税比重百分比、排名、一般预算支出累计金额、排名、增幅、排名等。
  4. 预算单位支出进度排名情况表。按照单位进行汇总,统计信息包括年初预算、已下达指标数、已批复计划、已支付金额、支出进度百分比、排名等。
  5. 预算单位三公经费支出排名情况表。按照单位进行汇总,统计信息包括排名、三公经费总计、其中因公出国(境)费用、公务接待费、公务用车购置及运行费等。
      1. 多年对比查询

地区

预算数

当月收入数

累计收入数

完成预算%

排名

太原市

 

 

 

 

 

大同市

 

 

 

 

 

阳泉市

 

 

 

 

 

长治市

 

 

 

 

 

晋城市

 

 

 

 

 

朔州市

 

 

 

 

 

晋中市

 

 

 

 

 

运城市

 

 

 

 

 

忻州市

 

 

 

 

 

临汾市

 

 

 

 

 

吕梁市

 

 

 

 

 

地区

已下达单位指标

已批复计划

已支付金额

支出进度

排名

太原市

 

 

 

 

 

大同市

 

 

 

 

 

阳泉市

 

 

 

 

 

长治市

 

 

 

 

 

晋城市

 

 

 

 

 

朔州市

 

 

 

 

 

晋中市

 

 

 

 

 

运城市

 

 

 

 

 

忻州市

 

 

 

 

 

临汾市

 

 

 

 

 

吕梁市

 

 

 

 

 

地区

地方财政一般预算收入

地方财政一般预算支出

一般预算收入累计

一般预算收入增幅

其中:税收收入

一般预算支出累计

增幅

金额

排名

增幅%

排名

金额

税收比重%

排名

金额

排名

增幅%

排名

太原市

 

 

 

 

 

 

 

 

 

 

 

大同市

 

 

 

 

 

 

 

 

 

 

 

阳泉市

 

 

 

 

 

 

 

 

 

 

 

长治市

 

 

 

 

 

 

 

 

 

 

 

晋城市

 

 

 

 

 

 

 

 

 

 

 

朔州市

 

 

 

 

 

 

 

 

 

 

 

晋中市

 

 

 

 

 

 

 

 

 

 

 

运城市

 

 

 

 

 

 

 

 

 

 

 

忻州市

 

 

 

 

 

 

 

 

 

 

 

临汾市

 

 

 

 

 

 

 

 

 

 

 

吕梁市

 

 

 

 

 

 

 

 

 

 

 

预算单位

年初预算

已下达指标数

已批复计划

已支付金额

支出进度%

排名

 

 

 

 

 

 

 

 

 

 

 

 

 

 

单位

排名

三公经费

总计

因公出国(境)费用

公务接待费

公务用车购置及运行费

 

 

 

 

 

 

 

 

 

 

 

 

多年对比查询是通过一张报表中体现多个年度的数据,根据与上年同期或历年的对比得出今年的增减情况,通过纵向对比为财政决策提供支持。常用查询如下:

  1. 省厅下达各市县指标同期对比。按照地区等进行汇总,统计信息包括22015年指标数、排名、2014年指标数、增减幅度百分比、2013年指标数、增减幅度百分比等。
  2. 全省一般预算收入增幅情况表。按照地区等进行汇总,统计信息包括2013年收入数、排名、2014年收入数、增减幅度、2015年收入数、增减幅度等。
  3. 全省历年三公经费支出情况。按照地区等进行汇总,统计信息包括2013年三公经费总支出、其中因公出国(境)费用、公务接待费、公务用车购置及运行费、2014年三公经费总支出、比上年增减百分比、其中因公出国(境)费用、公务接待费、公务用车购置及运行费、2015年三公经费总支出、比上年增减百分比、其中因公出国(境)费用、公务接待费、公务用车购置及运行费等。
  4. 公务卡历年消费对比情况表。按照单位等进行汇总,统计信息包括2012年报销金额、2013年报销金额、2014年报销金额、2015年报销金额等。

地区

2015

2014

2013

2015年指标数

排名

2014年指标数

增减幅度%

2013年指标数

增减幅度%

太原市

 

 

 

 

 

 

大同市

 

 

 

 

 

 

阳泉市

 

 

 

 

 

 

长治市

 

 

 

 

 

 

晋城市

 

 

 

 

 

 

朔州市

 

 

 

 

 

 

晋中市

 

 

 

 

 

 

运城市

 

 

 

 

 

 

忻州市

 

 

 

 

 

 

临汾市

 

 

 

 

 

 

吕梁市

 

 

 

 

 

 

地区

2013

2014

2015

2013年收入数

排名

2014年收入数

增减幅度%

2015年收入数

增减幅度%

太原市

 

 

 

 

 

 

大同市

 

 

 

 

 

 

阳泉市

 

 

 

 

 

 

长治市

 

 

 

 

 

 

晋城市

 

 

 

 

 

 

朔州市

 

 

 

 

 

 

晋中市

 

 

 

 

 

 

运城市

 

 

 

 

 

 

忻州市

 

 

 

 

 

 

临汾市

 

 

 

 

 

 

吕梁市

 

 

 

 

 

 

地区

2013

2014

2015

总计

因公出国()费用

公务接待费

公务用车购置及运行费

总计

比上年增减%

因公出国()费用

公务接待费

公务用车购置及运行费

总计

比上年增减%

因公出国()费用

公务接待费

公务用车购置及运行费

全省

 

 

 

 

 

 

 

 

 

 

 

 

 

 

太原市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

大同市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

阳泉市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

长治市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

晋城市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

朔州市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

晋中市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

运城市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

忻州市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

临汾市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

吕梁市

 

 

 

 

 

 

 

 

 

 

 

 

 

 

预算单位

2012年报销金额

2013年报销金额

2014年报销金额

2015年报销金额

 

 

 

 

 

 

 

 

 

 

  1. 非税收缴历年数据查询对比情况表。按照单位、收费项目等进行汇总,统计信息包括2012年金额、2013年金额、同期增减、2014年金额、同期增减、2015年金额、同期增减等。

预算单位

收费项目

2012年金额

2013

2014

2015

金额

同期增减

金额

同期增减

金额

同期增减

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. 数据分析与挖掘主题展望

分类

数据分析内容

用途

用户

数据来源

财政支出预算分析

按地区、年度的各个要素的预算分析比较

基础数据、标准数据、预算数据的年度分析、与相邻政府的分析比较

项目成本分析(与社会数据的比较)

分析财政基本支出、项目支出预算的合理性

预算、业务(司局)处室、绩效评价处、研究室

基础库数据(含定员定额标准等)

项目库数据

项目成本社会参考数据

财政支出预算数据

财政支出决算数据

相邻政府参考数据

财政收支分析

按地区、年度、月份的各个收支要素的同比、环比、排名等分析比较

分析收支增长、地区变化,反映财政收支政策的变化及对社会的影响(定性分析)。帮助确定超收追加、社会扶持、项目支持等政策

厅(局)长

预算、国库综合管理者、业务(司局)处室、研究室

收支月报数据

决算报表数据

国库现金流量分析与预测

收支进度分析与预测;国库现金流量分析与库底现金预测

帮助资金调度和理财

国库用户

明细收支数据

明细库存数据

税源分析与监控

案地区、月份、税种、行业等属性进行税收的分析;税源预警监控

分析税源的变化及对社会各个层面的影响(定性分析)。帮助确定社会扶持和产业结构调整政策。

厅(局)长

预算、税政、国库管理者、研究室

税收数据

企业属性数据

支出项目绩效评价

项目进度分析

项目成本分析(与社会数据的比较)

项目绩效评价管理

项目绩效评价分析

分析项目的资金投入、过程控制、目标实现和社会满意度(自评、审核、核查),为来年项目支出预算编制奠定基础。

预算、业务(司局)处室、绩效评价处、研究室

项目申报、支出、竣工验收数据

项目基础信息数据

项目绩效社会参考数据

项目绩效指标数据

项目绩效考核数据

财政风险预警分析

债务分析(偿债能力分析)

财政风险预警指标分析

对财政风险指进行预警分析,辅助提前预判和做出规避风险的政策

厅(局)长

预算、国库管理者、研究室

债务数据

收支数据

财政收支与社会发展指标分析

体现国民经济指标对财政收入的影响、财政投入对社会发展指标的影响(定量分析)

厅(局)长

预算、业务(司局)处室、绩效评价处、研究室

财政收支数据

国民经济与社会发展指标数据

财政收支与政府目标责任

项目监控分析:违规违纪分析与审计

项目申报违规:多头申报、重复申报

项目执行违规:资金挪用、滞留等

项目采购过程违规

项目测算

财政中期预算规划测算

  1. 大数据资产化

    1. 大数据资产的价值尺度衡量标准

主要有以下三个方面的标准:
  1、独立拥有及控制数据资产
  目前,数据的所有权问题在业界还比较模糊。从拥有和控制的角度来看,数据可以分为I型数据、II型数据和III型数据。
  I型数据,主要是指数据的生产者自己生产出来的各种数据,例如百度对使用其搜索引擎的用户的各种行为进行收集、整理和分析,这类数据虽然由用户产生,但产权却属于生产者,并最大限度地发挥其商业价值。
  II型数据,又称为入口数据,如各种电子商务营销公司,通过将自身的工具或插件植入电商平台,为其提供统计分析服务,并从中获取各类经营数据,虽然这些数据的所有权并不属于这些公司、在使用时也有一些规则限制,但是它们却有着对数据实际产权的控制。
  相比于前两类数据,III型数据,产权情况比较复杂,它们主要依靠网络爬虫、甚至是黑客手段获取数据。与I型和II型数据不同的是,这些公司的流出的内部数据放在网上供人付费下载。这种数据在当前阶段,还不能和资产完全划等号。
  2、计量规则与货币资本类似
  大数据要真正资产化,用货币对海量数据进行计量是一个大问题。尽管很多企业都意识到数据作为资产的可能性,但除了极少数专门以数据交易为主营业务的公司外,大多数公司都没有为数据的货币计量做出适当的账务处理。
  虽然数据作为资产尚未在企业财务中得到真正的引用,但将数据列入无形资产的好处则不言而喻:考虑到研发因素,很多高科技企业都具有较长的投入产出期,通过让那些存储在硬盘上,以GB、PB为计量单位的数据直接进入资产负债表,对于通过交易手段获得的数据,按实际支付价款作为入账价值计入无形资产,可以为企业形成有效税盾,降低企业实际税负。
  3、具有资本一般的增值属性
  资本区别于一般产品的特征在于,它具体不断增值的可能性,如果不能为企业带来经济利益,再海量的数据也只是垃圾一堆。只有能够利用数据、组合数据、转化数据的企业,他们手中的大数据资源,才能成为数据资产。根据某证券机构的研究报告,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。其中,数据租售,主要是通过对业务数据进行收集、整理、过滤、校对、打包、发布等等一系列整理,实现数据内在的价值。信息租售,则是通过聚焦行业焦点,收集相关数据,深度整合、萃取及分析,形成完整数据链条,实现数据的资产转化。数据使能,是指类似于阿里这样的互联网公司,通过提供大量的金融数据挖掘及分析服务,为传统金融行业难以下手的小额贷款业务,开创新的行业增长点。
  总的来说,大数据是"工业时代的价值思维"的批判,也是对范互联网时代“创新式资产变革”的回应。作为信息时代核心的价值载体,大数据必然具有朝向价值本体转化的趋势,而它的“资产化”,或者未来更进一步的“资本化”蜕变,将为未来完全信息化、泛互联网化的商业模式打下基础。

    1. 大数据时代的数据资产管理

伴随着大数据时代的悄然来临,对数据的重视提到了前所未有的高度。套上大数据的光环后,原本那些存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油”.大数据之父维克托则乐观预测,数据列入企业资产负债表只是时间问题。

但是,数据真的可以和资产直接划上等号吗?在获得高度重视的同时,很多企业对数据资产的看法陷入误区。事实上,数据有可能成为资产,但不是所有数据都能具备资产的属性。要知道就算是石油,在工业化时代来临前的很长一段时间里,也只是一种无用的黑色液体。

      1. 让数据成为资产

什么样的数据能够成为资产,或者说什么样的数据有资格成为资产?首先让我们了解一下什么是财务意义上资产:“一般来讲,资产可以认为是企业拥有和控制的,能够用货币计量,并能够给企业带来经济利益的经济资源。”在这里,资产包含着如下几个要素:1、被企业拥有和控制;2、能够用货币来计量;3、能为企业带来经济利益

下面我们就用资产的要素来盘点一下什么样的数据符合资产的要求:

1、被企业拥有和控制:

与专利权为代表的知识产权相比,数据所有权问题还比较模糊。从拥有和控制的角度来看,数据可以分为第一方数据、第二方数据和第三方数据。

第一方数据也可以称为甲方数据,主要来自于数据的生产者。百度或京东这样的公司在为个人客户提供搜索服务或销售商品的同时,采集和整理了大量的用户行为数据。借助于支付、配送等后续服务,电商网站还能收集到诸如用户真实姓名、电话号码、家庭住址等隐私信息。这些一手数据被毫无疑义的被其生产者拥有和控制,并借助于数据挖掘或出售等方式不断给数据拥有者带来经济收益。

第二方数据也可称为乙方数据。随着互联网行业的高速发展,各行业巨头着力构建围绕核心业务的生态体系,专业分工愈发细致。一批像亿玛、百分点这样专业公司脱颖而出。作为效果营销领域的领导者,亿玛通过为电商提供流量入口服务,间接积累了大量的网购用户的行为数据、广告投放数据和订单数据;为了给网购用户提供精准推荐,百分点则整理了完善的商品数据库和网购用户在电商网站内的行为数据。从拥有和控制角度看,第二方数据的所有者的确拥有对数据的掌控权,但这部分数据受制于获取路径(为甲方服务获取),在使用、交换或交易的过程中会有一些限制。需要采取匿名化以及整体化等脱敏处理处理后,才能实现有效控制和使用。

与第一方、第二方数据相比,第三方数据的产权问题比较复杂。出于对敏感数据泄露的担心和数据资产定价困难方面的考虑,第一方和第二方数据的拥有者很少直接进行数据交易或授权。与之相反倒是常有从这些公司的流出的内部数据放在网上供人付费下载。这也正是数据当前阶段还不能和资产划等号的一个生动体现。由于无法通过交易授权渠道获得,目前很多第三方数据提供商是通过网络爬虫、甚至是黑客手段获取数据。从法律层面看这些数据的所有权存在瑕疵的数据即使暂时拥有,也不能构成资产要素。只有在建立起有效的数据交换、交易机制后,第三方数据才能被真正的拥有和控制。

2、能够用货币计量

虽然从拥有和控制的角度来看,多数企业的数据都符合资产要素要求。但是如何用货币对这些数据进行计量则是个巨大的问题。传统会计的货币计量假设是指在企业众多计量单位中确定用货币为单位进行统一计量。货币作为会计信息的统一计量单位,有利于不同企业、不同行业用同一口径衡量反映其财务状况和经营成果。这也是为什么那些存储在硬盘上,以GB、PB为计量单位的数据无法直接进入资产负债表的原因。

当前阶段,尽管很多企业都意识到数据作为资产的可能性,但除了极少数专门以数据交易为主营业务的公司外,大多数公司都没有为数据的货币计量做出适当的账务处理。对于数据资产的货币计量,可以参照无形资产的计量规则。无形资产准则根据无形资产取得方式的不同,对如何确定无形资产的入账价值作了规定。比如,外购的无形资产应按实际支付的价款作为入账价值;通过非货币性交易换入的无形资产,其入账价值应按非货币性交易准则的规定确定入账价值。与之相类似,对于通过交易手段获得的数据,应按照实际支付的价款作为入账价值计入无形资产。对于通过服务、交换等方式获取的数据,则可以根据数据的用途,参照内部开发项目资本化的方式,将与获取数据相关的费用支出予以资本化而不是直接计入当期损益。

将数据列入无形资产的好处不言而喻:考虑到研发因素,很多高科技企业都具有较长的投入产出期,通过对递延资产的摊销可以为企业形成有效税盾,降低企业实际税负。

3、能够为企业带来经济利益

如果不能带来经济利益,再多的数据也只能是垃圾,企业还要为这些数据支付额外的存储费用。根据国金证券的研究报告,目前直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。

数据租售:以四维图新、广联达为代表的公司,在主营业务的基础上,通过对业务数据的收集、整理、过滤、校对、打包、发布等等一系列的流程,实现了数据自身的价值,为企业带来了经济利益。

信息租售:以彭博为代表的金融信息服务商,聚焦在某个行业,广泛收集相关数据、深度整合萃取信息,以庞大的数据中心加上专用的数据终端,形成数据采集、信息萃取、价值传递的完整链条,成为行业巨擘。

数据使能:类似于阿里金融这样的公司,通过对大量数据进行有效的挖掘和分析,开展传统公司难以触及的小额贷款业务,为公司开创新的盈利增长点。

      1. 数据资产的保值增值

数据既然具备资产的属性,也就存在着折旧损毁和保值增值的问题。如何让数据资产实现保值增值呢?通常在资产负债表的资产项上,财务人员喜欢按照资产的流动性将资产从上至下进行排列。与之相类比,决定数据资产价值的则是数据的规模、活性,以及收集、运用数据的能力。因此,要实现数据的保值增值,

就要从扩大数据规模,提高数据活性,提升收集运用数据的能力三个方面入手:

`扩大数据规模

尽管大数据技术层面的应用可以无限广阔,但是受制于当前阶段数据收集和提取合法性方面的限制,能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。另一方面,单体企业仅仅基于自己掌握的独立数据很难了解产业链各个环节数据之间的关系,对消费者做出的判断和影响十分有限。

因此,只有充分发挥大数据生态圈中各企业的协同效应,建立起数据交换机制才能有效的扩大数据规模。当前阶段,很多需要共享数据的企业间竞合关系同时存在,企业在共享数据之前需要权衡利弊,避免在共享数据的同时丧失竞争优势。

`提高数据活性

我们知道,数据类型繁多和价值密度低是大数据的重要特征。只有数据所有者们围绕核心业务需求构建起数据间的关联关系,才能提高那些不同来源获取的结构化与非结构化数据的活性。例如,对于数字营销中关键的业务环节-消费者画像,建立起统一的用户识别标识后,才能把众多环节收集的数据整合到一起,更加全面的了解用户。

`提升收集运用数据的能力

与结构化数据相比,非结构化数据由于其难以用传统数据库的二维逻辑表来表现而被放弃。IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%.显然,加强对非结构化数据的重视程度对于提升整体收集运用数据的能力效果显著。

另一方面,伴随着技术发展,传统的数据处理流程已不能满足业务需要,提高数据处理速度势在必行。例如,O2O模式对用户数据实时处理有着极高的要求:用户数据伴随用户行为产生,这些数据往往是高速实时数据流。而且O2O业务周期短,这需要实时的分析用户数据并根据分析结果对用户进行个性化服务,通过传统的数据库查询方式得到的“当前结果”很可能已经没有价值,必须提升对这类数据的高速处理能力才能应对挑战。

      1. 推动数据交易市场建设,加速数据资产化进程

出于对数据价值的认可,当前阶段一些企业在业务需求的拉动下,尝试采用限额等量交换的方式进行数据交换;也有一些公司以CASE BY CASE的方式定价出售数据。但在缺乏交易规则和定价标准的情况下,数据交易双方交易成本很高,直接制约了数据资产的流动。

金融市场是现代金融体系的重要组成部分,由于其具有融资、调节、避险和信号的功能,对于资产的优化配置和合理流动起到了巨大的促进作用。与之相类似,推动数据交易市场的建设,必然能加速数据资产化的进程。大胆预测一下,未来数据市场有可能会出现数据现货交易、期货交易,甚至是数据衍生品交易。到了那个时候,数据进入资产负债表的时间就真的是指日可待了。

  • 17
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

用数据说话用数据决策

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值