面向政府治理大数据的高性能计算系统
吴维刚1, 常亮2, 任江涛1, 古天龙2
1 中山大学数据科学与计算机学院,广东 广州 510006
2 桂林电子科技大学计算机与信息安全学院,广西 桂林 541004
摘要:大数据处理系统是未来社会的基础设施之一。政府治理场景下的大数据处理任务具有多域异构、多主体等特点,因此需要针对性地进行研究设计。从应用需求出发,分析各类政府治理场景对大数据处理技术提出的挑战,梳理大数据分布并行处理的关键技术,包括数据存储管理、计算平台、关键算法等,调研总结相关技术的研究现状,并提出面向政府治理大数据的高性能计算系统的技术框架,分析讨论不同技术路线的优劣。最后展望相关技术的未来发展趋势。
关键词:大数据处理 ; 政府治理 ; 分布式计算 ; 计算框架 ; 资源管理
论文引用格式:
吴维刚, 常亮, 任江涛, 古天龙.面向政府治理大数据的高性能计算系统 .大数据[J], 2020, 6(2):41-56
WU W G, CHANG L, REN J T, GU T L.High performance big data computing systems for government governance. Big Data Research[J], 2020, 6(2):41-56
1 引言
随着互联网、物联网、云计算等信息与通信技术(information and communications technology,ICT)的迅猛发展,大数据时代已经来临。政府拥有和管理了规模巨大的政务大数据,包括公安、交通、医疗卫生、民政、就业等因开展政府工作而产生和采集的海量数据以及因管理服务需求而采集的外部与政务有关的大数据,如互联网舆情数据、电信网络数据等。大数据已经渗透到工业和商业领域的各个方面,成为影响生产的重要因素。政府治理活动迫切需要大数据技术的支撑和保障。在大数据条件下,数据驱动的“精准治理体系”“智慧决策体系”“阳光权力平台”将逐渐成为现实。
目前,国内外学者对政府治理大数据的技术研究和应用做了大量工作。但是,政府治理大数据的技术整体上还处在非常初始的阶段。现有的应用大多是针对特定、单一功能进行设计实现的,还缺乏综合性应用。在政务大数据分析处理系统方面,大多基于一般的服务器集群并未考虑利用已经大量建设和部署的超级计算系统。本文将首先介绍大数据应用在政府治理领域遇到的挑战,然后从大数据的存储与管理平台、政府治理大数据的分析处理平台出发,介绍政务大数据关键技术和算法,梳理相关技术的研究现状,并提出基于高性能超级计算平台的政务大数据处理系统。
2 应用情况
大数据在政府中的应用十分广泛,本节从政策效果评估预测、网络舆情分析、社会信用风险评估以及智慧城市构建4个方面介绍政务大数据在政府治理中的典型应用场景以及具有代表性的应用实例。
在政策效果评估预测领域,韩国庆北大学的Jun等人使用文本大数据管理解决方案Textom对地方政府的Government 3.0项目进行了评估。首先,通过Textom对韩国两大门户网站Naver和Daum上关于庆尚北道的数据进行了收集,包括新闻、文档、照片等。然后对收集的数据进行语义网络分析,得出对庆尚北道Government 3.0项目的结构化理解,同时为该项目提供了一个全面的评估。
在网络舆情分析方面,国内外已有众多成果,其中有代表性的包括国外的Twelvefold、Buzz、Metrics、Reputation Defender、Cision以及国内的人大方正、Rank、Goonie、军犬、麦知讯等舆情监控系统。大数据环境下的舆情分析主要包括信息采集、热点发现、热点评估与跟踪、分析处理4个方面。其中,信息采集包含数据爬取、存储及清洗。可通过网络爬虫、网站应用程序接口(application programming interface,API)获得所需数据;对于数据存储来说,当前有海量非结构化数据的分布式文件存储系统、海量半结构化数据的NoSQL数据库和海量结构化的分布式并行数据库系统3种大数据存储技术;数据清洗则是删除无效的网页数据和重复的文本数据。热点发现强调对新信息的发现和对特定热点的关注,通过聚类将信息汇总,并自动跟踪新闻事件,提供事件发展的轨迹,其常用的技术有Single-pass聚类算法、K-means聚类算法、KNN算法、支持向量机(SVM)、SOM神经网络聚类算法等。热点评估与跟踪关注的是如何根据热点事件中公众的情感和行为反应对舆情进行等级评估并设立相应的预警阈值。主要手段为词频统计和情感分类。词频统计是指对网络调查数据、文章关键词、浏览统计数据等进行采集分析及评估,对文本量大的结构化数据处理效果较好。情感分析则依赖于2类关键技术:基于概率论、信息论的分类算法和基于机器学习的分类算法。当前主流的算法为朴素贝叶斯算法和KNN算法。分析处理主要是根据分析的舆情等级及相应标准采取对应的控制与引导策略,常用的分类技术有贝叶斯分类技术、神经网络和SVM。
在社会信用风险评估方面,比较有代表性的应用包括国外的Big Data Scoring和国内的“信用天眼”。Big Data Scoring能够给银行、P2P贷款平台、小额信贷提供商和租赁公司等贷方提供易于集成的、基于云的服务,通过大数据分析提高贷款质量和接受率。该系统从贷款申请人的社交媒体、Google检索、IP地址等网络数据源收集数据,并将其与申请人的网络行为关联,在几秒内就可以准确预测潜在的客户付款行为,帮助贷方做出更有利的信用决策。“信用天眼”是由九次方大数据信息集团有限公司研发的社会信用大数据平台,该平台通过大数据分析技术建立信用模型,实现信用主体的综合信用评价,生成信用报告,并对具有信用风险的主体进行预警。目前,“信用天眼”主要包括“一网三库一平台”。其中,“一网”是指信用官方网站;“三库”是指归集、完善和整合各行业、各领域的信用信息建设成果,依托统一的社会信用代码,分别建立企业、个人、非企业法人(政府机关、事业单位、社会团体等)3个社会信用信息基础数据库;“一平台”是指利用大数据、云计算等技术,将三库信息进行融合,建立社会信用信息交换共享平台。
此外,在智慧城市构建方面,Rathore等人提出了一个基于物联网设备的4层模型,根据该模型产生的大数据构建智慧城市。在巴西里约热内卢,政府与IBM公司合作成立了一个仪表系统,将从30个代理处获得的包括交通、公共服务、紧急服务、天气摘要以及员工和民众提交的各种信息整合到一个分析中心。在这里,巨量的实时信息被整合、分析、可视化,这些信息被用于了解城市各方面的状态,构建模型预测城市的改变,同时也被用于预防洪水等灾害。一个具体的例子是,警方在事故现场可以通过该平台查看救护车的派遣情况,并上传现场信息。
3 技术需求与挑战
利用大数据分析处理技术实现政府治理大数据的有效管理和利用,并通过相应的应用服务于政府治理需求,仍然面临很多的挑战。
3.1 政府治理大数据的多源、异质、异构特性
建立政府治理大数据存储与管理基础设施是开展基于大数据的政府治理的基础。政府治理大数据涵盖政府各部门、企事业单位、居民等方面的各类数据,主要具有如下特征。
● 由于涉及的数据