点击上方蓝字关注我们
《大数据》
第10卷第3期 2024年5月
大数据2024年第3期
(点击原文链接在官网阅读完整文章)
目次
01 “政务数据处理”专题导读
安小米
王昀, 郭毅峰, 苏晓亮, 周武爱, 张皖哲, 许大虎, 周强, 冯建华
王跃, 苏娜
吴坚平, 陈超超, 金加和, 吴春明
王蕤, 刘震
李鹏程, 张旭龙, 王健宗, 程宁, 肖京汪诗蕊, 解博涵, 丁玲, 陈建廷, 向阳
罗凯靖, 张育铭, 何玉林, 黄哲学
董相宏, 安俊秀
石佳来, 郭卫斌
仵匀政, 杜韬, 周劲, 陈迪, 王心耕
齐鹏云
14 依照数据用途界定公共数据
朱扬勇
林庆, 刘心田
摘要
专题:政务数据处理
专题:政务数据处理
作者:安小米
摘要:2022年10月28日,《全国一体化政务大数据体系建设指南》(以下简称《指南》)发布,就整合构建全国一体化政务大数据体系作出部署,提出要健全政务数据标准规范体系,强化数据安全保障,促进数据有序流动和高质赋能,为推进国家治理体系和治理能力现代化提供有力支撑。
基于此,本刊以“政务数据处理与大数据平台建设及应用”为主题,收录了涉及政务数据标识、政务数据分类分级、政务大数据平台隐私数据管理、政务大数据平台建设和应用、数据赋能驱动智能化政府建设等方面内容的5篇论文,旨在总结《指南》实施中遇到的关键问题及应对策略和方案。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00001.shtml
政务数据标识技术研究进展及下一代政务数据标识体系
作者:王昀, 郭毅峰, 苏晓亮, 周武爱, 张皖哲, 许大虎, 周强, 冯建华
摘要:政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结,比较了不同数据标识技术编码规则的异同,并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点,提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中,外部码兼容了统一社会信息用代码,内部码建立了“机构部门-系统-数据”的关联关系,安全码通过引入区块链技术实现防伪验真。Gcode具有权责明确、兼容性强、安全性高等特点,能够支持政务数据跨层级、跨地域、跨系统、跨部门、跨业务共享,可有力推动实现政务数据“一数一源”。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00003.shtml
我国政务数据分类分级实施关键问题与实践研究
作者:王跃, 苏娜
摘要:数据分类分级是保障数据安全流通、推动数据价值释放的基础前提。聚焦政务数据分类分级这一政府数字化改革中的关键任务,采用基于理论的案例研究方法,基于各省级地方及部委公开发布的方案,对我国政务数据分类分级实施情况进行系统梳理与量化分析。总结了我国政务数据分类分级实施的四大关键过程与五大特点;从政务数据分类分级的特殊复杂性出发,提出我国政务数据分类分级实施存在整体目标定位不清、分类分级对象各异、分类分级关系割裂、安全分级标准不一4个问题,并提供应对方案;基于国家某部委政务数据分类分级实践,验证应对方案的科学性、有效性,为构建全国统一的政务数据分类分级体系提供参考。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00016.shtml
省级政务大数据平台建设模式研究与启示
作者:孟凡, 杨群力, 高阳, 李文斌
摘要:建设高质量政务大数据资源平台是实现跨部门、跨区域、跨层级政务信息集成融合,加快建设数字政府、提升公共服务和社会治理等数字智能化水平的重要基础工程。首先,回顾我国电子政务发展历程,并总结出传统省级政务大数据平台的3种建设模式以及存在的问题,即数据鲜活性低、数据一致性差、业务协同管理难、基础支撑力弱和总体投入高。其次,对江苏信用一体化信息资源管控平台进行案例分析,阐述以江苏案例为例的原因,针对传统建设模式存在的问题,提出对应的解决思路和总体架构设计,并梳理出江苏案例的4个借鉴价值。最后,在总结江苏研究和实践经验的基础上,归纳出5点建议,为各省研究、制定省级政务大数据平台的建设指南等政策性文件提供参考。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00027.shtml
基于联邦学习的政务大数据平台应用研究
作者:吴坚平, 陈超超, 金加和, 吴春明
摘要:当前数字政府建设已进入深水区,政务大数据平台作为数据底座支撑各类政务信息化应用,其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法,基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先,介绍政务大数据平台及联邦学习应用现状;然后,分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战;接着,阐述基于联邦学习的推荐算法和隐私集合求交技术的解决方法;最后,对政务大数据平台隐私数据的未来应用进行了总结和展望。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00040.shtml
“数据赋能”驱动智能化政府建设的逻辑与路径
作者:王蕤, 刘震
摘要:在社会全面数字化的时代,政府的智能化趋势不可阻挡。在技术与数据的协同作用下,我国数字政府建设呈现电子化、网络化和智能化的发展趋势。数据是数字政府建设的核心资源,建设智能化数字政府必然要求充分发挥数据的价值。数据赋能推动数字政府建设的逻辑如下:数据赋能政府的开放性运行;数据赋能政府的整体性运行;数据赋能政府的协同性运行;数据赋能政府的科学性运行。通过数据赋能推动数字政府建设的具体路径要求:以数字政府的整体性运行为基础保障数据的开放共享;以数字政府的协同性运行为基础保障数据的统一与管理;以数字政府的开放性为基础保障数据的统筹协调与再分配;以数字政府的科学性为基础保障数据来源的多元性。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00055.shtml
研究
面向非平行语料的语音转换技术综述
作者:李鹏程, 张旭龙, 王健宗, 程宁, 肖京
摘要:语音转换是语音及人工智能领域的一项研究课题,其目标是在保持源语音内容不变的情况下改变语音的音色,使其听上去像是由另一个目标说话人说出的,同时还需保证语音的质量和自然度。面向非平行语料的语音转换技术是当下的热门研究内容,其使用非平行的多说话人语音数据集进行模型训练,能完成多对多以及任意对任意的语音转换。对近年来面向非平行语料的语音转换进行了全面的总结和分析。首先概述了早期面向平行语料的语音转换及其缺陷,然后对当下面向非平行语料的语音转换的各类实现方法进行介绍和对比分析,最后对语音转换技术进行了总结和展望。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00065.shtml
知识与句法融合的因果关系抽取网络
作者:汪诗蕊, 解博涵, 丁玲, 陈建廷, 向阳
摘要:因果关系抽取作为关系抽取的一个重要任务,近年来得到了广泛关注。现有的因果关系抽取方法大多将句法结构和背景知识割裂开进行研究,早期的因果关系抽取方法偏重于从句法结构层面进行分析,随着深度学习技术的发展,预训练模型结合背景知识的方法成为主流。然而上述两种方法均未完全融合句内信息和外部知识,带来了不同程度的信息缺失。为了解决这一问题,提出了结合句法结构和背景知识的因果关系抽取模型。该模型将句子解析为同时包含句法和知识的知识句法图结构,使用图卷积网络进行信息融合。模型同时考虑了句法和知识两部分信息,从而进一步丰富了实体嵌入,达到了良好的因果关系抽取效果。本模型在EventStoryLine数据集上取得了良好效果,F1值达到0.445,与现有方法相比提高了2.3%。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00082.shtml
Bootstrap样本大数据模型和分布式集成学习方法
作者:罗凯靖, 张育铭, 何玉林, 黄哲学
摘要:传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成学习方法。BSP数据模型通过分布式生成算法将训练数据表达成分布式Bootstrap样本集的集合,存储成HDFS分布式数据文件,为后续的分布式集成学习提供数据支持。分布式集成学习方法从BSP数据模型中随机选取多个BSP数据块,读入集群各个节点的虚拟机,用串行算法对选取的数据块并行计算统计量或训练建模,再将所有的计算子结果回传至主节点中,生成最终的集成学习结果,此过程中可加入对子结果的质量选择以进一步提高预测效果。BSP数据模型的生成和分布式集成学习采用非Map-Reduce计算范式进行,每个数据块的计算独立完成,减少了计算节点间的数据通信开销。提出的算法在Spark开源系统中以新的算子方式实现,供Spark应用程序调用。实验表明,新方法可以高效地生成训练数据的BSP数据模型,提高数据样本的可重用性,在基于有监督机器学习算法构建的大规模Bagging集成学习实验中,计算效率能提高50%以上,同时预测精度进一步提高约2%。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00093.shtml
基于动态动作覆盖的深度强化学习新闻推荐
作者:董相宏, 安俊秀
摘要:新闻推荐系统对新媒体新闻传播有着重要作用。提出了一种以深度强化学习为基础的推荐系统,旨在结合神经网络的表征能力和强化学习的策略选择能力来提升新闻推荐效果。使用动态动作掩码加强对用户短期兴趣的判断能力,使用优化缓存机制提升经验缓存的使用效率,通过区域遮蔽性质的奖励设计加快模型训练,从而提高推荐系统在新闻推荐领域的表现。实验表明,所提模型在新闻数据集上的推荐准确率与主流的神经网络推荐方法相当,且在排序性能上优于当前先进的推荐算法。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00109.shtml
面向自然语言理解的多教师BERT模型蒸馏研究
作者:石佳来, 郭卫斌
摘要:知识蒸馏是一种常用于解决BERT等深度预训练模型规模大、推断慢等问题的模型压缩方案。采用“多教师蒸馏”的方法,可以进一步提高学生模型的表现,而传统的对教师模型中间层采用的“一对一”强制指定的策略会导致大部分的中间特征被舍弃。提出了一种“单层对多层”的映射方式,解决了知识蒸馏时中间层无法对齐的问题,帮助学生模型掌握教师模型中间层中的语法、指代等知识。在GLUE中的若干数据集的实验表明,学生模型在保留了教师模型平均推断准确率的93.9%的同时,只占用了教师模型平均参数规模的41.5%。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00119.shtml
基于三阶张量的大规模数据谱聚类集成算法
作者:仵匀政, 杜韬, 周劲, 陈迪, 王心耕
摘要:为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00133.shtml
论坛
国防网络安全与数据治理研究
作者:齐鹏云
摘要:健全和完善我国国防网络安全和数据治理架构,既是国家网络安全与数据治理的重要一环,也是在《数据安全法》框架下细分领域内的重要实践。运用比较分析和文献分析法,提炼美国2013—2022年《国防授权法》中国防网络安全与数据治理的逻辑特征,吸收美国国防网络安全与数据治理的成功经验,完善我国国防网络安全与数据治理的总体架构。总体国家安全观下的国防网络安全与数据治理需要兼顾传统安全与非传统安全建设的核心要素,完善国防网络与数据安全的专项立法、构建政民预警交互意识和政企合作交互布局的“双重交互”体系,完善我国国防网络安全与数据治理格局。
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00149.shtml
专家视点
依照数据用途界定公共数据
作者:朱扬勇
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00163.shtml
专栏:地方政府大数据
山东省数据创新应用建设探索与实践
作者:林庆, 刘心田
原文链接:https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-3-00168.shtml
联系我们:
Tel:010-53879208
010-53878019
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作:010-53878078
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容