《大数据》2024年第4期目次&摘要

最新推荐文章于 2024-09-16 11:16:36 发布

唐名威

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量43

点赞数

文章标签：大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzAxOTQ2NzUxOQ==&mid=2651922083&idx=1&sn=d9eecb0e04895f4b4954fe2b7c0195fb&chksm=8193566213a75ea9173b0d496bdc719b61943ba1601f4328d4f863fc5cf6fe19c6002754085c&scene=126&sessionid=0

版权

点击上方蓝字关注我们

《大数据》

第10卷第4期 2024年7月

大数据2024年第4期

（点击原文链接在官网阅读完整文章）

01 专题导读：大数据与云存储

张广艳

02 面向湍流大数据的高效存储与访问关键技术研究

程文迪, 张晓, 潘兆辉, 赵友军, 孙晨光, 单学强, 金雨展, 赵晓南

03 面向大数据场景的系统性能优化实践

王冀彬, 杨海龙, 冯凯, 孙欣, 张敏达, 雷克伦, 肖智文, 张逸飞, 吴佳熙

04 面向NVM的IoT时序数据多态协作压缩策略

蔡涛, 雷天乐, 牛德姣, 戴健飞, 黄泽宇, 倪强强

05 面向广域分布式计算环境的任务与资源动态双向匹配方法

尚晶, 肖利民, 肖智文, 王锦权, 武智晖, 李辉阳, 张逸飞, 宋尧, 王冀彬

06 基于长短期记忆网络的炼钢厂碳排放量预测方法

李凤云, 窦泽慧, 李朋, 郭威

07 基于生成对抗网络的多特征融合去雾技术

司亚中, 张旭龙, 杨帆, 王健宗, 程宁, 肖京

08 面向大数据的可扩展正则采样并行排序算法

王莹, 陈志广, 卢宇彤

09 一种双通道半监督网络表示学习模型

杜航原, 谢富中, 王文剑, 白亮

10 基于机器阅读理解的论文辅助阅读系统构建

秘蓉新, 姚文文, 阮宏坤

11 基于城市知识体系的公共数据要素构建方法

郑宇, 易修文, 齐德康, 潘哲逸

12‍ 数字政府时空数据中台设计与实践‍

王昀, 杜志双, 田康, 苏小保, 常鹏飞, 梅迪菲, 李津宇, 姬龙建, 郭毅峰, 周武爱, 张皖哲, 冯建华

13 中国数字经济空间网络及溢出效应研究

牛奉高, 史若玉

14 基于异构硬件的LSTM训练系统

黄为新, 胡伟方, 曹雪娇, 石宣化

摘要

专题：大数据与云存储

专题导读：大数据与云存储

作者：张广艳

摘要：随着信息化浪潮的迅猛发展和人工智能技术的快速迭代，大数据与云计算已成为支撑前沿信息技术的新型基础设施。大数据蕴含着巨大的信息价值，被誉为数字经济时代的“石油”，成为推动经济社会发展的关键生产要素之一。云计算系统能够为大数据提供全周期、低成本、可扩展的存储、处理和服务，成为大数据价值发现与实现的重要平台。云存储作为云计算系统的重要组成部分，基于海量、异构的硬件构建分布式存储，为云计算系统提供高性能、高可靠和可扩展的数据存储服务，有效支撑大数据的可靠存储与高效分析。大数据与云存储可以为国家重大战略应用和人民群众生产生活提供服务，将成为未来数字时代新的发展引擎和动力源泉。国内外企业巨头纷纷着力布局大数据与云存储相关产业，我国政府也大力支持大数据与云存储产业的发展。

大数据与云存储领域涵盖硬件、系统、软件、算法和应用等多个方面，对计算机信息系统全栈提出了一系列挑战。为了针对性地应对大数据与云存储发展中的技术挑战，本刊特组织“大数据与云存储”专题，探讨学术界和产业界关注的技术问题和解决方案，旨在加强对大数据与云存储产学研发展的理解与认识。经过同行专家评审，最终录用了5篇文章，主题涵盖行业大数据的存储和访问、分布式系统中的低效查询优化、时序数据的高效压缩、分布式计算环境中的任务与资源匹配、碳排放量预测等方面。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00001.shtml

面向湍流大数据的高效存储与访问关键技术研究

作者：程文迪, 张晓, 潘兆辉, 赵友军, 孙晨光, 单学强, 金雨展, 赵晓南

摘要：随着测量技术和数值模拟技术的发展，数据驱动的湍流研究成为该领域的新研究方法。我国已建立了多个风洞实验室和多个超算中心来模拟湍流，这些研究积累了大量的湍流数据，但是国内没有集中的湍流数据管理平台，耗资巨大的实验和仿真数据难以实现交流和共享。湍流数据具有数据量大、维度高、精度高和多源异构等特点，其存储、访问与管理存在数据集成困难、数据访问低效和存储效率低等问题。设计了一个面向航空、航天和航海典型流动问题的湍流大数据分布式存储系统TDFS。结合湍流大数据的访问特点，在TDFS中设计了新的元数据组织方式和数据访问接口。实验结果表明，与HDFS和GlusterFS相比，TDFS分别实现了54.38%和57.7%的接口响应速度提升。同时，为了降低湍流大数据的存储开销，设计了基于HDF5的副本延迟压缩机制，相比原有的副本存储方式，节省了34%的存储空间。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00003.shtml

面向大数据场景的系统性能优化实践

作者：王冀彬, 杨海龙, 冯凯, 孙欣, 张敏达, 雷克伦, 肖智文, 张逸飞, 吴佳熙

摘要：在现有大规模分布式环境中，大数据应用的性能与计算效率仍有较大的提升空间。然而，在大规模环境中进行性能分析与优化需要大量领域专家。针对大数据应用中的性能优化问题，提出了一个通用的低效查询语句检测与优化流程，总结了4类显著影响大数据应用性能的低效行为，并针对每一类低效行为，提出了具体的优化策略。最后，通过实验评估验证了提出的优化方案在实际大规模集群中的有效性。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00021.shtml

面向NVM的IoT时序数据多态协作压缩策略

作者：蔡涛, 雷天乐, 牛德姣, 戴健飞, 黄泽宇, 倪强强

摘要：压缩策略是影响IoT时序数据存储系统性能的重要因素，而现有压缩策略缺乏针对NVM与IoT时序数据特性的优化机制。因此，提出了面向NVM的IoT时序数据多态协作压缩策略。首先，给出了IoT时序数据的组织结构。然后，针对IoT时序数据在一段时间内较稳定以及在用户态与内核态读写NVM适合的粒度差异较大的情况，设计了分层压缩策略。在用户态接收数据时，采用轻量级的数据压缩算法减少需存储的数据量，也减小了对IoT时序数据的存储效率的影响；针对IoT系统以查询和分析异常时序数据为主的特性，设计了深度压缩算法，在内核态对历史IoT时序数据进行深度压缩。其次，针对深度压缩历史IoT时序数据与存储新接收的IoT时序数据之间对NVM带宽的竞争，提出了写带宽保证的动态调整算法。最后，构建了面向NVM的IoT时序数据多态协作压缩策略原型PCCTSMS，并使用YCSB-TS工具进行测试与分析。实验结果表明，与InfluxDB、OpenTSDB、KairosDB和TVStore相比，PCCTSMS最高能提升161.3%的写吞吐率以及减少14.6%的存储空间。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00034.shtml

面向广域分布式计算环境的任务与资源动态双向匹配方法

作者：尚晶, 肖利民, 肖智文, 王锦权, 武智晖, 李辉阳, 张逸飞, 宋尧, 王冀彬

摘要：广域分布式计算环境可提供大规模的计算和存储资源，是支持算力互联和数据流转的重要基础设施。在广域分布式计算环境中，任务与资源的匹配对于提高系统性能具有重要意义。然而，任务与资源的多样性、地理位置分散的资源会增加二者匹配的复杂性。针对响应延迟高、匹配效率低等问题，提出了面向广域分布式计算环境的任务与资源动态匹配方法，通过建立统一的任务需求模型和资源能力模型来简化匹配过程，降低响应延迟。此外，定义了任务向匹配度和资源向匹配度以刻画任务视角和资源视角的偏好，并权衡二者；定义了任务和资源的双向综合匹配度以量化任务需求和资源能力的适配程度。最后通过动态计算每一组任务与资源间的双向综合匹配度以优化匹配效果。实验结果表明，与现有的方法相比，该方法可提升匹配效果，并大幅降低平均响应延迟。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00051.shtml

基于长短期记忆网络的炼钢厂碳排放量预测方法‍

作者：李凤云, 窦泽慧, 李朋, 郭威

摘要：钢铁行业作为中国制造业碳排放量第二大的行业，拥有较大的碳减排潜力。为便于相关部门对碳排放量进行监管和控制，展开碳排放量预测研究。以某炼钢厂为研究对象，首先，分析炼钢流程中的二氧化碳排放，确定了引起碳排放的10种能源物质，据此收集了炼钢厂 20 01—2023年的基础能源数据，依据碳排放核算方法由基础能源数据核算出碳排放量；其次，基于长短期记忆网络预测未来7年的碳排放量，训练误差和测试误差均接近0.01，实际误差为1 323 307.46 t二氧化碳，并与其他3种预测模型进行对比，结果表明所提预测模型的拟合精度较高、预测效果较好；然后，采用Mann-Kendall趋势检验法评估炼钢厂的整体碳排放趋势；最后，为积极响应低碳环保目标，针对炼钢厂提出合理建议。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00066.shtml

研究

基于生成对抗网络的多特征融合去雾技术

作者：司亚中, 张旭龙, 杨帆, 王健宗, 程宁, 肖京

摘要：为提高图像清晰度，解决传统图像在去雾过程中存在的特征提取困难、去雾不彻底等问题，提出一种基于生成对抗网络的多特征融合端到端去雾网络。该网络由生成器和判别器组成，生成器采用编解码结构，通过多特征提取融合（MFEF）块提取多种感受野下的高维表征信息。判别器使用一系列卷积计算对生成图像和清晰图像进行特征差异分析，引导生成器输出更加真实的去雾图像。实验结果表明，该算法在有效消除雾霾干扰的同时，能够最大限度地保留图像的原始色调。与现有方法相比，该算法在峰值信噪比、结构相似性客观评价指标上分别提升了2.588 dB、2.66%。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00077.shtml

面向大数据的可扩展正则采样并行排序算法

作者：王莹, 陈志广, 卢宇彤

摘要：排序算法是计算机科学领域的一个基础算法，是大量应用的算法核心。在大数据时代，随着数据量的极速增长，并行排序算法受到广泛关注。现有的并行排序算法普遍存在通信开销过大、负载不均衡等问题，导致算法难以大规模扩展。针对以上问题，提出一种大规模可扩展的正则采样并行排序（scalable parallel sorting by regular sampling，ScaPSRS）算法，摒弃传统正则采样并行排序（parallel sorting by regular sampling，PSRS）算法中由一个进程负责采样的做法，转而让所有进程参与正则采样，选出p-1个分隔元素，将整个数据集划分成p个不相交的子集，然后实施并行排序，避免了单一进程的采样瓶颈。此外， ScaPSRS采用一种新的迭代更新策略选择p-1个分隔元素，保证划分的p个子集尽可能大小相同，从而确保p个进程对各自的子集进行本地排序时的负载均衡。在天河二号超级计算机上进行的大量实验表明， ScaPSRS算法能够成功地扩展到32 000个内核，性能比PSRS算法和Hofmann等人提出的分区算法分别提升了3.7倍和11.7倍。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00089.shtml

一种双通道半监督网络表示学习模型

作者：杜航原, 谢富中, 王文剑, 白亮

摘要：在半监督网络表示学习中，节点标签对于网络在不同空间中映射关系的建立具有重要指导意义。然而在很多实际任务中，可用标签信息往往比较有限或难以获取，这导致在学习网络低维表示的过程中无法提供充分有效的监督。针对这一问题，提出了一种双通道半监督网络表示学习模型，该模型以自编码器为基本框架，由自监督和半监督两个信息传递通道构成。自监督信号与标签信息分别在两个通道中对网络表示映射关系的建立提供指导，同时二者之间形成信息互补与增强。考虑到两个通道间可能存在信息冗余，在互信息视角下设计了冗余识别与消除机制。在此基础上，构造了一体化优化模型，实现自监督学习与半监督学习的协同，使学习到的网络表示更好地捕捉和保持网络的结构和特性。在真实数据集上的实验结果表明，提出的模型学习的网络表示在节点分类、聚类和可视化等任务中能够获得优于基线方法的性能。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00106.shtml

应用

基于机器阅读理解的论文辅助阅读系统构建

作者：秘蓉新, 姚文文, 阮宏坤

摘要：在信息化和数字化时代，科技论文数量的迅速增加带来了一系列问题，如论文冗长、信息提取困难、阅读时间成本居高不下等，研究者面临着更加烦琐、耗时的文献阅读挑战。通过语言模型落地创新，设计了科技论文辅助阅读系统来应对这些挑战。以机器阅读理解技术为核心，通过解析论文文本和预先设定问题，达到自动回答的效果。充分利用预训练语言模型PERT，提升系统对语义的理解和信息的提取能力，解决科技论文阅读过程中存在的各种问题，从而帮助读者提高科技文献阅读效率。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00121.shtml

论坛

基于城市知识体系的公共数据要素构建方法

作者：郑宇, 易修文, 齐德康, 潘哲逸

摘要：数据要素是数字经济发展的核心动能。城市公共数据的基础良好、普适性强、应用场景丰富，成为政府主导的数据要素的首选。当前数据与应用耦合，不同应用之间共享数据难，人工数据治理过程滞后、繁重低效，仅依靠自动抽取技术无法保证数据要素的精度。为此，基于人机智能协同的总体思路，提出基于城市知识体系的数据要素构建方法。首先，对大量城市业务进行解构和抽象，构建以人、地、事、物、组织5类实体，实体间关系及实体属性为核心的城市知识体系，并以这些实体、关系和属性为数据要素的原子描述，向上组合表达各种城市业务，向下形成可标准化的数据资源体系。其次，研发一套数字化控件，承载基于城市知识体系的数据要素化理论，通过灵活配置的方式开发服务于市民的各类应用，使数据在产生时就与城市知识体系关联，自动形成数据要素。最后，构建智能学习和推荐算法，更好地连接数字化控件和城市知识体系，使应用配置人员无须学习城市知识体系就能顺畅地使用数字化控件，降低了工具的使用门槛。该方法可大大提高公共数据要素产生的效率和扩大公共数据要素的规模，释放公共数据要素的价值。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00130.shtml

数字政府时空数据中台设计与实践

作者：王昀, 杜志双, 田康, 苏小保, 常鹏飞, 梅迪菲, 李津宇, 姬龙建, 郭毅峰, 周武爱, 张皖哲, 冯建华

摘要：自然资源和地理信息大数据是数字政府中重要的生产要素，是全国一体化政务大数据体系的重要组成部分。由于各部门存在数据分散和应用孤岛的问题，跨部门、跨业务的数据共享与应用存在一定困难，整体数据利用率低下。针对上述问题，围绕自然资源和地理信息大数据资源服务的需求，设计了数字政府时空数据中台，并对存储计算、数据体系和应用支撑等关键部分进行了详细说明。通过自然资源和地理信息库与人口综合库和法人综合库的整合，数字政府时空数据中台实现了人、企、地三者的有机融合，并结合具体的应用实践进行说明。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00149.shtml

中国数字经济空间网络及溢出效应研究

作者：牛奉高, 史若玉

摘要：随着数字技术的蓬勃发展，数字经济成为一种全新的经济模式，为改善供需匹配、提升资源配置和促进经济转型升级提供了强大动力。为了全面分析数字经济发展的整体情况和空间关系，首先，对中国的31个省、区、市建立了数字经济评价指标体系，并通过修正的引力模型计算引力值，进而构建空间网络；然后，通过全局莫兰指数探究数字经济发展水平在空间上的依赖关系；最后，建立时空双固定杜宾模型，分析数字经济发展水平的影响因素和溢出效应。结果表明：中国数字经济发展空间网络不够紧密，区域间差异明显，邻近相依；城镇化水平的提升不仅促进本省、区、市的数字经济发展，还能间接带动邻省、区、市的发展，有很强的空间溢出效应，但人力资本水平对周边地区的数字经济发展有抑制效应。

原文链接：‍https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00161.shtml

专栏：信息技术应用创新：系统与软件

基于异构硬件的LSTM训练系统

作者：黄为新, 胡伟方, 曹雪娇, 石宣化

摘要：在大数据时代，以LSTM为代表的深度神经网络模型具有处理海量数据的能力，在语言处理、语音识别、时序数据预测等领域表现优异。随着模型复杂度的提高，训练成本大幅提升。现有的LSTM训练系统使用了算子融合、多流等加速手段，但忽略了训练算子内部计算的可并行性，导致计算资源的利用率低，整体耗时长。为此，设计了基于细粒度模型划分和多流并行调度方法的LSTM训练系统TurboLSTM，在英伟达GPU和国产昇腾NPU这两种异构硬件上构建的全新底层训练算子实现了任务对计算资源的合理利用。与已有训练系统相比，在GPU上TurboLSTM的单算子训练时间缩短了23%，模型的整体训练时间缩短了17%，在NPU上TurboLSTM的单算子训练时间缩短了15%，且对计算资源的利用率显著提高。这表明提出的加速方案是高效的，具有良好的泛化能力。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-4-00172.shtml

联系我们:

Tel:010-53879208

010-53878019

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-53878078

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录，并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。