《大数据》2021年第5期目次&摘要

7146cfefc54f836c71ee5238738b2c20.png

点击上方蓝字关注我们

506e7dcb3afde9340db78e81e80078d7.png

28f7e45ee5f9530c641f84223d60395d.png

《大数据》

第7卷第5期 2021年9月

大数据2021年第5期

(点击原文链接在官网阅读完整文章)

目次

01 专题导读:国产环境下的大数据处理系统

陈刚

02 面向多星多任务的大数据处理系统设计

马福利, 石涛, 陈玲, 郑岩, 熊森林

03 基于国产处理器架构的高能物理数据处理系统

程耀东, 程垚松, 毕玉江, 高宇, 李海波, 汪璐, 姚秋玲

04 从格点量子色动力学应用看国产超算环境的基础软件

宫明, 蒋翔宇, 陈莹, 刘朝峰

05 数值核反应堆大数据及其应用

汪岸, 任帅, 苗雪, 董玲玉, 朱迎, 陈丹丹, 胡长军

06 广域虚拟数据空间中边缘缓存系统的研究与实现

霍建同, 肖利民, 霍志胜, 徐耀文

07 面向大数据处理应用的广域存算协同调度系统

张晨浩, 肖利民, 秦广军, 宋尧, 蒋世轩, 王继业

08 专栏导读:数据驱动的优化

陈卫

09 基于样本的优化

张智杰, 孙晓明, 张家琳, 陈卫

10 基于优化反馈的组合在线学习

孔芳, 杨悦然, 陈卫, 李帅

11 强化学习在资源优化领域的应用

王金予, 魏欣然, 石文磊, 张佳

12 基于分布式缓存加速容器化深度学习的优化方法

张凯, 车漾

13 基于法律裁判文书的法律判决预测

张虎, 潘邦泽, 谭红叶, 李茹

摘要

专题:国产环境下的大数据处理系统

专题导读:国产环境下的大数据处理系统

作者:陈刚

摘要:作为我国科学技术研究以及经济活动的重要资源和技术,大数据正在成为科学发现和社会经济发展的新引擎。尽管我国大数据已经具备了良好的技术基础和独特优势,但仍然面临某些“卡脖子”的技术问题。因此需要在关键领域实现国产化,实现安全自主可控,同时实现国内资源和自主创新的融合。本专题以“国产环境下的大数据处理系统”为主题汇集了相关专家学者的6篇文章。这些文章分别介绍了自主研发的大数据与应用系统。在大数据技术应用方面,其中4篇文章分别介绍了高能物理、空间科学卫星、核反应堆等领域的相关研究与应用。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00001.shtml

面向多星多任务的大数据处理系统设计

作者:马福利, 石涛, 陈玲, 郑岩, 熊森林

摘要:随着我国发射的空间科学卫星越来越多,科学数据量爆发式增长,空间科学卫星大数据处理逐渐成为空间科学创新发展过程中被重点关注的环节,建设一套高性能的地面数据处理系统是建设我国自主可控的空间科学大数据生态、助力科学成果产出的重要推手。面向多星多任务并行处理的任务需求,针对空间科学卫星大数据处理中的多分级分类、多源产品融合组织以及高时效性要求等特点,提出了适用于大数据处理业务场景的高可靠硬件环境设计方案,并针对科学卫星处理任务类型多的特点,提出了基于任务类型感知的统一资源调度系统。完成了面向多星多任务的可扩展地面大数据处理系统的研制,支撑了中国科学院空间科学先导专项中的科学卫星数据处理任务。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00003.shtml

基于国产处理器架构的高能物理数据处理系统

作者:程耀东, 程垚松, 毕玉江, 高宇, 李海波, 汪璐, 姚秋玲

摘要:随着规模的不断扩大,高能物理实验产生了越来越多的科学数据,迫切需要先进的数据处理系统来支撑科学研究。目前,以ARM架构等为代表的国产处理器发展迅速,高能物理数据处理系统面临着新的机遇与挑战。首先总结了高能物理数据处理系统的需求及体系架构;然后描述了在国产处理器上开展的高能物理数据处理软件移植等相关工作,并提出了一种新的面向高能物理数据处理的可计算存储技术方案;最后给出了在国产处理器架构上的典型应用评测结果。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00017.shtml

从格点量子色动力学应用看国产超算环境的基础软件

作者:宫明, 蒋翔宇, 陈莹, 刘朝峰

摘要:格点量子色动力学(LQCD)是用数值模拟方法研究基本粒子的重要科学领域,因其巨大的数据量和计算规模而成为国际上超级计算机的主要科研应用之一。随着国产新一代超级计算机的发展,LQCD的计算软件由于其传统编程模型的限制,面临着更新换代的关键节点。从格点量子色动力学的视角出发,分析大规模科学应用软件对底层基础软件的需求特点,面向国产超算平台的发展方向,提出适配于大规模高效异构计算和大数据处理的新编程模型,为国产超算环境的基础软件建议了一个有潜力的发展方向。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00031.shtml

数值核反应堆大数据及其应用

作者:汪岸, 任帅, 苗雪, 董玲玉, 朱迎, 陈丹丹, 胡长军

摘要:数值核反应堆(数值堆)运行过程中涉及的海量数据可被用于优化现有数值堆模型、获取核能领域科学发现、推动数值堆研究。对现有的数据驱动建模和堆内微观现象预测的相关工作进行综述。在此基础上,结合领域特点提出了数值核反应堆大数据的概念,并分析了它作为工业大数据和模拟大数据的重要特征。以中国数值反应堆原型系统(CVR 1.0)为例,从数值堆大数据的多样性、关联性、非精确性等特征出发,运用神经网络、数理统计、数值分析等多学科的技术开展了建模优化和科学发现两个方向的研究工作,证明了数值核反应堆大数据特征对数值堆研究的指导作用。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00040.shtml

广域虚拟数据空间中边缘缓存系统的研究与实现

作者:霍建同, 肖利民, 霍志胜, 徐耀文

摘要:针对广域虚拟数据空间系统中边缘客户端访问和共享远程数据时,数据冗余传输造成大量网络带宽浪费的问题,通过研究广域虚拟数据空间系统中的缓存技术,提出边缘缓存机制优化数据访问通路,将数据以文件粒度缓存在靠近边缘客户端的位置,从而提升上层应用访问和共享数据的性能。测试结果表明,作为虚拟数据空间系统的补充,提出的边缘缓存系统可提升广域数据共享的性能。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00057.shtml

面向大数据处理应用的广域存算协同调度系统

作者:张晨浩, 肖利民, 秦广军, 宋尧, 蒋世轩, 王继业

摘要:以我国研发的高性能计算虚拟数据空间系统为基础,针对大数据处理应用如何统筹利用广域存储和计算资源的问题,设计并实现了一套面向大数据处理应用的广域存算协同调度系统。该系统可依据应用的计算特征和数据布局,通过存算协同、负载均衡、数据局部性感知等策略,在广域环境中协同调度应用数据和计算任务,统筹利用广域计算和存储资源,有效提升大数据处理应用的运行性能。在国家高性能计算环境中实际测试的结果表明,提出的调度方法可有效地支撑大数据处理应用,跨域目标协同识别、分子对接等典型应用的运行效率可提升3~4倍。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00082.shtml

专栏:数据驱动的优化

专栏导读:数据驱动的优化

作者:陈卫

摘要:优化是计算机科学和运筹学领域的一个分支,它研究在不同场景不同模型下达到最优解的方法,在计算机工程和工业工程等领域有广泛的应用。传统的优化基于给定的模型及其参数的输入。这些模型和参数通常是通过从领域知识中获得的经验及对以往数据收集的结果进行分析获得的,这属于机器学习的范畴,即机器学习从收集的大量数据中总结出数据尊崇的模型和对应的参数设置。现有的从数据到优化结果的流程基本上先用机器学习学出模型和对应的参数,然后将模型和参数输入一个基于模型的优化算法得到优化结果。该流程有“分而治之”的好处:机器学习和优化有不同的技术,传统上也是两个不同的计算机科学分支,由不同的领域专家对它们进行研究。机器学习着重于从数据中提取和抽象出模型,优化的任务是从学得的模型中找到最优解。

但在大数据和人工智能时代,这样的分工可能会带来从数据端到优化端整体性能的损失。Balkanski等人最近就指出有些优化问题从采样数据到模型的学习过程是可行的,从模型到优化的过程也是可行的,但从采样数据到优化的端到端的目标却是不可行的。这样的结果看似反直观,但它表达了机器学习和优化两个子任务潜在的不匹配问题。在大数据和人工智能的大背景下,很多应用需要不断地收集实时数据,优化的结果需要基于这些实时数据,模型只是其中的一个过渡部分。我们把这样的端到端的优化称为数据驱动的优化。数据驱动的优化在理论和应用上都带来了新的挑战。本专栏请到了3组学者从理论和实践的不同角度对数据驱动的优化加以阐述。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00098.shtml

基于样本的优化

作者:张智杰, 孙晓明, 张家琳, 陈卫

摘要:基于样本的优化研究的是如何通过用于学习目标函数的样本数据直接优化目标函数。首先介绍这一问题的数学模型——样本优化模型,以及这个模型下的不可近似性结果;然后介绍若干方法和样本优化模型的变种,以绕过这个模型下的不可近似性结果,使得优化成为可能;接着着重介绍其中一个变种——结构化样本优化模型,并详细阐述该模型下的最大覆盖问题和影响力最大化问题的优化算法;最后总结全文,并展望这一问题的未来研究方向。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00100.shtml

基于优化反馈的组合在线学习

作者:孔芳, 杨悦然, 陈卫, 李帅

摘要:组合在线学习问题研究如何在与环境的交互过程中学习未知参数,逐步找到最优的目标组合。该问题有丰富的应用场景,如广告投放、搜索和推荐等。首先阐述了组合在线学习问题的定义及其框架——组合多臂老虎机问题,归纳了此框架下的经典算法和研究进展;然后具体介绍了该问题的两个实际应用——在线影响力最大化和在线排序学习问题,以及其研究进展;最后展望了组合在线学习问题的未来研究方向。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00111.shtml

强化学习在资源优化领域的应用

作者:王金予, 魏欣然, 石文磊, 张佳

摘要:资源优化问题广泛存在于社会、经济的运转中,积累了海量的数据,给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛,从覆盖广泛的资源优化问题中划分出3类重要问题,即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作,围绕各研究工作的问题建模、智能体设计等方面展开详细阐述。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00131.shtml

研究

基于分布式缓存加速容器化深度学习的优化方法

作者:张凯, 车漾

摘要:使用GPU运行容器化深度学习模型训练任务,性能往往受限于数据加载和预处理效率。很多GPU计算资源浪费在等待从远程存储服务读取数据的过程中。首先介绍了基于容器和分布式缓存技术加速深度学习训练的方法,以及使用Alluxio和Kubernetes实现的系统架构和初步优化手段;然后阐述了TDCS及其训练任务与缓存数据互感知的协同调度策略;接着在Kubernetes容器集群中实现了TDCS,增强了分布式缓存加速大规模深度学习训练的可扩展性;最后用ResNet50图像分类模型训练任务进行性能验证。实验结果表明,相较于直接从远程存储服务中读取数据,TDCS可对运行在128块NVIDIA V100 GPU设备上的分布式训练任务实现2~3倍加速。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00150.shtml

基于法律裁判文书的法律判决预测

作者:张虎, 潘邦泽, 谭红叶, 李茹

摘要:针对智慧司法服务领域中“法律判决预测”任务的实际需求,探讨了法律判决预测任务的研究思路与实现路径,介绍了法律判决预测的整体框架和具体过程。基于从中国裁判文书网获取的海量真实案件数据和2018“中国法研杯”司法人工智能挑战赛的评测数据,整理了实验数据类别,规范了实验数据格式,形成了基于法律裁判文书大数据的法律判决预测数据集。在判决预测模型中,首先使用判决要素抽取方法提取出高质量的判决要素句,然后借鉴法官的判案思路,将整个法律判决预测任务转换为法条预测、罪名预测和刑期预测3项子任务,并分别构建了基于判决要素的预测模型。实验结果表明,所提方法在刑法类判决预测数据集上得到了有效的结果。

原文链接:http://www.infocomm-journal.com/bdr/article/2021/2096-0271/2096-0271-7-5-00164.shtml

联系我们:

Tel:010-81055448

       010-81055490

       010-81055534

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

351285e75980a84c9de3156c4f7a4bb4.png

关注《大数据》期刊微信公众号,获取更多内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值