《大数据》2024年第1期目次&摘要

最新推荐文章于 2024-09-08 13:20:08 发布

唐名威

最新推荐文章于 2024-09-08 13:20:08 发布

阅读量243

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzAxOTQ2NzUxOQ==&mid=2651921275&idx=1&sn=5bf0470875e51a8a4316ff4f4b2454d0&chksm=817d98035f55c22cf21ce238e9639533b00e213a76e1633f6ab85f39b88b61e681a0b47a44d1&scene=126&sessionid=0

版权

点击上方蓝字关注我们

《大数据》

第10卷第1期 2024年1月

大数据2024年第1期

（点击原文链接在官网阅读完整文章）

01 构建支持大模型训练的计算机系统需要考虑的4个问题

郑纬民

02 大数据与计算模型

李国杰

03 基于容忍因子的近似最近邻混合查询算法

贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗

04 基于边缘智能的沉浸式元宇宙关键技术与展望

王智, 夏树涛, 毛睿

05 面向低资源场景的实体知识获取研究综述

徐道柱, 赵凯琳, 康栋, 马超, 冯禹铭, 李紫宣, 弋步荣, 靳小龙

06 联邦学习的公平性研究综述

朱智韬, 司世景, 王健宗, 程宁, 孔令炜, 黄章成, 肖京

07 XAI架构探索与实践

夏正勋, 唐剑飞, 杨一帆, 罗圣美, 张燕, 谭锋镭, 谭圣儒

08 工业数字化转型：故障诊断方法研究进展

杨彪, 熊贇, 傅玲, 徐蔚峰, 李婧

09 政民互通：构建政府和居民之间的双向信息通道

郑宇

10 中国数据法律制度体系研究

谢祎, 何波

11 基于大数据技术的甘肃智慧旅游系统

郭亮, 杨裔, 秦炳峰, 曹建文, 李敏, 袁威, 李彩虹, 王军涛

12 基于随机森林回归的船舶特涂维修的日能耗预测

甘瑞平, 任新民, 姜军, 李鹏, 周小兵

13 小样本数据下特种材料基因工程的数据扩充方法

杨涛, 张兆波, 郑添屹, 彭保

摘要

战略研究

构建支持大模型训练的计算机系统需要考虑的4个问题

作者：郑纬民

摘要：支持大模型训练的计算机系统有3种类型，其中基于国产AI芯片系统的生态系统不是很好，要想改变这个局面，需要做好AI编译器、并行加速等10个关键软件；基于超级计算机的系统需要做好软硬件协同设计，从而更好地服务于大模型训练。针对如何搭建大模型的基础设施，提出4点平衡设计，以确保系统的性能、可靠性和可扩展性。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00001.shtml

大数据与计算模型

作者：李国杰

摘要：当前，人工智能持续升温，大语言模型吸引了众多人士的关注，并在全球范围内掀起了一股热潮。人工智能的成功本质上不是大算力“出奇迹”，而是改变了计算模型。首先，肯定了数据对于人工智能的基础性作用，指出合成数据将是未来数据的主要来源。然后，回顾了计算模型的发展历程，重点介绍了神经网络模型与图灵模型的历史性竞争；指出了大模型的重要标志是机器涌现智能，强调大模型的本质是“压缩”；分析了大模型产生“幻觉”的原因。最后，呼吁科技界在智能化科研中要重视大科学模型。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00009.shtml

研究

基于容忍因子的近似最近邻混合查询算法

作者：贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗

摘要：近似最近邻搜索（ANNS）是计算机领域中一种重要的高效相似度搜索技术，可用于在大规模数据集中进行快速信息检索。随着人们对高精度信息检索的需求不断增长，同时使用结构化信息和非结构化信息进行混合查询的方式也得到了广泛应用。然而，基于近邻图的过滤贪心算法在混合查询时可能会因结构化约束条件的影响导致连通性降低，进而损害搜索精度。为此，提出了一种基于容忍因子的过滤贪心算法，通过容忍因子控制不满足结构化约束条件的顶点参与路由，在不改变索引结构的前提下维持原有近邻图的连通性，克服了结构化约束条件对检索精度的负面影响。实验结果证明，新算法可以在不同结构化约束强度下实现ANNS的高精度搜索，同时保持检索效率。该研究解决了基于近邻图的ANNS在混合查询场景中的问题，为大规模数据集的快速混合查询信息检索提供了一种有效的解决方案。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00017.shtml

基于边缘智能的沉浸式元宇宙关键技术与展望

作者：王智, 夏树涛, 毛睿

摘要：近年来，360度视频、增强现实、虚拟现实等应用蓬勃发展，并逐渐形成元宇宙沉浸式体验新模式。这些新服务和应用具有高保真、沉浸式交互等共同特征。而作为一种新兴架构范式，边缘计算有效支持了这些需求。阐述释放边缘计算潜力支持沉浸式元宇宙体验的关键，包括AI驱动的内容生成；提出一种精度与延迟感知的模型推理框架，实现自适应深度学习模型部署和数据流推理，支撑用户体验感知的元宇宙服务与应用。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00035.shtml

面向低资源场景的实体知识获取研究综述‍

作者：徐道柱, 赵凯琳, 康栋, 马超, 冯禹铭, 李紫宣, 弋步荣, 靳小龙

摘要：实体获取是信息抽取的核心任务。近年来，在大数据训练模型的趋势下，深度学习在实体获取任务上取得了成功。但在自然环境等领域中，地形、灾害等类型的实体样本或者标注样本很少，而且对无标签样本进行标注又耗时费力。因此，面向低资源场景的实体获取逐渐受到关注，该任务被称作低资源实体获取或小样本实体获取。系统地梳理了当前低资源实体获取的相关工作，具体来说介绍了基于元学习、基于多任务学习和基于提示学习这3类方法的研究现状；总结了目前常用的低资源实体获取数据集和代表性模型在这些数据集上的实验结果；对低资源实体获取的方法进行了总结与分析；总结了低资源实体获取的挑战，并展望了未来发展方向。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00046.shtml

联邦学习的公平性研究综述

作者：朱智韬, 司世景, 王健宗, 程宁, 孔令炜, 黄章成, 肖京

摘要：联邦学习使用来自多个参与者提供的数据协同训练全局模型，近年来在促进企业间数据合作方面发挥着越来越重要的作用。另外，联邦学习训练范式常常面临数据不足的困境，因此为联邦学习参与者提供公平性保证以激励更多参与者贡献他们宝贵的资源是非常重要的。针对联邦学习的公平性问题，首先依据公平目标不同，从模型表现均衡、贡献评估公平、消除群体歧视出发进行了联邦学习公平性的3种分类；然后对现有的公平性促进方法进行了深入介绍与比较，旨在帮助研究者开发新的公平性促进方法；最后通过对联邦学习落地过程中的需求进行剖析，提出了未来联邦学习公平性研究的5个方向。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00062.shtml

应用

XAI架构探索与实践

作者：夏正勋, 唐剑飞, 杨一帆, 罗圣美, 张燕, 谭锋镭, 谭圣儒

摘要：可解释AI（explainable AI，XAI）是可信AI技术的重要组成。当前，业界对XAI的技术点展开了深入的研究，但在工程化实施方面尚缺少系统性研究。提出了一种通用的XAI技术架构，从原子解释生成、核心能力增强、业务组件嵌入、可信解释应用4个方面入手，设计了XAI基础能力层、XAI核心能力层、XAI业务组件层、XAI应用层4个层级，通过各技术层之间的分工协作，XAI工程化的落地实施得到了全流程保障。基于该XAI架构，可以灵活地引入新的技术模块，支撑XAI的产业化应用，为XAI在行业中的推广提供了一定的参考。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00086.shtml

工业数字化转型：故障诊断方法研究进展

作者：杨彪, 熊贇, 傅玲, 徐蔚峰, 李婧

摘要：工业数字化是我国工业产业转型升级的重要手段，数字化转型成为我国工业发展的重要趋势。工业系统的可靠性和稳定性对于工业生产的高质量和可持续发展具有重要作用。故障会影响工业系统的运行，甚至造成重大的安全事故和经济损失。为应对这一问题，故障诊断技术应运而生并逐步发展。高效、高质的故障诊断数字化技术已经成为工业数字化转型的关键技术。分析了工业领域故障诊断数字化方法的研究进展，按照其发展特点划分为领域经验主导的建模方法、数据驱动与领域经验结合的数字化方法、数据驱动主导与可解释性结合的数字化方法3个阶段，重点探究每个阶段方法的基本思想及其特点等，并探讨未来的研究方向，为推动工业数字化转型提供参考。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00110.shtml

论坛

政民互通：构建政府和居民之间的双向信息通道

作者：郑宇

摘要：基层治理是国家治理体系的基石，对夯实国家安全和维护社会稳定有极其重大的意义。当前，基层治理也面临诸多挑战，尤其是居民与政府之间的信息互通问题，需要重点解决各部门多头采集、居民反复填报信息、基层治理工作庞杂多变、负担繁重等难题。针对这些挑战，以数据为中心，构建政民互通的信息通道，通过灵活配置、自由组合的方式来快速搭建各类基层治理应用，实现政府基层部门与居民之间的双向互联、通而不扰，基层治理工作精准高效开展，信息及时、多级共享，为基层工作者减负赋能，畅通和规范群众诉求表达、权益保障通道。同时，政民信息通道有助于形成数据资源体系，让数据和应用分离，为数据的要素化打下基础，支撑数字中国战略的落地。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00127.shtml

中国数据法律制度体系研究

作者：谢祎, 何波

摘要：在中国数字经济发展过程中，相关部门充分发挥法治的保障作用，积极推进数据领域法律法规制定工作，初步构建形成了纵横结合的数据法律制度体系。首先，介绍了中国数据法律制度体系的基本概况，包含横向体系和纵向体系两个维度。其次，分析了中国数据法律制度的纵向体系，包括中央立法和地方立法两个层面，涵盖法律、行政法规、部门规章以及地方性法规和地方规章多个层级。再次，分析了中国数据法律制度体系的横向体系，主要包括数据安全与发展制度、个人信息保护制度、商业数据流通制度和政务数据管理制度四大制度板块。最后，总结了中国数据立法的成效与体系的不足，并提出了完善建议。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00141.shtml

专栏：信息技术应用创新：系统与软件

基于大数据技术的甘肃智慧旅游系统

作者：郭亮, 杨裔, 秦炳峰, 曹建文, 李敏, 袁威, 李彩虹, 王军涛

摘要：随着旅行方式的不断演变，传统旅游管理服务模式的滞后已不再满足现代游客对个性化、品质化出行的需求。为解决该问题，搭建了甘肃省智慧旅游系统。首先对相关研究进行综述，然后详细描述了系统的构成和实现过程，包括甘肃智慧旅游大数据中心的构建和“一部手机游甘肃”综合服务平台的设计。系统通过分层架构和逻辑框架，实现了旅游数据与游客行为的关联映射，并对多元数据进行融合计算。最后，以高速公路自驾车流量预测模型、旅游目的地形象代表的图片选择模型和旅游评论情感影响因素分析模型为例，阐述了综合服务平台面向政府、业态、游客提供的智能化服务。应用成效表明，该系统的实施有效地提高了甘肃地区旅游服务的质量和游客满意度，进一步推动了甘肃智慧旅游的快速发展。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00157.shtml

专栏：大数据领域应用

基于随机森林回归的船舶特涂维修的日能耗预测

作者：甘瑞平, 任新民, 姜军, 李鹏, 周小兵

摘要：特殊涂装（简称特涂）维修是修船工作的核心内容，能耗的预测是船舶智能能效优化中的一项重要任务。使用随机森林回归（RFR）模型对船舶特涂维修日能耗进行分析，去除异常值、随机化和标准化数据集，然后使用RFR模型对船舶日能耗历史数据进行训练拟和，利用带交叉验证的网格搜索优化RFR模型，使用优化后的RFR模型对船舶特涂维修日能耗数据进行分析，并与其他模型进行对比实验。结果表明，优化后的RFR模型预测效果优于多种其他模型，R<sup>2</sup>值达93.25%，均方误差明显更低。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00170.shtml

小样本数据下特种材料基因工程的数据扩充方法

作者：杨涛, 张兆波, 郑添屹, 彭保

摘要：随着地下水利、水务管网对材料需求的多样性和复杂性日益加剧，通过机器学习高效便捷地设计满足个性化需求的特种材料成为人们关注的热点。传统监督学习方法均以大量数据训练建模为基础，但从深埋地下水务管网、高端军工设备等领域所需的特种材料，如稀贵高熵合金等获取大数据集，需要的成本极高且周期较长。为了解决该问题，提出了一种小样本扩充模型——RX-SMOGN，使用极致梯度提升模型和使用交叉验证的递归特征消除算法进行特征筛选，使用SMOGN算法扩充数据集。提出以高熵合金相结构为研究对象，训练传统机器学习模型对其进行预测以验证RX-SMOGN模型的有效性。由五折交叉验证及4个评价指标结果可知，RX-SMOGN模型充分提高了机器学习模型的性能，为合金材料设计提供了一种更便捷的方法，充分提高了合金材料设计的效率。

原文链接：https://www.infocomm-journal.com/bdr/article/2024/2096-0271/2096-0271-10-1-00185.shtml

联系我们:

Tel:010-53879208

010-53878019

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作：010-53878078

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录，并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。