- 博客(1342)
- 收藏
- 关注
转载 基于深度卷积和自注意力机制的端到端地震波降噪方法
赵博涛1 亢祖衡1 贺亚运1 彭俊清1 张旭龙1 瞿晓阳1 谭毅培2 陈雨乐3 肖春光4 王健宗1(1. 平安科技(深圳)有限公司,广东 深圳 518063;2. 天津市地震局,天津 300201;3. 湖南大学工商管理学院,湖南 长沙 410082;4. 深圳市宝安区教育信息中心,广东 深圳 518101)摘 要 地震波信号的降噪对于地震监测和地震学研究至关重要。提出了一种基于深度学习的端到端地震波降噪方法。该方法融合了卷积神经网络与多头自注意力机制,采用残差连接的编码器-解码器架构,一方面能够处理复杂背
2026-05-21 16:16:00
38
转载 基于少样本学习和思维链提示的知识概念抽取方法研究
二是知识概念抽取不只是提取知识概念实体,更重要的是提取的必须是与教学资源相关的关键知识概念实体,同时需要自动过滤无关的知识概念实体。因此,本文采取手动与自动相结合的方式来构建推理过程,先利用少量人工构建的推理过程示例来提示GPT-4生成更多不同的推理路径,随后进行人工检查,筛选出有效的推理过程,并将其作为提示模板的重要组成部分。知识概念抽取并非简单的推理任务,首先需要确定文本所属的学科,然后推理每个实体是不是该学科的一个知识概念,进一步判断其是不是文本的主要内容,最终确定其是不是文本的关键知识概念。
2026-05-19 16:16:00
31
转载 基于社交媒体大数据的灾害事件态势感知
例如,从获得的原因和结果来看,如果监测到显著的气压下降造成飓风破坏程度大,导致电网崩溃大面积停电、基础设施的损坏影响整个地区的恢复、物资供应的中断影响救援和恢复工作,那么决策者需要考虑优先修复基础设备和恢复供应链,优先修复关键基础设施,如电力、通信和交通系统,以支持救援和恢复工作、迅速调配救援物资和人员,优先保障受影响最严重地区的供应。最后,通过构建灾害子事件的因果知识图谱,推理事件的演变过程,提高用户对复杂灾害事件的理解,并为决策者提供更及时、全面的灾害情报支持。,表示B是A的结果。
2026-05-14 16:17:03
44
转载 高质量数据集产品的形态和生产流程研究
杨琳1,2 朱扬勇3(1. 上海市大数据中心,上海 200003;2. 华东师范大学数据科学与工程学院,上海 200062;3. 上海数据研究院有限公司,上海 200120)摘 要 高质量数据集决定了人工智能模型的训练效果。高质量数据集缺乏统一标准形态和质量可控的流程化生产方法,导致其供给不足、流通不畅,已成为制约人工智能发展应用的因素之一。本文从数据产品的角度,提出高质量数据集产品的五元组形态,以全链路技术能力为支撑,设计高质量数据集产品的生产流程,提出面向产品需求的全生产流程质量管控方法,为高质量数据集
2026-05-07 16:16:34
21
转载 全国一体化数据要素市场的交易标的物研究
韦志林1 叶雅珍2,3 林梓瀚1(1. 江苏省数据交易所有限公司,江苏 南京 210018;2. 复旦大学计算与智能创新学院,上海 200438;3. 上海市数据科学重点实验室,上海 200438)摘 要 构建全国一体化数据要素市场是推动数字经济发展的关键举措。数据流通交易标的物是数据市场建设的基础,规范、标准、统一的数据流通交易标的物设计是全国一体化数据要素市场培育的基本要求。对数据要素市场与数据产品市场的差异进行了梳理,指出当前大部分数据交易所(中心)挂牌的标的物是数据产品而非数据要素。数据要素是数据制
2026-04-23 16:16:19
34
转载 全国一体化数据市场的系统构建
吕怡萱 谢波峰(中国人民大学财政金融学院,北京 100872)摘 要 数据要素已成为发展新质生产力、推动经济高质量发展的基础性战略资源。培育全国一体化数据市场是破解当前数据要素碎片化配置低效难题、构建国家竞争新优势的关键举措。厘清了全国一体化数据市场的本质内涵与战略必然性,深入剖析了当前面临的制度规则壁垒、基础设施鸿沟、市场生态失衡及财政调节缺位等多维现实梗阻,并在“五统一、一开放”的总体框架下,提出了涵盖“制度供给-设施联通-生态调节-治理协同”的系统构建路径,即通过构建全链条确权与标准体系、打造集约高效
2026-04-16 16:18:26
46
转载 面向时序数据的多维度网络舆情演化分析研究
研究发现,从主题和情感角度来看,微博用户关注点和情感倾向往往与个人利益紧密相关,在印花税政策尚未确定时,众多用户高度关注此话题,希望从中获益,而一旦政策落地,经过一段时间的市场适应后,用户对话题的兴趣逐渐消退,关注度随之降低。肖丽妍等提出的舆情影响力评价指标体系,本文从影响力广度、强度和速度3个维度进行建模,涉及地区覆盖度为RR,传统和网络媒体的覆盖度分别为RS和RW,原创、转发、新增原创、新增转发、发表正负情感的博主数分别为SO、SS、TO、TS、SP、SN,影响力持续时间为DT。2023年,Liu等。
2026-03-30 16:16:20
89
转载 《大数据》2026年第2期目次&摘要
厘清了全国一体化数据市场的本质内涵与战略必然性,深入剖析了当前面临的制度规则壁垒、基础设施鸿沟、市场生态失衡及财政调节缺位等多维现实梗阻,并在“五统一、一开放”的总体框架下,提出了涵盖“制度供给-设施联通-生态调节-治理协同”的系统构建路径,即通过构建全链条确权与标准体系、打造集约高效的流通基础设施、构建分层协同与服务繁荣的市场生态、创新全周期财税激励与调节机制,以期为构建统一开放、竞争有序的数据要素市场贡献系统性的制度设计方案。数据要素是数据制造商(数据工厂)的基础原料,需要从数据要素市场采购。
2026-03-26 17:24:45
99
转载 基于细粒度特征权重专家网络的社交机器人检测方法
该方法通过构建账号的多维度特征,使用监督学习的方式,形成社交机器人检测分类器。该方法通过构建细粒度特征权重专家网络模型,结合混合专家网络搭建了多特征注意力权重的专家网络层,并通过门控层融合通用网络专家与多个基于特征权重的专家,有效提升了模型在跨业务类别社交机器人融合场景下的检测能力。综上,基于机器学习的方法在模型架构层面已经相对成熟,但在账号特征的构建方面仍需要增加大量针对性设计,且随着社交机器人的更新换代,账号特征要不断迭代,才能有效检测具有对应行为特征的社交机器人,否则该方法会缺乏泛化能力。
2026-03-23 16:16:39
76
转载 “人工智能+”跨行业可持续融合与增长战略
刘平1 石勇1 李何敏2 冯锦源1 李彪2(1. 中国科学院大学,北京 100049;2. 西南财经大学,四川 成都 611130)摘 要 2024年政府工作报告强调了对大数据和人工智能等前沿技术研究与应用的进一步深化,提出要积极实施“人工智能+”行动,培育并发展具有全球竞争力的数字化产业集群。目前,“人工智能+”正以前所未有的速度和规模,渗透到经济和社会的每一个角落。然而人工智能与行业的结合还不够紧密,“人工智能+”并非简单相加,本质是通过新技术催生新质生产力,为经济社会的各个方面带来新的产业、模式和动力
2026-03-19 16:20:14
86
转载 构建企业级人工智能高质量数据集:方法与路径
企业实践方面,某通信运营商大力投入高质量数据集建设工作,围绕工具平台、数据标注、质量评测、数据生产、数据集管理运营构建了全面的能力体系:在盘点环节,聚焦集团6类通用大模型的训练需求、30类场景需求,形成统一全面的数据集建设需求列表;随着大模型的演进,合成数据正成为重要的数据来源。同时,在前期标准化的基础上,围绕数据集生命周期,本文提出了一套企业人工智能数据工程的体系,覆盖了研发、交付、运维、运营4项管理活动和7项技术能力,参考数据工程体系,企业可以通过“盘、建、研、管、用”5个步骤来开展能力体系建设。
2026-03-16 16:16:47
82
转载 算力经济综合指数:理论内涵与评价分析
算力经济作为一种数字经济新形态,目前业界对其尚未有明确的定义。蓄势追赶型:包括陕西、甘肃、湖南、江西、广西、宁夏、辽宁、海南、新疆、云南、青海、黑龙江、吉林、西藏,其在基础设施、产业应用、高质量发展3个方面得分均低于全国平均水平。经过多年的发展,我国算力经济产业已初具规模,初步建成了全球领先的基础设施、技术能力、产品业务,但与此同时仍面临一些突出的问题,需要围绕算力网络基础设施建设、算力产业应用繁荣、产业高质量发展3个方面持续发力,共同推动我国算力经济产业的成熟壮大,为数字中国建设提供更加强有力的支撑。
2026-03-12 16:54:54
64
转载 征文通知 | 第二十八届中国科协年会专题论坛——数据高效利用与安全治理专题论坛
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。与数据要素化、价值化相关的其他前沿科学问题、关键技术与政策法规研究。
2026-03-06 16:56:40
89
转载 专题预告 | “纵深推进全国统一大市场建设”之“全国一体化数据市场”
文章内容涵盖全国一体化数据市场的政策和总体思路、数据市场流通标的标准、数据跨域流通与数据不出域、数据市场监管与评价、一体化市场实践探索等全国一体化数据市场建设的主要方面。作者单位包括高等院校、国家数据发展研究院、国家信息中心、新华社中国经济信息社、上海数据研究院、北京国际大数据交易所、江苏省数据交易所、北京市大数据中心、上海市大数据中心等,基本代表了相关研究的主流力量。加快培育全国一体化数据市场,推动数据要素市场化配置,实现数据供得出、流得动、用得好,进而实现数据产业高质量发展,形成数字经济发展新优势。
2026-03-05 15:58:35
58
转载 【专题征文】综合交通行业高质量数据建设与安全治理(截稿时间:2026年5月31日)
随着数字化、智能化进程的深入推进,由铁路、公路、水运、航空、邮政及城市交通等多种运输方式共同构成的综合交通运输体系智慧化水平不断提升,行业数据呈现跨方式、跨领域、全链条的爆发式增长态势,成为交通运输行业数字化转型的核心要素。研究企业数据资产化实施路径,包括数据确权、定价、交易等机制设计;总结综合交通行业中的数据分类分级管理、数据安全风险评估、数据安全监测预警与应急处置、数据安全能力建设、人工智能安全、数据流通安全、数据安全可信技术实施等经验,包括技术方法、组织机制、人员和组织能力评价、生态和运营经验等。
2026-03-04 16:16:56
53
转载 全球大模型开源战略的动因、影响与应对策略探析
在此背景下,深入分析全球大模型企业加速开源布局的动因、现状、影响及风险,特别是探讨其给我国带来的机遇与挑战,并提出针对性策略,对我国把握技术变革窗口、筑牢安全发展根基、提升国际话语权具有重要的理论和现实意义。阿里巴巴、深度求索(DeepSeek)的开源路线引发全球开源浪潮,欧盟在巴黎人工智能行动峰会明确释放支持开源发展的信号,谷歌、微软纷纷开源前沿多模态模型,OpenAI同样释放将开源大语言模型的信号。四是生态绑定模式,华为开源适配自研芯片的盘古大模型,通过模型优化算力效率与应用场景,以提升昇腾芯片销量。
2026-02-27 16:17:10
95
转载 公共数据进场流通交易与价值释放:基于“数据要素×”视角
董思怡(上海数据交易所有限公司,上海 201203)摘 要 “数据要素×”作为一种需方用数视角,与公共数据开发利用相互依赖、彼此促进。从“数据要素×”视角理解公共数据开发利用,聚焦“公共数据产品和服务场内交易”,从要素属性、供需匹配和效应发挥3个方面,分析公共数据进场流通交易对用数门槛、用数成本和用数水平的影响。进一步,结合数据流通交易领域的现有实践与研究,重点从发展可信数据空间、健全评价评估机制、培育流通交易服务生态3个方面形成对策建议,并进行未来展望,以助力用数活力更好释放、数据产业生态更加繁荣。关键词
2026-02-25 17:11:24
42
转载 《大数据》编辑部恭祝您新春快乐,马年大吉!
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。关注《大数据》期刊微信公众号,获取更多内容。
2026-02-16 09:08:40
42
转载 基于地方政府政策文本的公共数据授权运营模式对比分析
吕正英1 王浩然2 贺一舟3 吕守军3(1. 上海数据交易所有限公司,上海 200131;2. 中国科学技术大学管理学院,安徽 合肥 230000;3. 上海交通大学国际与公共事务学院,上海 200030)摘 要 公共数据作为数据要素的重要组成部分,其运行模式具有多样性。作为公共数据授权主体的地方政府,相继出台政策探索公共数据授权运营模式。通过对公共数据授权运营政策文本的分析发现,当前公共数据授权运营是公共数据开发利用的主要模式之一,但各个地方的侧重点各有不同。研究认为:应鼓励各地探索“混合授权模式”,加大
2026-02-09 16:17:04
74
转载 十年十篇 • 数启新程:数智技术类优秀文章推荐
受应用场景、数据集和待求解问题等因素的制约,现有监督学习算法使用的损失函数的种类和数量较多,而且每个损失函数都有各自的特征,因此从众多损失函数中选择适合求解问题最优模型的损失函数是相当困难的。分析了工业大数据的发展背景和主体来源,剖析了工业大数据、企业信息化和工业互联网之间的相互关系,阐述了工业大数据“多模态、高通量、强关联”的数据特点以及“跨尺度、产业链、跨界”多源数据融合的应用特点,探讨了工业大数据软件系统架构,给出了制造环节的大数据应用实例。邓建国,张素兰,张继福,荀亚玲,刘爱琴。
2026-02-02 16:16:59
47
转载 十年十篇 • 数启新程:《分布式技术在大模型训练和推理中的应用》
分布式技术存在于大模型生命周期的每一环,为大模型的发展助力。《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
2026-01-29 16:17:05
40
转载 十年十篇 • 数启新程:《大数据与计算模型》
指出了大模型的重要标志是机器涌现智能,强调大模型的本质是“压缩”;《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
2026-01-27 16:16:21
39
转载 十年十篇 • 数启新程:《基于多模态大模型的具身智能体研究进展与展望》
随着多模态大模型的发展,具身智能体具备了更强的语言理解、推理判断和环境感知能力,极大地推动了该领域的发展。张旭龙,男,博士,平安科技(深圳)有限公司高级算法研究员,复旦大学计算机理学博士,主要研究方向为语音合成、语音转换、音频驱动虚拟人生成、音乐信息检索以及机器学习和深度学习方法在人工智能领域应用,担任清华大学深圳研究院以及中国科学技术大学先进技术研究院校外导师,目前是IEEE、中国自动化学会以及中国计算机学会会员,担任联邦数据与联邦智能专委会委员,2023年入选上海市东方英才计划青年项目。
2026-01-23 16:16:46
88
转载 《大数据》期刊首届青年编委会诚邀您的加入!
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。促进学术传播:通过学术网络推荐优质稿源、扩大期刊学术影响力;
2026-01-15 16:17:05
109
转载 【专题征文】高质量数据集构建及治理(截稿时间:2026年4月30日)
然而,高质量数据集的构建与治理面临着诸多挑战,包括但不限于数据来源的多样性、数据质量的参差不齐、数据隐私与安全的保护及数据生命周期的有效管理等。同时,数据治理作为保障数据质量、促进数据共享与利用的重要途径,对于提升组织的数据资产价值、支持数据驱动的决策制定具有不可估量的作用。因此,本专题围绕“高质量数据集构建及治理”进行征文,旨在集中展示高质量数据集构建及治理的最新理论研究、技术方法、系统平台与实践案例等,为相关领域的研究者与实践者提供一个分享平台,共同推动大数据与人工智能技术的飞速发展与应用创新。
2026-01-12 14:07:10
78
转载 【专题征文】《大数据》专题“大模型训推数据存储”征文(截稿时间:2026年5月31日)
然而,在大模型技术快速演进与产业加速落地的背景下,存储系统已成为制约行业突破的核心瓶颈:训练阶段需支撑超大规模数据的高并发加载与高频检查点读写;作为智能算力基础设施的核心支撑,存储系统的性能与效率直接影响着大模型的训练迭代速度、推理服务质量与规模化部署能力,已成为支撑人工智能产业高质量发展的关键数据底座。征文内容包括但不限于:训练数据的高效存储与读取、检查点数据的高性能读写与压缩、键值缓存的高效管理与加载、推理系统中向量检索的存储优化。张广艳 清华大学长聘副教授。大规模训练数据的存储与读取;
2026-01-08 16:16:57
54
转载 市域数据要素市场构建路径探索:无锡创新实践的经验与启示
无锡地处长江三角洲几何中心,依托米码头、布码头、丝码头、钱码头等历史经验,充分发挥资源禀赋和产业特色,创新提出“1+8+X”数据要素市场建设模式,全力建设具有市场化配置高、安全权益高、流通成本低“两高一低”显著优势的“中国数码头”,吸引国内国际数据到无锡存储、加工、流通、交易,解决了当前国内数据市场规则缺乏、数据供给不优、平台互通不畅、产业载体不足等普遍存在的难题,取得了积极进展与成效,为大中型城市建设数据要素市场提供了重要经验借鉴。,打造基于隐私计算、区块链的可信交易环境,实现数据流通交易的闭环管理;
2026-01-05 16:17:06
106
转载 辞旧迎新,喜迎元旦|《大数据》编辑部恭祝您节日快乐!
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。关注《大数据》期刊微信公众号,获取更多内容。
2026-01-01 09:01:30
42
转载 基于图检索增强生成和少样本学习的美术作品鉴赏
刘天扬1 寇思佳2 金旭3 王文静3 陆雪松1(1. 华东师范大学数据科学与工程学院,上海 200062;2. 教育部教育技术与资源发展中心(中央电化教育馆),北京 100032;3. 北京师范大学附属实验中学,北京 100032)摘 要 随着我国素质教育的不断推进,美术教育在学科教育中的影响越来越大。美术作品鉴赏是美术教育的重要内容之一,能够培养学生的美术能力和素养。然而,优秀美术教师的缺乏和各地区美术教育发展水平的不平衡,导致众多学生无法受到高质量的美术作品鉴赏教育。在这种情况下,利用多模态大语言模型辅
2025-12-25 16:16:18
134
转载 学习者学习行为建模:一种基于预训练模型的可解释性知识追踪模型
本文以题目难度为切入点,通过Bert模型预测题目文本内容中隐含的题目难度等级,增强了数据的可解释性,提出基于Transformer架构的高性能可解释KT模型,将模型预测过程分解为题目难度预测与学习者能力预测,IRT模块基于这两个解释参数预测学习者正确回答概率。未来的研究将聚焦于多知识概念下不同知识概念难度与题目难度的关系,通过题目文本等辅助信息预测出不同知识概念难度,为学习者提供更深入的指导,同时,分析学习者在掌握该知识点后却连续出现错误的原因并建立预警模型,也是后续的研究重点。
2025-12-22 16:16:48
212
转载 面向教育场景的视觉大模型优化与应用
许跃蓬1,2 徐柴迪3 郭晋军1 姜云桥4 王仕嘉1 刘垚1,2,5(1. 华东师范大学数据科学与工程学院,上海 200062;2. 先进计算与智能工程国家级重点实验室,江苏 无锡 214000;3. 上海孔棣科技有限公司,上海 201204;4. 摩尔线程智能科技(成都)有限公司,四川 成都 610031;5. 软硬件协同设计技术与应用教育部工程研究中心(华东师范大学),上海 200062)摘 要 随着人工智能技术的迅速发展,大语言模型在许多领域取得了显著成功,但在教育领域的应用仍面临多模态数据处理困难、
2025-12-15 16:17:05
169
转载 CrownCom2025 Call for papers
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。认知无线电与工业互联网、情感计算、定位技术交叉领域的相关标准与倡议;
2025-12-12 16:16:46
77
转载 《大数据》创刊十周年纪念座谈会暨第三届编委会第四次会议顺利召开
大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。十载奋进,春华秋实。,对《大数据》十年来取得的成绩表示了肯定和赞扬,
2025-12-03 16:16:54
72
转载 基于知识增强大语言模型的历史学科试题生成系统
随着大语言模型的问世,其凭借强大的语言能力和推理能力能够模仿教师的题目设计方法,对出题材料进行分析并生成相应题目,并通过自我检查保证生成题目的质量。随着大语言模型的兴起,研究者们逐渐采用更加灵活的方式,将知识图谱的信息通过提示词(prompt)的形式输入大语言模型,从而增强其知识基础,缓解模型生成时的“幻觉”现象,并提升模型在特定领域,尤其是教育领域中的应用效果。知识图谱检索模块利用知识图谱中的丰富历史关系信息对大语言模型进行增强,补齐大语言模型的专业知识并使生成的题目更加多样,满足教师的使用需求。
2025-12-02 16:16:29
191
转载 首发!支撑教育数字化转型的平台:现状与愿景
余理娜1,2 高明2,3 董启文2,3 周傲英2,3(1. 贵州睿秀科技有限公司,贵州 贵阳 550025;2. 贵州筑文华东师大数据动力研究院,贵州 贵阳 550025;3. 华东师范大学数据科学与工程学院,上海 200062)摘 要 教育数字化转型是一场深刻的自我革命,本质上是从以教师教学管理为中心的信息化转变为以学习者体验为中心的数字化,是从关注技术本身到关注数据价值的思维转变。本文通过对国内外主流数字教育平台的功能进行对比分析,揭示了当前平台在技术、应用和理念方面的局限性。在此基础上对当前在线教育进
2025-11-27 14:44:03
368
转载 首发!关于数据要素学科建设的深度思考
周傲英(华东师范大学数据科学与工程学院,上海 200062)摘 要 数据作为第五生产要素是重大的理论突破。数据生产要素与土地、资本等传统生产要素相比,数据具有非稀缺性,数据越用越多、越用越有价值。当前的人工智能是数据智能,是联结主义的胜利,本质上是数据驱动的智能的自动化。数据智能热意味着整体论作为科学研究方法论的复兴,新的科学发现将不仅仅局限于还原论范式。数据是互联网的底层逻辑,党管互联网落实在操作层面就是党管数据。国家数据局成立两年来,在数据基础制度和数据基础设施等方面开展了全面的探索,迫切需要学术界和科
2025-11-24 11:13:48
93
转载 编委风采 | 祝贺《大数据》编委吴枫当选中国工程院院士
新当选的中国工程院院士中,机械与运载工程学部11人,信息与电子工程学部9人,化工、冶金与材料工程学部10人,能源与矿业工程学部12人,土木、水利与建筑工程学部7人,环境与轻纺工程学部6人,农业学部8人,医药卫生学部8人。新当选的中国科学院院士中,数学物理学部14人,化学部11人,生命科学和医学学部13人,地学部9人,信息技术科学部11人,技术科学部15人。本次增选后,中国科学院共有院士908位。中国科学院、中国工程院21日公布2025年院士增选结果,分别选举产生中国科学院院士73人,中国工程院院士71人。
2025-11-21 10:57:49
109
转载 基于对比学习的数学应用题求解方法研究
通过分类器来监督生成的表达式与问题文本之间的一致性,确保模型生成的表达式更加精准。此外,本文引入对比学习方法,通过对比损失函数优化编码器的问题表示,即在最大化原型方程相同MWP表示间相似度的同时,最小化不同类型MWP表示间的相似度,增强编码器对原型方程相同MWP表示间相似性和不同类型AWP表示间差异性的感知能力,从而提高模型对多种类型MWP的求解效果。此外,当前的求解模型还会忽略自然语言中蕴含的深层数学逻辑,无法处理题目描述相似的MWP之间的细微差别,从而无法推导出正确的求解表达式,影响求解的准确性。
2025-11-20 16:16:48
136
转载 杉杉:面向高吞吐低延迟服务的计算机公共课问答系统
杨贇 刘天扬 王硕 苏斌 蒲鹏 陆雪松(华东师范大学数据科学与工程学院,上海 200062)摘 要 基于大语言模型的自然语言处理能力在智能问答场景展现出了广泛的应用潜力。为了给高校学生提供个性化的计算机学习支持,构建了一种基于代码大语言模型的计算机公共课问答系统“杉杉”。该系统采用前后端分离的结构设计,通过消息队列向大语言模型发送用户指令并监听模型返回结果;利用大语言模型的语言理解和生成能力,自动解答学生提出的计算机相关问题,并采用连续批处理和检索增强生成技术进行优化。性能评估实验表明,该系统在并发性能、响
2025-11-17 16:16:20
198
转载 基于重排序和后检索反思的教育大模型问答增强方法
在此基础上,提出基于重排序和后检索反思的教育大模型问答增强方法。本文提出的基于重排序和后检索反思的教育大模型问答增强方法在CS-Bench数据集的实验中取得了良好的结果,在使用多个不同生成模型时均使大模型回答正确率提升了5%左右,缓解了“幻觉”问题,并使大模型在计算机问答中更准确。其原因为外置知识库补充了大模型的知识细节,重排序对知识库信息进行了精细过滤,减少了无关材料对模型生成的干扰,后检索反思根据知识库提供的辅助材料,修正了生成过程中出现的部分“幻觉”,从而提升了大模型回答的准确性。
2025-11-13 16:38:54
98
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅