【2017年第2期】大数据的若干基础研究方向

朱扬勇1,熊贇2

1. 复旦大学计算机科学技术学院,上海 200433 

2. 上海市数据科学重点实验室,上海 200433

摘要:大数据问题的关键技术挑战在于:找到隐含在低价值密度数据中的价值;在希望的时间内完成。指出前者需要将领域知识和数据技术结合,这种结合的理论和新型算法构成大数据的分析基础和应用基础;后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法,这些构成大数据的计算基础和数据基础。另外,这两个挑战都涉及数学理论,这是大数据的数学基础。系统地分析了大数据的数学基础、计算基础、数据基础、分析基础和应用基础等基础研究方向。

关键词:大数据;数据科学;大数据基础;数据资源

中图分类号:TP311        文献标识码:A

doi:10.11959/j.issn.2096-0271.2017023

Foundation issues for big data research

ZHU Yangyong1, XIONG Yun2

1. School of Computer Science, Fudan University, Shanghai 200433, China

2. Shanghai Key Lab of Data Science, Shanghai 200433, China

Abstract: The key technical challenges for big data lie in how to discover the value of the low-value-density data and how to complete the task in the desired time.The ways to take up these challenges from three aspects were discussed.First is that the former challenge requires the combination of domain knowledge and data technology.This combination of theory and new algorithms forms the basis of application and analysis of big data.Second is that the latter challenge needs to design new types of computer,cluster system,computing framework,storage system and data management method,which forms the basis of computing and data of big data.Thirdly,both challenges relate to mathematical theory,which is the basis of mathematics of big data.In conclusion,several foundation issues for big data research including the basis of mathematics,computing,data,analysis and application of big data were analyzed.

Key words: big data ; data science ; foundation of big data ; data resource


论文引用格式:朱扬勇, 熊贇. 大数据的若干基础研究方向[J]. 大数据, 2017, 3(2): 104-114.

ZHU Y Y, XIONG Y. Foundation issues for big data research[J]. Big Data Research, 2017, 3(2): 104-114.


1  引言

数据资源开发利用的目的是实现大数据价值。大数据是指为决策问题提供服务的大数据集、大数据技术和大数据应用的总称[1];大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题[1]。就当下而言,现有技术难以处理PB级别以上的数据。PB级别的数据规模已经超过了大部分企业和机构自身积累的业务数据规模,这说明PB级别数据规模的应用涉及了企业和机构外部的数据,这是质的转变。在PB级别数据规模下,企业和机构可以用历史数据、跨界数据等足够多的数据来做决策。这将对科学研究、政府治理、民生改善、产业发展发挥革命性的作用。PB级别数据规模带来的技术挑战也是非常明显的,即“大数据问题”。从技术角度看,PB级别的数据量给计算机的硬件和软件都带来了挑战:机械硬盘、盘阵、体系结构、计算框架、数据移动、多地计算/异地计算、数据管理、数据分析等。随着计算技术的进步,这些技术问题是否就会得到解决?回答是否定的。摩尔定律(Moore’s Law)不能解决大数据问题,摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的[2]。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,每隔18~24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18~24个月翻一倍以上。这一定律揭示了信息技术进步的速度。自从PC时代以来,每次技术进步生产的计算机以亿万台计,每台计算机都在生产数据。现在想将很多台计算机生产的数据集中起来处理和分析,显然是现有技术不能实现的。这就是大数据问题产生的根源。大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值;在希望的时间内完成所有的任务。前者需要领域业务知识和数据技术相结合,这种结合的理论和新型算法构成了大数据的分析基础和应用基础;后者需要设计新的计算机、集群体系、计算框架、存储体系和数据管理方法,这些构成了大数据的计算基础和数据基础。另外,这两个挑战都涉及了一些抽象的数学理论,这是大数据的数学基础。面对大数据问题的挑战,需要研究如何发展大数据,如何从实践总结经验,抓住核心问题重点突破,实现原始创新,从基础做起,掌握核心技术,探索大数据的基础理论,为解决大数据如何用、如何管、如何算等关键问题提供理论指导。

2  大数据的基础

信息化和大数据二者的关系是“不混淆、不冲突”。

● 不混淆是指信息化和大数据是不同的,不能混为一谈,信息化是生产数据的,大数据是开发数据的。从技术角度来看,信息化是技术进步促进数据增长;大数据是数据增长促进技术进步。

● 不冲突是指大数据不取代信息化,信息化不包含大数据。这样,信息化工作照样做,并且信息化

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值