前言
在国家和上海市“十二五”科技发展规划及《上海市中长期科学与技术发展规划纲要》指导下,上海市科学技术委员会通过近一年时间的充分调研和讨论,梳理了市场和商业模式创新需求、大数据资源和技术基础、研发能力和人才现状等。经过充分酝酿、多次征求意见,编制本规划:
维基百科把大数据定义为一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。为加快上海大数据研究和产业化布局,培育数据产业,服务智慧城市,促进经济结构调整和产业转型,特制定本计划。
一、国内外发展现状
(一)国外
发达国家启动大数据布局。2012年3月,美国政府发布《大数据研究和发展倡议》,投资2亿美元发展大数据, 用以强化国土安全、转变教育学习模式、加速科学和工程领域的创新速度和水平;2012年7月,日本提出以电子政府、电子医疗、防灾等为中心制定新ICT(信息通讯技术)战略,发布“新ICT计划”,重点关注大数据研究和应用;2013年1月,英国政府宣布将在对地观测、医疗卫生等大数据和节能计算技术方面投资1.89亿英镑。
跨国IT企业进入大数据领域。传统数据分析企业天睿公司(Teradata)、赛仕软件(SAS)、海波龙(Hyperion)、思爱普(SAP)、Cognos、SPSS等在大数据技术或市场方面各占据一席之地。谷歌、Facebook等大数据资源企业优势显现。甲骨文、IBM、微软、SYBASE、易安信(EMC)、英特尔等企业陆续推出大数据产品和方案抢占市场,如甲骨文公司的Oracle NoSQL数据库、IBM公司的InfoSphere BigInsights数据分析平台、微软公司Windows Azure上的HDInsight大数据解决方案、EMC公司的Greenplum UAP(Unified Analytics Platform)大数据引擎等。
大数据技术发展迅猛。数据技术从早期在单机上处理单一类型数据,发展到当前在计算机集群上处理多类型数据,实现时间宽松的数据分析应用。随着数据量发展到PB、EB级甚至更大,并且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。以HDFS、GFS、MapReduce、Hadoop、Storm、HBase、MongoDB为代表的一批大数据通用技术和开源项目迅猛发展。
数据科学研究不断壮大。在大数据应用的技术需求牵引下,数据科学研究和人才培养引起各国重视。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。Facebook等着名企业开始设立数据科学家岗位。
(二)国内
政府和科研机构开始高度关注大数据。2012年12月,国家发改委数据分析软件开发和服务列入专项指南;2013年科技部将大数据列入973基础研究计划;2013年度国家自然基金指南中,管理学部、信息学部和数理学部将大数据列入其中。2012年12月,广东省启动了《广东省实施大数据战略工作方案》;北京成立“中关村大数据产业联盟”。此外,中国科学院、复旦大学、北京航空航天大学等相继成立了近十个从事数据科学研究的专门机构。
数据价值链和产业链初显端倪。百度、阿里巴巴、大智慧等数据资源型和研发应用型企业初步涌现,并引领着数据产业的发展。2010年4月,淘宝推出“数据魔方”应用,开展基于淘宝网交易数据的分析和挖掘。2012年,华为公司推出了大数据解决方案和大数据存储产品。
数据产业园区建设逐步展开。上海智慧岛数据产业园、秦皇岛开发区数据产业基地、北京国家地理信息科技产业园、中国国际电子商务中心重庆数据产业园等一批数据产业园区,在有关各方的大力支持下正展开基础建设和招商工作。
二、上海基础分析
(一)优势
数据资源丰富。随着上海“四个中心”建设的全面推进,公众信息需求的不断提升,信息公共服务设施的不断完善,各行业信息化建设的深入推进,上海已经积累并将继续产生庞大的数据资源,在众多领域的重要作用越来越凸显。例如,上海拥有世界最大的医联数据共享系统,有4800万张交通卡、每天30GB交通流量信息数据,亚洲第二的证券交易额,世界第一的货物和集装箱吞吐量等。
研究实力雄厚。在基础理论研究方面,上海的高校和科研院所有较强的研究实力。在产业技术研究和推进方面,有一批面向产业的研究机构和企业研发中心,具备良好的基础积累。
产业轮廓初现。近年来,上海在数据资源整合、数据技术开发、数据应用服务等数据产业环节涌现出一批机构和企业,已经成为或正在成为推动上海数据产业发展的中坚力量,数据产业初显轮廓。
(二)不足
数据共享不足。数据资源的利用不充分,大量信息系统中的历史数据长期闲置,即使不涉及秘密,许多数据资源拥有单位公开和共享动力不足,这给跨行业数据汇聚整合造成困难,影响了大数据资源的形成。
关键技术储备不足。大数据技术储备不够,鲜有在国内外有影响的产品,缺少系统级、架构级的大数据产品。已有技术和产品的原创性、通用性不足,有待理论和关键技术突破。
产业链尚未形成。数据产业的盈利模式和服务方式等尚不明晰,缺少具有较大规模、能够带动数据产业发展的行业龙头企业,产业链各环节尚未形成明显的上下游协作发展模式。
三、指导思想与发展目标
(一)指导思想
围绕上海“创新驱动、转型发展”主线,抢占科技战略制高点,强化前沿理论研究,突破大数据关键技术,建立以企业为主体、产学研联合的发展机制,形成需求牵引、创新应用的发展模式,发展数据产业,服务智慧城市。
(二)推进原则
1、顶层规划、协同推进
通过强化顶层设计形成主体架构,建立协同共享机制,加强统筹规划,充分沟通、协调、调动各方资源,延伸大数据技术链、服务链、价值链。
2、需求牵引、创新应用
以市场需求为导向,加强基础研究,突破大数据关键技术瓶颈,不断探索创新商业模式,培育和挖掘满足国内市场特性的新业态、新模式,支撑和促进经济社会发展。
3、营造环境、开放融合
营造和完善大数据技术和产业发展所需的政策环境、融资环境、创业环境以及公共服务体系,推动大数据技术与城市经济社会各领域相关应用的深度融合。
(三)发展目标
凝聚上海大数据领域优势力量,研究大数据基础理论,攻克关键技术,研制大数据核心装备,形成大数据领域的核心竞争力,加速大数据资源的开发利用,推进行业应用,培育数据技术链、产业链、价值链,支撑智慧城市建设。具体目标如下:
1、研究数据科学基础理论,突破大数据共性关键技术,研制具有自主知识产权的若干大数据硬件装备,达到国际领先水平;
2、遵循市场需求牵引、应用导向的业务发展模式,开发一批具有产业核心竞争力的大数据软件产品;
3、突出企业创新主体地位,建设6个以上行业大数据公共服务平台,支持6类以上大数据商业应用系统的研制,培育一批带动本地数据产业发展的行业龙头企业;
4、汇聚产业和行业创新活力,制定有利于大数据产业发展的标准、规范和政策,培养和引进千名高端数据人才。
四、重点任务
(一)技术攻关和产品研制
1、基础理论研究
针对前瞻布局、技术引领的需求,整合上海研究力量,加强国内外学术和技术交流,研究、探讨并掌握数据科学的基础理论和基本方法,为数据技术开发、数据人才培养和数据产业发展提供指导和支撑。
数据科学的基础理论研究。研究数据相似理论、数据测度论和计算理论,建立数据分类学基本方法,研究数据实验的基本方法,研究数据科学的学科体系,奠定数据科学的理论基础。
大数据的复杂性研究。研究数据集复杂性的建模理论、处理过程复杂性的约简方法、知识体系复杂性的表示理论等,建立大数据处理、分析的过程模型。
科学研究的数据方法探索。探索数据密集型科学研究的共性问题,开展学科知识交叉与融合研究,建立科学研究的数据方法,并在基础较好的学科中开展实践。
2、关键技术突破
根据大数据的特征,突破或改进原有的大数据组织和存储技术、大数据分析技术,为大数据获取、管理和分析提供技术保障。
大数据获取技术。突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。
大数据管理技术。突破可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储等大数据存储技术;突破分布式非关系型大数据管理与处理技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。
大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
3、产品装备研制
在突破关键技术的基础上,研制适合大数据应用的硬件装备和软件产品,包括:大数据一体机、新型架构计算机、大数据获取工具、大数据管理产品、大数据分析软件等。
大数据一体机。研制集计算、存储、传输于一体的大数据硬件装备,实现大数据统一存储和索引管理、集群规模可动态扩展,实现PB级的数据存储、百亿级的记录管理、秒级的查询响应。
新型架构计算机。研制基于高效能大数据处理器(Data Processing Unit,DPU)和可重构互连、可变存储结构的新型架构计算机等具有自主知识产权的硬件装备。在这些硬件之上开发与之配套的系统软件,形成先进的大数据平台。
大数据获取工具。开发数据采集软件,实现每秒百万次的精准数据收集、准实时动态整合和数据清洗;研发高速数据全映像软件,实现变化数据的秒级响应、解析和复制。
大数据管理产品。开发面向领域优化的大数据管理系统,支持分布式数据存储;研发大数据环境下的低延迟的云备份软件、双活数据实时复制软件、数据隐私保护和泄露检测软件、可视化软件。
大数据分析软件。开发基于新型计算架构技术的通用分布式分析平台,支持PB级数据的分析;开发基于分布式分析平台的通用大数据智慧引擎、适用于分布式计算环境和新计算架构的大数据挖掘算法库。
(二)应用推进和模式创新
1、公共平台建设
重点选取医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务等具有大数据基础的领域,探索交互共享、一体化的服务模式,建设大数据公共服务平台,促进大数据技术成果惠及民众。
医疗卫生。针对临床质量分析、医疗资源分配、医疗辅助决策、科研数据服务、个性化健康引导的需求,建设全民医疗健康公共服务平台。在健康信息网已有数据的基础上,汇聚整合医疗、药品、气象和社交网络等大数据资源,形成智能临床诊治模式、自助就医模式等服务模式创新,为市民、医生、政府提供医疗资源配置、流行病跟踪与分析、临床诊疗精细决策、疫情监测及处置、疾病就医导航、健康自我检查等服务。建设完善涵盖3500万患者的电子诊疗档案库,形成PB级的医疗健康大数据资源,实现支撑2000名医生同时在线诊疗的辅助能力。
食品安全。针对食品安全和管理的需求,建设食品安全大数据服务平台。汇聚政府各部门的食品安全监管数据、食品检验监测数据、食品生产经营企业索证索票数据、食品安全投诉举报数据,建成食品安全大数据资源库,进行食品安全预警,发现潜在的食品安全问题,促进政府部门间联合监管,为企业、第三方机构、公众提供食品安全大数据服务。
终身教育。针对全民学习、终身教育的需求,建设教育大数据服务平台。积累数字教育资源,收集教育服务平台学习者行为数据和学习爱好数据,为千万级学习者提供个性化的终身在线学习服务,提高教育资源的共享和利用率,实现因材施教,优化教学过程,提高教学质量,为教育政策调整提供决策支持。建立基于大数据支撑的优质教育资源开发、积累、融合、共享的服务机制,为全体学习者提供个性化选择与推送相结合的终身学习在线服务模式。
智慧交通。针对交通规划、综合交通决策、跨部门协同管理、个性化的公众信息服务等需求,建设全方位交通大数据服务平台。整合全市道路交通、公共交通、对外交通的大数据资源,汇聚气象、环境、人口、土地等行业数据,逐步建设交通大数据库,提供道路交通状况判别及预测,辅助交通决策管理,支撑智慧出行服务,加快交通大数据服务模式创新。针对航班正常、安全、有效运行的需求,建设航空流量管理及机场协同决策平台。汇聚整合塔台数据、雷达数据、航空公司数据、机场数据,提供流量预测、特情处置等功能,实现飞行流量管理和机场航班运行协同决策,为民航航班指挥提供一站式数据服务。达到覆盖华东地区近40个机场的规模,并逐步推广到全国7大地区局。针对智能化航运业务的需求,建设航运大数据平台。汇聚整合全球港口、货物、船舶等数据,融合多源物联网、北斗导航等数据,实现航运数据共享服务,建立基于大数据的现代航运物流服务体系。
公共安全。针对公共安全领域治安防控、反恐维稳、情报研判、案情侦破等实战需求,建设基于大数据的公共安全管理和应用平台。汇聚融合涉及公共安全的人口、警情、网吧、宾馆、火车、民航、视频、人脸、指纹等海量业务数据,建设公共安全领域的大数据资源库,全面提升公共安全突发事件监测预警、快速响应和高效打击犯罪等能力。探索“以租代建”模式,依托第三方专业数据中心,实现数据内容托管、数据服务租用的现代运营模式创新。
科技服务。针对科技服务数据整合、交互式服务、发展趋势预测、战略决策支持等需求,探索科技服务链整合、众包分包、供需对接的交互式平台型服务模式,建立科技服务业资源共享体系,建设跨领域科技服务与工程创新平台。汇聚科技成果、项目、人才、服务、互联网创新创意等大数据资源,支撑研发设计、技术转移转化、创新创业、科技咨询、科技金融等方面的科技服务。打造“科联工程”,形成跨领域的大数据服务模式。
2、行业应用推进
重点选取金融证券、互联网、数字生活、公共设施、制造和电力等具有迫切需求的行业,开展大数据行业应用研发,探索“数据、平台、应用、终端”四位一体的新型商业模式,促进产业发展。
金融证券。针对金融证券领域高频算法交易、数据综合分析、违规操作监管、金融研究报告交易、金融数据服务等方面的需求,建设金融大数据分析与智能决策支持系统。汇聚融合国内外证券及相关衍生品市场的高通量交易数据,整合行业媒体实时资讯与舆情,为相关机构提供金融监管和风险管控等智能决策支持,为投资者提供金融市场数据和经济数据、投资方向等个性化的金融数据服务。
互联网。针对互联网领域精准营销、销售趋势预测、广告精细管理和市场决策支持等方面的需求,建设面向互联网的大数据分析和服务系统。汇聚融合门户、论坛、微博、社交网络、搜索、购物、阅读、点评等互联网数据,提供用户细分、个性化推荐、行业报告、竞争分析、商业洞察、定价策略等互联网营销服务,实现以效果计费的创新营销商业模式。系统服务覆盖100家以上电子商务企业,促进企业从传统营销向互联网营销转型。
数字生活。针对日益增长的现代化生活需求,建设数字生活大数据服务系统。收集整合流行时尚、行业发展指数、用户消费习惯、收视记录、社交媒体、地理位置等大数据,充分挖掘用户的消费习惯和兴趣偏好,提升企业辅助决策能力,形成有市场竞争力的创新商业模式,面向300万以上消费者提供个性化衣食住行等生活互动信息。
公共设施。针对公共设施养护、管理的需求,建设公共设施大数据服务系统。采集、整合上海各类道路、桥梁、隧道和商业楼宇的结构性能、运行状态等数据,为公共设施养护、运营决策以及安全管理提供依据,实现对公共设施的实时监测和预警,在全市的路桥隧道和商业楼宇等开展规模应用,形成公共设施运营与养护新模式。
制造业。针对科学评价生产系统规划、降低产品缺陷率等需求,建立制造业大数据系统。整合已有的物理工厂、质量体系、工序数据、成本核算等建模数据,建立仿真工厂,对已有的生产实绩数据进行生产仿真,模拟工厂运行,为工厂实际建设提供决策依据。收集产品生产过程各环节的实时质量数据,实现敏捷的一体化质量监测和管控,并支持产品质量追溯,形成基于大数据的一贯过程质量控制及分析系统,并向第三方提供服务。
电力。针对坚强智能电网建设、维护和管理的需求,收集发电厂实时运行数据,建立发电厂数字仿真模型,为提高生产安全性、提高发电效率(降低单位电能煤耗、厂用电指标)提供决策依据。实时收集电网电力资产状态数据,实现电力资产在线状态检测、电网运行在线监控、主动安全预警及调度维保,保障电网可靠高效运行;快速收集用电数据,为需求响应、负荷预测、调度优化、投资决策提供支持。
五、保障措施
(一)创新体系建设
成立“上海大数据产业技术创新战略联盟”,建设“上海市数据科学重点实验室”、数据工程技术研究中心等,以大数据技术创新及产业应用为目标、以联盟为纽带促进形成若干引领大数据产业技术创新的企业联合实体;以合同契约为保障有效整合产、学、研、用等各方资源,以技术创新为驱动力、市场刚性需求为推动力,发展拥有自主知识产权且符合国内外产业发展需求的共性应用技术、产业标准和产品规范。
(二)专业人才培养
开展数据专业领域人才的培养,培训一批资深数据工程师,培育跨界复合型人才,与国内外数据专家形成持续稳定的协作关系。鼓励高等院校和企业合作,开展数据科学和大数据专业学历教育,依托社会化教育资源,提高大数据产业人员的业务水平,发挥大数据高层次引进人才的重要作用,开展大数据专业培训,形成人才梯队。
(三)制度法规完善
研究大数据产业相关的政策法规,提出数据资源权益、隐私保护等方面的法规细则建议,制定大数据相关标准,并提出技术解决手段,在保护数据资源的同时,促进数据资源合理有序地开发利用。在人才、财税、科技金融等方面设计有利于数据人才和数据产业发展的政策,逐步建立有利于上海大数据研究与发展的制度法规体系。
(四)合作协同推进
推动数据资源、数据技术、数据应用等方面企业开展深入合作,形成数据共享、数据流通、数据分析的机制和模式,提升数据开发、使用的效率和效能。围绕大数据技术链、产业创新链,运用市场机制集聚创新资源,实现企业、大学和研究院所等机构在战略层面的有效结合,通过资源共享、协同开发和集成创新,形成上海大数据的核心竞争力。
六、推进机制
1、总体规划,分步实施
把握总体方向,制定具体实施方案,以项目的形式分解任务,将大数据列入专项计划,依据项目成熟度,按年度分批推进。
2、签订协议,规范共享
以签订合作协议的方式和项目承担单位明确责任,设定数据共享标准及保密等级,在平等互信的基础上实现数据的共享和利用。
3、阶段检查,综合评估
成立专家委员会,分解责任,在项目实施的过程中实行专家责任制,进行阶段检查和总结,按期评估项目执行情况和追责。
4、明确主体,营造氛围
依托上海大数据产业技术创新战略联盟秘书处,设立推进办公室,推进行动计划的实施,组织沙龙、讲座、竞赛等活动,在全社会营造数据研究和开发的氛围。