“大数据”(BigData)是继云计算、物联网之后TI产业又一次颠覆性的技术变革。当今信息时代所产生的数据量已经大到无法用传统的工具进行采集、存储、管理和分析。全球产生的数据量,仅在2011就达到1ZB,且根据预测,未来十年全球数据存储量将增长50倍。大数据不是云计算,而是云计算的终极目标和升级方向;大数据只有当针对某个方面的应用,找出数据源,确定数据量,选择处理方法,并得出最终结果的过程才有意义。即:大数据=数据量+实际应用+处理方法。离开了一定的数据量,大数据就失去了灵魂;避开实际应用数据量再大也将毫无意义;没有正确的方法管理数据量,应用就成了无本之木。
学习目标:
l
l
l
l
l
10.1
10.1.1大数据的基本概念
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件和硬件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
从技术层面上看,大数据无法用单台的计算机进行处理,而必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托一些现有的数据处理方法,如云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。
早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,就将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才真正成为互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%,而每两年就将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,必然会产生海量的数据信息。
大数据的意义在于人类日益普及的网络行为附带生成的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好,非传统结构的数据。
从海量数据中“提纯”出有用的信息,这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它自己的时代。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。
大数据时代已经来临,它将在众多领域掀起变革的巨浪。如图10-1 所示。但我们要冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式的研究和探索将是大数据产业健康发展的关键。
10.1.2大数据的发展简史
回顾过去的50 多年,我们可以看到IT 产业已经经历过几轮新兴和重叠的技术浪潮,如图10-2 所示。这里面的每一波浪潮都是由新兴的IT 供应商主导的。他们改变了已有的秩序,重新定义了计算机的规范,并为进入新时代铺平了道路。
图10-2 IT科技浪潮
所有这一切开始于60 年代和70 年代的大型机浪潮,它是以BUNCH(Burroughs、Univac、NCR、Control Data 和Honeywell等公司为首的。然后,在步入70 年代和80 年代后,小型机浪潮和分布式计算涌现出来,为首的公司包括:DEC、IBM、Data General、Wang、Prime 等。
在70 年代后期到进入90 年代,微处理器或者个人计算机浪潮冲刷了IT 产业,领先者为Microsoft、Intel、IBM 和Apple 等公司。从90 年代中期开始,我们进入了网络化浪潮。如今,全球在线的人数已经超过了10亿,而且有多出在线人数几倍的人使用移动电话。这一浪潮由Cisco、Google、Oracle、EMC、Salesforce.com 等公司领导。有些公司更善于驾驭这些连续的浪潮,而另一些公司则被落下了。
那么,下一波浪潮会是什么?它还没有被正式命名。我们更愿意称它为云计算和大数据浪潮。其实,不管它被叫做什么,它都将比在它之前发生过的浪潮更大、触及面更广。非常重要的是:新的浪潮正在迅速地朝我们涌来,并将触及IT 的各个方面。
数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息,在互联网上听数字信息,我们自己也在不断制造新的数字信息。每次用数码相机拍照后,都产生了新的数字信息,通过电子邮件把照片发给朋友和家人,又制造了更多的数字信息。如图10-3所示。
图10-3各行各业每天制造大量数据
不过,没人知道这些数字比特共有多少?数字比特增加的速度有多快?比特激增意味着什么?
人们制造、获取和复制的所有1 和0 组成了数字世界。人们通过拍照片和共享音乐制造了数字比特,而公司则组织和管理对这些数字信息的访问和存储并为其提供了强有力的安全保障。
目前世界上有三种类型的主要模拟数字转换为这种增长提供动力和服务:用胶片拍摄影像转换为数字影像拍摄;模拟语音转换为数字语音;以及模拟电视转换为数字电视。从数码相机、可视电话、医用扫描仪到保安摄像头,全世界有10亿多台设备在拍摄影像,这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC和服务器及数据中心中复制,通过数字电视广播和数字投影银幕播放。
2007 年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。然而,这没有什么好怕的,调查结果强调现在人类应该也必须合理调整数据存储和管理。有很多数据是没有必要复制和存储下来的,而且存储那些数据的成本也很高。
IDC和EMC都认为数字信息量的增长是因为网络应用的不断增长,以及人类开始将物理数据转化为数字格式的数据所致。被存储下来的数据从本质上说已经发生了重大的变化,数字化数据总量增长得很快。大约30年前,通信行业的数据大部分还是结构化数据。如今,多媒体技术的普及导致非结构化数据如音乐和视频等的数量出现爆炸式增长。虽然30多年前的一个普通企业用户文件也许表现为数据库中的一排数字,但是如今的类似普通文件可能包含许多数字化图片和文件的影像或者数字化录音内容。现在,95%以上的数字信息都是非结构化数据。在各组织和企业中,非结构化数据占到了所有信息数据总量的80%以上。
“可视化”是引起数字世界急速膨胀的主要原因之一。由于数码相机、数码监控摄像机和数字电视内容的加速增多,以及信息的大量复制趋势,使得数字宇宙的容量和膨胀速度超过此前估计。
IDC的数字世界白皮书指出,个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式,每个人日常生活都在被数字化。数字世界的规模从2006 年到2011 年这五年间膨胀了10 倍!如图10-4 所示。
图10-4 全球数字信息5年增长10倍
10.1.3大数据时代的数据格式特性
首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:
·结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;
·半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;
·非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。
10.1.4大数据的特点
大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据下载到关系数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce那样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
大数据呈现出“4V+1C”的特点:
(1)Variety,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据;
(2)Volume,通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态;
(3)Velocity,涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值;
(4)Vitality,数据持续到达,并且只有在特定时间和空间中才有意义;
(5)Complexity,通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求。
无所遁形的大数据时代已经到来,以迅雷不及掩耳之势渗透到每一个职能领域内,如何借助大数据浪潮持续创新发展,舒筋活血,使企业成功转型,在当下具有非凡的意义。
10.1.5大数据的应用领域
大数据应用领域十分广泛,如网络日志、RFID传感器、社会网络、社会数据、互联网文本和文件;互联网搜索索引;呼叫详细记录、天文学、大气科学、基因组学、生物和其他复杂或跨学科的科研、军事侦察、医疗记录;摄影档案馆视频档案;大规模的电子商务等。
10.2 大数据技术架构
10.3大数据的整体技术和关键技术
大数据需要特殊的技术,以有效地处理那些在允许时间范围内的大量数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据技术分为整体技术和关键技术两个方面。
大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重掌握针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
(2)大数据预处理技术:主要完成对已接收数据的辨析、抽取、清洗等操作。
①抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
②清洗:由于在海量数据中,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。
(3)大数据存储及管理技术:大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。
开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
(4)开发大数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
(5)大数据分析及挖掘技术:大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘涉及的技术方法很多,包括多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度,着重突破:
①可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。
②数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
③预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
④语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。
⑤数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
1.Hadoop
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
(4)容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
2.HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:
(1)高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
(2)先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
(3)国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;
(4)基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期 的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;
(5)信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。
Storm是一种开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、
ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。其功能和特点是:
10.5大数据的3个应用案例
PDI是一家领先的医疗商业化公司,Informatica Cloud加强了该公司的销售、客户报告、洞察力和合规性。Informatica通过确保交付及时和相关的信息,帮助PDI取得高额数据回报,同时减少了企业的应用程序、数据和 CRM 备份成本,更在不到一个月的时间就部署完毕。
解决方案将PDI的Salesforce .com CRM数据复制到基于云的报表系统中,使数据完整且保持最新,完成报表周期所用的时间只是以前所需时间的零头。可以每周、每日甚至实时生成报告,而从前则是30天的周期。
数据集成和CRM备份成本也大幅降低,同时PDI销售团队可以共享他们的业绩视图,跟踪生物医药销售指标和其他促进销售的信息。
新西兰最大的金融机构 Westpac Life将Informatica 部署在其雄心勃勃的保险项目中,这个项目是一个商业智能环境,帮助金融机构增加收入、留住更多客户、增加交叉销售的潜在客户并降低风险。
系统提供了一个可信业务和保险客户数据的单一来源,有望交出240 %以上的投资回报,保单的生命周期收入提高至少一个百分点。
Informatica 还助力Westpac的社交媒体项目,利用客户所说的话,从而将客户放在Westpac活动的前沿和中心。
超过120 万客户每月进行三百万的在线交易,庞大的数据集带来了复杂的挑战。但是通过部署Informatica 平台,避免了在孤岛上作出决策。可基于具有高级报告和可视化的全盘信息,在保密情况下通过强大数据治理作出战略决策。
Westpac Life新西兰有限公司的保险负责人KevinCrowley说:“在财务不确定性的环境中,更快作出决策所需的财务效率和业务洞察是 Westpac 已经解决的挑战。因为有 Informatica ,我们有更好的定位,对更大透明度的需求作出响应,并将公司的客户保险数据资产转化为业务洞察力。”
Informatica深知,对于很多企业来说,向数据回报模型的转变不会一蹴而就。管理数据并将其成本降低的短期要求将会是首要焦点,同样还需要打破障碍以了解数据。企业只有这时才可以开始从传统和新兴数据集获得更多价值。Informatica可提供数据集成平台和领导力,为企业提供全程帮助。
IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。
基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。
在大数据处理领域,IBM于2012年10月推出了IBMPureSystems专家集成系统的新成员—IBM PureData系统。这是IBM在数据处理领域发布的首个集成系统产品系列。PureData系统具体包含三款产品,分别为PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBMPureSystems系列产品一样,IBM PureData系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。
3.微软战略
大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。
10.6 大数据在医疗领域中的应用
1989年,Gartner提出BI概念。2008年,Gartner将BI概念进一步升级为高级分析(Advanced Analytics)。2011年,麦肯锡阐释大数据概念。虽然名称不同,但实际上它们要解决的问题从来没变过。只不过,现在的大数据分析技术能处理相比20年前更大量、多样、实时(Volume、Variety、Velocity)的数据,即大数据。相比20年前的BI,现在的大数据分析能够产生更大的商业价值,大数据存储和分析技术的发展也得益于商业场景中数据量的激增和数据种类的多样化。
除了较早前就开始利用大数据的互联网公司,医疗行业可能是让大数据分析最先发扬光大的传统行业之一。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。因此,医疗行业将和银行、电信、保险等行业一起首先迈入大数据时代。麦肯锡在其报告中指出,排除体制障碍,大数据分析可以帮助美国的医疗服务业一年创造3000亿美元的附加价值。
下面列出了医疗服务业5大领域(临床业务、付款/定价、研发、新的商业模式、公众健康)的14项应用,这些场景下,大数据的分析和应用都将发挥巨大的作用,提高医疗效率和医疗效果。如图10-6 所示。
10.6.1 临床业务
在临床业务方面,有5个主要场景的大数据应用。麦肯锡估计,如果这些应用被充分采用,光是美国,国家医疗健康开支一年就将减少165亿美元。
通过全面分析病人特征数据和疗效数据,然后比较多种干预措施的有效性,可以找到针对特定病人的最佳治疗途径。
基于疗效的研究包括比较效果研究(Comparative Effectiveness Research, CER)。研究表明,对同一病人来说,医疗服务提供方不同,医疗护理方法和效果不同,成本上也存在着很大的差异。精准分析包括病人体征数据、费用数据和疗效数据在内的大型数据集,可以帮助医生确定临床上最有效和最具有成本效益的治疗方法。医疗护理系统实现CER,将有可能减少过度治疗(比如避免那些副作用比疗效明显的治疗方式),以及治疗不足。从长远来看,不管是过度治疗还是治疗不足都将给病人身体带来负面影响,以及产生更高的医疗费用。
世界各地的很多医疗机构(如英国的NICE,德国IQWIG,加拿大普通药品检查机构等)已经开始了CER项目并取得了初步成功。2009年,美国通过的复苏与再投资法案,就是向这个方向迈出的第一步。在这一法案下,设立的比较效果研究联邦协调委员会协调整个联邦政府的比较效果的研究,并对4亿美元投入资金进行分配。这一投入想要获得成功,还有大量潜在问题需要解决,比如,临床数据和保险数据的一致性问题,当前在缺少EHR(电子健康档案)标准和互操作性的前提下,大范围仓促部署EHR可能造成不同数据集难以整合。再如,病人隐私问题,想要在保护病人隐私的前提下,又要提供足够详细的数据以便保证分析结果的有效性不是一件容易的事情。还有一些体制问题,比如目前美国法律禁止医疗保险机构和医疗补助服务中心(Centers for Medicare and Medicaid Services)(医疗服务支付方)使用成本/效益比例来制定报销决策,因此即便他们通过大数据分析找到更好的方法也很难落实。
临床决策支持系统可以提高工作效率和诊疗质量。目前的临床决策支持系统分析医生输入的条目,比较其与医学指引不同的地方,从而提醒医生防止潜在的错误,如药物不良反应。通过部署这些系统,医疗服务提供方可以降低医疗事故率和索赔数,尤其是那些临床错误引起的医疗事故。在美国Metropolitan儿科重症病房的研究中,两个月内,临床决策支持系统就削减了40%的药品不良反应事件数量。
大数据分析技术将使临床决策支持系统更智能,这得益于对非结构化数据的分析能力的日益加强。比如可以使用图像分析和识别技术,识别医疗影像(X光、CT、MRI)数据,或者挖掘医疗文献数据建立医疗专家数据库(就像IBM Watson做的),从而给医生提出诊疗建议。此外,临床决策支持系统还可以使医疗流程中大部分的工作流流向护理人员和助理医生,使医生从耗时过长的简单咨询工作中解脱出来,从而提高治疗效率。
提高医疗过程数据的透明度,可以使医疗从业者、医疗机构的绩效更透明,间接促进医疗服务质量的提高。
根据医疗服务提供方设置的操作和绩效数据集,可以进行数据分析并创建可视化的流程图和仪表盘,促进信息透明。流程图的目标是识别和分析临床变异和医疗废物的来源,然后优化流程。仅仅发布成本、质量和绩效数据,即使没有与之相应的物质上的奖励,也往往可以促进绩效的提高,使医疗服务机构提供更好的服务,从而更有竞争力。
数据分析可以带来业务流程的精简,通过精益生产降低成本,找到符合需求的工作更高效的员工,从而提高护理质量并给病人带来更好的体验,也给医疗服务机构带来额外的业绩增长潜力。美国医疗保险和医疗补助服务中心正在测试仪表盘,将其作为建设主动、透明、开放、协作型政府的一部分。本着同样的精神,美国疾病控制和预防中心(Centers for Disease Control and Prevention)已经公开发布医疗数据,包括业务数据。
公开发布医疗质量和绩效数据还可以帮助病人做出更明智的健康护理决定,这也将帮助医疗服务提供方提高总体绩效,从而更具竞争力。
从对慢性病人的远程监控系统收集数据,并将分析结果反馈给监控设备(查看病人是否正在遵从医嘱),从而确定今后的用药和治疗方案。
2010年,美国有1.5亿慢性病患者,如糖尿病、充血性心脏衰竭、高血压患者,他们的医疗费用占到了医疗卫生系统医疗成本的80%。远程病人监护系统对治疗慢性病患者是非常有用的。远程病人监护系统包括家用心脏监测设备、血糖仪,甚至还包括芯片药片,芯片药片被患者摄入后,实时传送数据到电子病历数据库。举个例子,远程监控可以提醒医生对充血性心脏衰竭病人采取及时治疗措施,防止紧急状况发生,因为充血性心脏衰竭的标志之一是由于保水产生的体重增加现象,这可以通过远程监控实现预防。更多的好处是,通过对远程监控系统产生的数据的分析,可以减少病人住院时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。
在病人档案方面应用高级分析可以确定哪些人是某类疾病的易感人群。举例说,应用高级分析可以帮助识别哪些病人有患糖尿病的高风险,使他们尽早接受预防性保健方案。这些方法也可以帮患者从已经存在的疾病管理方案中找到最好的治疗方案。
10.6.2付款/定价
对医疗支付方来说,通过大数据分析可以更好地对医疗服务进行定价。以美国为例,这将有潜力创造每年500亿美元的价值,其中一半来源于国家医疗开支的降低。如图10-7 所示。
1.
自动化系统(例如机器学习技术)检测欺诈行为。业内人士评估,每年有2%~4%的医疗索赔是欺诈性的或不合理的,因此检测索赔欺诈具有巨大的经济意义。通过一个全面的一致的索赔数据库和相应的算法,可以检测索赔准确性,查出欺诈行为。这种欺诈检测可以是追溯性的,也可以是实时的。在实时检测中,自动化系统可以在支付发生前就识别出欺诈,避免重大的损失。
2.
在药品定价方面,制药公司可以参与分担治疗风险,比如基于治疗效果制定定价策略。这对医疗支付方的好处显而易见,有利于控制医疗保健成本支出。对患者来说,好处更加直接。他们能够以合理的价格获得创新的药物,并且这些药物经过基于疗效的研究。而对医药产品公司来说,更好的定价策略也是好处多多。他们可以获得更高的市场准入可能性,也可以通过创新的定价方案,更有针对性疗效药品的推出,获得更高的收入。
在欧洲,现在有一些基于卫生经济学和疗效的药品定价试点项目。一些医疗支付方正在利用数据分析衡量医疗服务提供方的服务,并依据服务水平进行定价。医疗服务支付方可以基于医疗效果进行支付,他们可以与医疗服务提供方进行谈判,看医疗服务提供方提供的服务是否达到特定的基准。
10.6.3研发
医疗产品公司可以利用大数据提高研发效率。拿美国为例,这将创造每年超过1000亿美元的价值。
1.
除了研发成本,医药公司还可以更快地得到回报。通过数据建模和分析,医药公司可以将药物更快推向市场,生产更有针对性的药物,有更高潜在市场回报和治疗成功率的药物。原来一般新药从研发到推向市场的时间大约为13年,使用预测模型可以帮助医药企业提早3~5年将新药推向市场。
2.
使用统计工具和算法,可以提高临床试验设计水平,并在临床试验阶段更容易地招募到患者。通过挖掘病人数据,评估招募患者是否符合试验条件,从而加快临床试验进程,提出更有效的临床试验设计建议,并能找出最合适的临床试验基地。比如那些拥有大量潜在符合条件的临床试验患者的试验基地可能是更理想的,或者在试验患者群体的规模和特征二者之间找到平衡。
3.
分析临床试验数据和病人记录可以确定药品更多的适应症和发现副作用。在对临床试验数据和病人记录进行分析后,可以对药物进行重新定位,或者实现针对其他适应症的营销。实时或者近乎实时地收集不良反应报告可以促进药物警戒(药物警戒是上市药品的安全保障体系,对药物不良反应进行监测、评价和预防)。或者在一些情况下,临床实验暗示出了一些情况但没有足够的统计数据去证明,现在基于临床试验大数据的分析可以给出证据。
这些分析项目是非常重要的。可以看到最近几年药品撤市数量屡创新高,药品撤市可能给医药公司带来毁灭性的打击。2004年从市场上撤下的止痛药Vioxx,给默克公司造成70亿美元的损失,短短几天内就造成股东价值33%的损失。
4.
另一种在研发领域有前途的大数据创新,是通过对大型数据集(例如基因组数据)的分析发展个性化治疗。这一应用考察遗传变异、对特定疾病的易感性和对特殊药物的反应的关系,然后在药物研发和用药过程中考虑个人的遗传变异因素。
个性化医学可以改善医疗保健效果,比如在患者发生疾病症状前,就提供早期的检测和诊断。很多情况下,病人用同样的诊疗方案但是疗效却不一样,部分原因是遗传变异。针对不同的患者采取不同的诊疗方案,或者根据患者的实际情况调整药物剂量,可以减少副作用。
个性化医疗目前还处在初期阶段。麦肯锡估计,在某些案例中,通过减少处方药量可以减少30%~70%的医疗成本。比如,早期发现和治疗可以显著降低肺癌给卫生系统造成的负担,因为早期的手术费用是后期治疗费用的一半。
5.
通过分析疾病的模式和趋势,可以帮助医疗产品企业制定战略性的研发投资决策,帮助其优化研发重点,优化配备资源。如图10-8 所示。
图10-8大数据时代的数字医院
10.6.4新的商业模式
大数据分析可以给医疗服务行业带来新的商业模式。
1.汇总患者的临床记录和医疗保险数据集
汇总患者的临床记录和医疗保险数据集,并进行高级分析,将提高医疗支付方、医疗服务提供方和医药企业的决策能力。比如,对医药企业来说,他们不仅可以生产出具有更佳疗效的药品,而且能保证药品适销对路。临床记录和医疗保险数据集的市场刚刚开始发展,扩张的速度将取决于医疗保健行业完成EMR和循证医学发展的速度。
2.网络平台和社区
另一个潜在的大数据启动的商业模型是网络平台和大数据,这些平台已经产生了大量有价值的数据。比如PatientsLikeMe.com网站,病人可以这个网站上分享治疗经验;Sermo.com网站,医生可以在这个网站上分享医疗见解;Participatorymedicine.org网站,这家非营利性组织运营的网站鼓励病人积极进行治疗。这些平台可以成为宝贵的数据来源。例如,Sermo.com向医药公司收费,允许他们访问会员信息和网上互动信息。
10.6.5公众健康
大数据的使用可以改善公众健康监控。公共卫生部门可以通过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。这将带来很多好处,包括医疗索赔支出减少、传染病感染率降低,卫生部门可以更快地检测出新的传染病和疫情。通过提供准确和及时的公众健康咨询,将会大幅提高公众健康风险意识,同时也将降低传染病感染风险。所有的这些都将帮助人们创造更好的生活
10.7大数据的发展趋势
大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步(如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。
对于地球上每一个普通居民而言,大数据有什么应用价值呢?只要看看周围正在变化的一切,你就可以知道,大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业,与每个人产生密切的联系。
大数据技术离你我都并不遥远,它已悄然来到我们身边,并渗透到我们每个人的日常生活消费之中,时时刻刻,事事处处,我们无法逃遁,因为它无微不至:它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的虚拟仿真的环境。通过大数据技术,人们能够在医院之外得悉自己的健康情况;而通过收集普通家庭的能耗数据,大数据技术给出人们切实可用的节能提醒;通过对城市交通的数据收集处理,大数据技术能够实现城市交通的优化。如图10-9 所示。
图10-9
小结