Hadoop的基本操作及其在医药健康卫生领域的应用案例

最新推荐文章于 2024-05-23 00:00:00 发布

懒人zhou

最新推荐文章于 2024-05-23 00:00:00 发布

阅读量1.6k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/z2019jiayou/article/details/105366530

版权

笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、基本操作

1、查看Hadoop集群的基本信息

打开终端输入start-all.sh启动所有服务在这里插入图片描述
浏览器地址栏输入192.168.1.10：50070

浏览器地址栏输入192.168.1.10：8088

浏览器地址栏输入192.168.1.10：8042

2、上传文件到HDFS目录

Hadoop中有3个核心组件：

分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上

分布式运算编程框架：MAPREDUCE —— 实现在很多机器上分布式并行运算

分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源

HDFS是一个类Linux的独立的文件系统，可以通过web端查看文件目录信息
在这里插入图片描述
HDFS文件系统的基本操作，可以通过HDFS命令来实现，在终端，输入“hdfs dfs”命令，就可以完成对HDFS目录及文件的大部分管理操作，包括创建新目录、上传与下载文件、查看文件内容、删除文件等。

（1）、创建新目录/user/dfstest

在这里插入图片描述

（2）、上传文件

利用 hdfs 命令把集群服务器节点上的本地文件 test1.txt 上传到 HDFS目录 /user/dfstest中
在这里插入图片描述

（3）、查看文件内容

在这里插入图片描述
（4）、删除文件

在这里插入图片描述

3、运行首个MapReduce任务

（1）、在linux上，创建一个目录/data/mapreduce1

（2）、在本机上，创建一个txt文件，并将它传到那个目录里
在这里插入图片描述
（3）、将文件传到HDFS文件系统的/user/dftest目录下

（4）、使用wordcount对file.txt文件中的单词出现进行统计

在这里插入图片描述

二、医疗健康卫生领域的应用案例

1、Apixio

2009年，Apixio公司成立于美国加利福尼亚州圣马特奥，其名为HCC Profiler的医疗大数据分析平台利用非结构化数据分析并预测患者的健康状况，该平台主要针对慢性病进行分析。同时，公司新开发了一个名为Apixio Iris的平台，其背后有着更庞大的数据库作为支撑。

初创的医疗搜索公司Apixio正试图通过将先进的分析技术引入医疗记录中来拯救生命，通过一个简单的基于云的搜索引擎为医生提供患者的整个相关病史。在我们熟悉的外表下，总部位于加州门罗公园的Apixio正在应用机器学习和自然语言处理技术——这两项技术在对IBM（IBM）危机的大肆宣传中引起了公众的注意！-玩沃森系统-分析每个病人的整个病历，这样医生可以了解病人的整个病史，即使他们从一个医生转移到另一个医生。其目标是使医疗机构之间的信息共享不仅更加普遍，而且更加智能化。

Apixio业务的基础是它的医疗信息导航引擎（MeX），这是一种基于Web的应用程序，它分析结构化和非结构化患者数据以在护理提供者输入搜索条件时返回相关结果。正如CEO Shawn Dastmalchi所解释的，它的工作方式是，医院生态系统内的医生和人员（即在同一旗帜下运营的医生、医院和诊所）将现有数据捕获系统中的数据上传到Apixio基于云的服务器。数据几乎可以是任何东西，从表单到CT扫描图像到电子邮件。然后，医务人员按患者进行搜索，通常包括特定症状或健康问题，矿井系统根据患者的记录确定与该特定问题相关的所有信息。MINE还利用语义关联来确定多个结果是否是同一个东西，并将它们作为一个组合结果呈现，因此搜索者不会不必要地被数据淹没。根据Apixio的自然语言科学家Vishnu Vyas的说法，对于医生来说，最终产品就像谷歌（Google），只是更好，因为它以病人为中心，决定了数据之间的关系。

Apixio的首席科学家Bob Rogers解释了机器学习和非结构化数据分析在医学领域的重要性。他说，由于本体论（从账单到扫描结果的所有方面的特定领域术语）的激增，任何一种搜索引擎都必须能够在各种本体论以及通用语言之间创建一定程度的关联。例如，当医生在搜索框中输入病人的名字和“胸痛”时，我的搜索框能够找到与实际术语几乎没有相似之处的胸痛的本体论参考。

Apixio的目标是扩展它的能力，允许全人群的搜索和更高级的查询，它正在资助斯坦福大学生物医学信息研究中心（CBIR）的一个项目，以帮助实现这一目标。CBIR团队正在应用“机器学习和自然语言处理……以医学本体中编码的语义处理非结构化数据的方法，从病历的非结构化部分发现有价值的知识。”，罗杰斯解释说，这个项目在很大程度上集中于能够从包含本体数据的信息中确定因果关系。维亚斯说，这可能有助于医院管理人员，例如，根据各种看似不相关的因素，确定哪些患者需要参加某个特定的手术。这些可能是与特定疾病相关的特定药物、症状或生活方式选择，即使患者尚未被诊断出患有该疾病。

实际上，IBM最近一直在谈论如何采用问答技术，使Watson能够在医疗保健领域工作，但尽管它与Apixio共享底层技术，但这两种技术的用途截然不同。正如我之前解释过的，沃森更适合危险的情况！它成名的竞争：根据特定问题提供可能的答案（或诊断）。而不是像Apixio这样的病人数据填充，特定于医学的Watson系统可能会填充来自医学期刊和其他一般医学信息来源的数据。

从技术上讲，Apixio在大数据专业知识和成本效益方面有很多优势。Apixio的生产服务器运行在AmazonEC2（s amzn）中，不过Dastmalchi说，为了可用性，该公司最终将在多个云上分发这些服务器。它使用Hadoop和Pig作为大部分分析工作负载，使用NoSQL Cassandra数据库作为服务搜索查询的基础设施。这个团队实际上对Hadoop有着相当丰富的经验，因为Vyas是雅虎（Yahoo）的前雇员，曾大量使用这项技术，董事会成员和“平台思想领袖”法扎德纳泽姆（Farzad Nazem）也曾在2007年退休前担任过10年的雅虎首席技术官。罗杰斯说，最终，Apixio希望能够以低于百分之一毫秒的延迟返回数亿患者记录的搜索结果。

2、谷歌利用大数据预测流感

这些年，一些大规模的传播疾病一直没有间断，从非典到H7N9，病毒性流感一波又一波袭扰人类，流感病毒不断变异并传播开来，令药物和疫苗要么准备不及，要么无法预防。但是如果能提早发现流感的发病趋势，不仅能为抗病毒药物的准备争取宝贵的时间，而且还有助于疫苗研发机构能尽早采取措施。

作为全球最大的搜索引擎，每时每刻都有上百万用户在使用谷歌提供的搜索服务，其中搜索健康信息的人亦不在少数。这些用户行为提供了海量的有宝贵价值的分析数据。

可以想见，流感流行季，搜索流感症状的人会飙升，而在流感高发地带，这一比例会相应提高。这意味着流感相关关键词的搜索趋势与流感的流行趋势及严重程度存在某种程度的相关性。尽管并不是每个搜索这类关键词的人都有流感症状或患有流感，但把这些搜索结果汇总到一起时，或许可以从中建立起一个准确可靠的模型，实时监控时下的流感疫情，并对未来疫情状况进行估测。

谷歌的工程师们想到了从大数据的筛选过渡到流感的防治问题上。但是他们首先面临的任务是选择流感相关的关键词。工程师将关键词的选择权交给机器。他们挑出谷歌搜索量最大的5000 万个关键词，分别代入到事先建好的一个模型中，而后将这一模型产生的曲线与美国疾病预防与控制中心（以下简称美国 CDC）的流感流行曲线进行拟合，进而筛选到拟合度最高 100 个关键词。再从这 100 个预测性最好的关键词中，优选出与流感有关的部分，并将其综合起来完成预测模型的建立。最终有 45 个关键词筛出。

实践是检验真理的唯一标准，预测模型好坏的最佳评价标准一定是在实战中观察其能否通过考验。在回溯验证中，谷歌工程师将美国纽约市 2003 年至 2007 年的季节性流感数据与模型计算出的数据进行了比较，发现相关系数达 0.90。对于这一模型，更有用的是“未来”验证的结果。在回溯结果的鼓励之下，谷歌工程师从 2008 年初开始，将模型导出的结果与两周后美国 CDC 公布的数据进行对照。结果依然令人振奋，相关性同样达到了 0.90。最终，工程师们还将这一模型的建立过程撰写成论文发表在《自然》杂志上。

很快，谷歌根据这一结果推出了名为“流感指数（Google Flu Trends）”的产品，据称能够提前两周提供精确度不低于疾控中心的结果。目前这一指数已推广到全球 29 个国家，并由检测流感拓展到另一种感染性疾病登革热。

由于“流感指数”的高低在很大程度上取决于用户的搜索行为，有观察家认为，如果一些事件会影响到用户的搜索，那么指数就有可能出现假阳性或假阴性。果不其然，在谷歌流感指数运行期间，人们逐渐观察到原有模型的缺陷。

时至 2013 年，流感再一次引起了世人的广泛关注。在中国，H7N9 型禽流感引起 130 余人感染，并致使 44 人死亡，且有人传人的迹象。而在美国，流感流行状况也十分严峻。纽约州在 2013 年 1 月还特地发布“公共健康紧急状态”的通告，以警示民众。这些消息获得大众媒体的广泛报道。然而，谷歌流感指数的表现再次让人大跌眼镜：指数估值出现了假阳性，即远高于 CDC 的统计数量。尽管谷歌方面对此并未置评，但大部分关注这一指数的研究者认为，流感疫情获得媒体连篇累牍的报道，影响了谷歌用户的搜索行为，导致指数估值出现偏差。

在谷歌流感指数启发之下，很多研究者试图利用其他渠道（比如社交网站）的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用 Twitter 的数据进行了尝试。利用团队开发的文本分析工具，研究者在一个月内收集了 60 余万人的 440 万条 Twitter 信息，挖掘其中的身体状态信息。最终的分析结果表明，研究人员可以提前 8 天预报流感对个体的侵袭状况，而且准确率高达 90%。

不过研究者也承认，这一算法并非完美，比如 Twitter 的使用者大部分是年轻人，而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。

3、医疗公司塞纳（Cerner）

赛纳公司成立于1979年，总部设在密苏里州北堪萨斯城，是一家医疗信息技术（HIT）解决方案、服务、设备和硬件供应商，是美国医院第四大电子病历供货商。公司的使命是促进医疗保健服务的系统性改善和维护社区的健康。

一直以来，健康医疗信息技术所做的是求是将现有流程用自动化的方式来实现。然而这一切正在发生改变。随着人们对提高治疗质量和控制医疗成本的诉求日益增长，迫切需要有更好的系统来支撑这些目标。于是Cerner公司利用Hadoop生态系统来理解健康医疗的概念并构建方案来解决这些问题，过程如下：

2009年，他们需要为医疗记录建立更好的搜索索引，但由此引出的处理需求无法通过其他架构简单解决。例如，如果用户键入“心脏病”一词，就能返回探讨心肌梗塞的文档。这一处理，代价相当高，因此需要投入许多CPU来处理，并且希望处理过程能经济合算。Hadoop在满足一项重要需求方面脱颖而出：可以在数小时或更快的时间内频繁地反复处理数以百万计的文档。在Hadoop中，这仅仅意味着在已有的数据之上运行一个新版本的Map Reduce作业，然后处理文档被载入一个Apache Solr服务器集群以支持应用查询。

但由于健康医疗数据经常以碎片化的形式分布在各个系统和机构中，需要先收集所有这些数据并理解其含义。当有了大量的数据源和格式，甚至标准化的数据模型有待解析时，就面临着一个庞大的语义集成问题。最大的挑战并非来自数据的规模——总所周知Hadoop可以根据需要扩展——而是来自于为满足我们的需求，对数据进行清理、管理和转换所带来的极端复杂性。因此需要更高级的工具来管理这一复杂性。

经过尝试，Crunch提供的一个简单的基于Java的编程模型以及记录的静态类型检查，完美贴合他们Java开发者社区的需求以及所处理的数据类型。