数据挖掘案例——药物选择决策支持

 

【案例名称】药物选择决策支持

【案例类型】数据挖掘

【所属行业】医药卫生

【案例版本】1.0

【完成日期】200372

【应用软件】Clementine 7.2英文版

【遵循标准】CRISPDM

【案例数据来源】Clementine 7.2 Demo自带数据

【案例应用模型】神经网络、C5.0Logistic回归

【案例制作】钟云飞

【案例用途】通过案例实现以下目的:

1、  CRISPDM的标准流程及在解决具体业务问题过程中的应用;

2、  理解如何提高数据挖掘模型的效果;

3、  理解结果发布的几种方式。

【案例简要描述】

针对病人的病情和体质情况,医生往往需要采用不同的用药。本案例通过数据挖掘,对医院积累的历史数据进行分析,确定病人选择何种药物对治疗疾病最为有效。并开发了相应的药物选择决策支持系统的应用系统。

案例正文

【背景介绍】

       XX病是一种常见的疾病,目前有5种药物可以对其治疗,分别是——ABCXY。不同的药物对病人有不同的疗效。历史上,医院往往根据医生的经验去判断针对特定的病人应该选择何种药物。但是由于新医生的加入,这种仅仅靠经验判断的做法造成了很多误诊。

       该医院有比较完善的病例留存,为了改变以上局面,也为了更好的利用历史数据和专家经验,该医院决定通过数据挖掘技术对历史数据进行分析研究,并期望能够建立一套有效的药物选择决策支持系统。

【数据说明】

       目前有历史病例数据1200条,咨询专家意见,我们提取了其中影响选择药物的若干个变量记入数据库,它们是年龄、性别、血压、胆固醇含量、钠含量、钾含量,最后一个变量是我们需要确定的选择药物,数据存贮在Microsoft Access数据库中。

【数据挖掘过程】

1、 商业理解

在这个阶段我们主要需要描述清楚业务问题,并对我们手头拥有的资源有一个非常清晰的认识。在这个案例中,我们需要根据病人的个人情况和身体特征来确定何种药物对它最为合适。由于问题比较简单,我们的商业理解也比较简单。

2、 数据理解

数据理解阶段用来完成对数据质量、数据之间的基本关系进行探索性分析等项工作。在这个阶段,我们对历史数据中的1200条数据进行图形观察,初步观察病人的情况和身体特征是否与选择药物关系明显。数据流图见图1 

1:数据理解

下面是产生的一些典型图形,图形解释略。

2:对数据的初步探索性分析


3、 数据准备

数据准备主要完成对不同的数据源的整合,并且对数据进行适当的变换,使之适合数据挖掘的需要,对于特定的模型,需要把原始数据集合拆分成训练数据集和检验数据集也在这个步骤中完成。

对于本案例来说,由于数据源只有一个,并且数据格式也相对单一简单,我们在数据准备中主要完成对原始数据集的拆分,从而用训练数据集建立模型,用检验数据集对模型的效果进行评估。

Clementine中,对数据集的拆分,是通过引入一个中间变量来完成的。在本案例中,我们把全部1200条数据中的2/3左右(800左右)作为训练数据集,把1/3左右(400左右)作为检验数据集。我们引入了一个二分变量——拆分变量,这个二分变量对应1200条原始数据有2/3左右为“真”(T),1/3左右为“假”(F)。我们挑出那些拆分变量值取“真”(T)的记录作为训练数据集,那些拆分变量值取“假”(F)的记录作为检验数据集。实现该过程的数据流见图3

 

  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
智能商务及应用案例(总7页) 关于商务智能的概念 概述   商务智能的定义不说多如牛毛,也是众说纷纭。人们对商务智能的理解如同那七个 印度盲人对大象的理解:有人认为它是高级管理人员信息系统(EIS),有人认为它是管 理信息系统(MIS),有人认为它是决策支持系统(DSS); 有人说它是数据库技术,有人说它是数据仓库,有人说它是数据集市,有人说它是数据 整合与清洗工具,有人说它是查询和报告工具,有人说它是在线分析处理工具,有人说 它是数据挖掘,有人说它是统计分析;有人把它当作分析性ERP, 有人把它当作分析性CRM, 有人把它当作分析性SCM, 有人把它当作企业绩效管理,有人把它当作平衡记分卡…… 要素 企业——这里用"组织机构"或"实体"会显得更完整,因为所有的组织机构和实体(不 只是企业)都可以而且应该利用商务智能;之所以仍用"企业"是为保持与"商务"的一致 性。各行各业,包括非企业性机构,比如政府部门、教育机构、医疗机构和公用事业等 ,都应该而且能够利用商务智能。 利用现代信息技术——这是这一定义中的关键之一,现代信息技术的发展产生了信息 经济和信息社会,在这一新型的经济和社会形态中,信息的爆炸式激增又产生了对能够 处理和控制信息的新技术的强烈需求;商务智能就是新的信息技术在商务分析中的有效 利用。商务智能过程中所涉及的信息技术主要有:从不同的数据源(交易系统或其他内 容储存系统)收集的数据中提取有用的数据,对数据进行清理以保证数据的质量,将数 据经转换、重构后存入数据仓库或数据集市(这时数据变为信息),然后寻找合适的查 询、报告和分析工具和数据挖掘工具对信息进行处理(这时信息变为辅助决策的知识) ,最后将知识呈现于用户面前,转变为决策。 收集——收集数据是管理和分析数据的前提,数据收集工作是十分重要的,必须引起 企业的充分重视,在这方面中国企业与世界上发达国家中的先进企业之间的差距非常大 ,这是商务智能在中国还不能很快成熟起来的重要原因之一, 这应了中国的一句俗话:"巧妇难为无米之炊"。数据和信息的收集主要是通过各种交易 系统进行的,比如企业资源规划(ERP)、客户关系管理(CRM)、供应链管理(SCM)和 电子商务等系统。随着中国企业在这些方面的进步,数据和信息的数量会快速增长的。 另外,信息,特别是非结构化的信息,来自公司各个部门和各个员工创造和收集的、没 有放在上述交易系统中的内容。第三方也是企业收集数据和信息的一个重要来源,这样 的外部数据和信息包括市场调研报告、人口统计报告、顾客信用报告等。   管理——这里的"管理"主要是指对数据的储存、提取、清洗、转换、装载、整合等工 作,其目的主要是为了提高数据的质量和安全性。 分析——"分析"是一个广泛的概念,这里包括数据查询、数据报告、多维分析、数据 挖掘、高级统计分析等。大多数人理解的商务智能都集中在这些分析工具上。 结构化——结构化的数据主要是指储存于各个交易系统背后的关系型数据库中的数据 ,通常都是以表格的形式存在和展现的。传统的商务智能概念只包括这种结构化的、可 定量的数据。 非结构化——非结构化的数据和信息主要是上面的提到的各个部门和各个员工创造和 收集的、没有放在各种交易系统中的内容,通常是以零散的文件形式存在和展现的;新 的商务智能概念纳入了非结构化内容的分析,但是非机构化的内容的管理仍然主要是通 过文件管理和内容管理(Document Management & Content Management)软件来进行的。 商务数据和信息——商务数据和信息并不能加以狭隘的理解,这里所致的商务数据和 信息包括一切可能对商务产生影响的、直接和间接的数据和信息,往小里说包括顾客的 名字、地址和电话号码等,往大里说包括过国际上的政治、经济、文化和军事情况等。 创造和累计商务知识和见解——这是商务智能的第一层的目的和功能,也是最直接的 目的和功能;"知识和见解"正是"智能"得名的由来。 改善商务决策水平——这是商务智能的更高一层的目的和功能,企业能否利用好这一 功能、实现这一目的在很大程度上取决于领导者的意识和胸襟以及企业文化中决策科学 化和民主化的成分。 采取有效的商务行动——采取有效的商务行动是创造和累计商务知识和见解、改善商 务决策水平的目的和动力。商务智能是能够指导实战的高明兵法,而不是"无所不知、但 无能为力"的"纸上谈兵"。 完善各种商务流程——残缺、散乱、僵化、低效的商务流程是企业的顽疾,商务智能 能够为这一顽疾的诊断和治疗做出一定的贡献; 优化后自动化(请注意先后顺序)的商务流程反过来也会促进商务智能的发展。 提升各方面商务绩效——这是商务智能在企业内部的最高目的和作用,有效的商务智 能系统和技术能够帮助企业提升各个方面的绩效:财务的和非财务的,前台的和后

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值