扩展学习|商业智能和大数据分析的研究前景(比对分析)

文献来源: Liang T P , Liu Y H .Research Landscape of Business Intelligence and Big Data analytics: A bibliometrics study[J].Expert Systems with Applications, 2018, 111(NOV.):2-10.DOI:10.1016/j.eswa.2018.05.018.

        信息和通信技术的快速发展导致了数字化数据的快速增长,也引起了人们对管理、社会科学和人文领域大数据分析和商业智能研究机会的极大关注。商业智能的大数据和分析趋势为支持数据驱动的决策过程提供了巨大的资源和强大的方法,这是“商业智能”的核心

一、大数据与商务智能的对比

        “大数据”(BD)和“商业智能”(BI)都是近年来学术研究中快速增长的关键词。虽然“大数据”最近很流行,但“商业智能”的提出要早得多。Luhn(1958)开始使用“商业智能”一词来描述传播信息和支持决策过程的自动系统。这一概念后来被纳入决策支助和信息系统领域。例如,Vitt等人(2002)将商业智能定义为一个多方面的概念,包括三个不同的观点:更快地做出更好的决策,将数据转换为信息,并使用合理的方法来管理(第13页)。他们将BI周期定义为包括四个阶段:分析、洞察、行动和性能度量。头巾等进一步扩展了BI,涵盖了数据仓库、数据采集、数据挖掘、业务分析和可视化

        一般来说,BD强调数据方面,包括数据收集、存储和分析,而BI更侧重于数据分析、可视化和用于业务决策的应用。

二、在过去十年中,与“大数据”和“商业智能”相关的学术成果是如何发展和演变的?

        第一个分析是出版趋势。图1显示了“大数据”和“商业智能”的时间趋势。截至2011年,“大数据”学术产出不足38篇。2012年,这一数字增加到92个,此后迅速增加。仅2016年一年,BD出版物数量就达到了3287种。

        与“大数据”相比,BI出版物的数量多年来保持相对稳定。“商业智能”的趋势早在2012年之前就开始了,2008年增加到48家,远高于BD,但到2016年仅增加到183家。这可能是因为作为一种技术,BD的研究范围比专注于业务应用的BI要广泛得多

        图2显示了BD&BI出版物的时间趋势。这些出版物的数量在2015年显著增加到32篇,并继续增长,但仍无法与BD论文相比。发表数量少的原因可能是,尽管BI和BD的应用通常是重叠的,但大多数论文可能会选择将其主要方向显示为技术或管理。另一种可能性是,大数据在很大程度上是一个流行词,在商业领域也被广泛使用,而商业智能则更多地局限于某些领域

        表1给出了数据集中文档类型的统计信息。

三、在这些学术成果中,研究主题是如何变化和演变的?

        表2总结了“大数据”和“商业智能”出版物的高频关键词。关键词按出现频率降序排列。在10637篇“大数据”相关文章中,排名前5位的相关关键词是“模型”、“算法”、“系统”、“MapReduce”和“云计算”。在1168篇“商业智能”类出版物中,排名前五的关键词是“管理”、“数据仓库”、“大数据”、“数据挖掘”和“系统”。虽然“数据挖掘”、“社交媒体”和“管理”等几个关键词有重叠,但我们看到这两组研究之间存在显著差异。

        与BD相关的关键词更侧重于算法和计算,而与BI相关的关键词更侧重于管理和决策支持系统。

        证据与我们的观点一致,即业务开发更偏向于技术,而商业智能更偏向于应用。

        图3显示了10637篇BD出版物中关键词的可视化云。

        重要的关键字用较大的字体突出显示,而关键字的颜色由关键字所属的集群决定。关键词之间的线表示关键词之间最强的共被引联系。“大数据”是云的中心,因为它是搜索关键。与表2一致,“模型”、“算法”、“系统”、“云计算”、“管理”、“网络”和“信息”都是突出的关键词。在标签云中,用不同颜色标记的5个主要簇属于5个不同的主要区域。红色集群由医疗保健领域的出版物组成,绿色集群属于计算机科学领域。“商业智能”位于顶部,属于黄色集群。黄色集群主要属于管理领域。“商业智能”与“管理”、“数据分析”和“预测分析”直接相关,而“知识管理”在同一集群中更大

        图4按时间顺序显示了高频关键词的演变。从acceptmanuscript 10时间轴来看,2016年和2017年“云计算”、“数据仓库”和“知识管理”被更加强调。与2014年的“数据挖掘”、“文本挖掘”、“数据科学”等关键词相比,2016年之后的研究重点发生了转移。

四、哪个学科推动相关研究?

        我们使用研究期刊发表的特刊作为证据。表4总结了8个BD和BI特刊的学术领域。3本期刊属于计算机科学领域,其他期刊与信息科学和管理相关。这意味着,计算机科学一直是推动BD和BI研究的核心学科,而信息科学和管理也是重要学科。

        表5按降序列出了BD和BI发文量排名前10位的期刊。我们可以发现这两组期刊有重叠,但它们的排名却大不相同。与BI论文主要发表在计算机科学类期刊、信息系统类期刊和管理类期刊相比,BD论文发表在更加多元化的期刊上,强调跨学科应用。有三种期刊是专门针对BD的,并声称是多学科的。综上所述,发表商业智能研究的期刊更多地涉及管理领域,而发表商业智能研究的期刊范围更广。

五、谁是这些产出的主要贡献者?

        表6列出了学术网络中被引频次和中心性最高的出版物。

六、未来研究

        鉴于在前面的分析中指出的概况,我们能够确定未来研究的几个关键方向。图7显示了将研究主题划分为四个维度的一般框架:技术、应用、管理和影响。在每个维度中,需要进一步探索许多可能的主题。例如,技术维度包括与数据收集、存储、分析和集成基础设施相关的问题。例如,情感分析需要正确地收集和分析文本数据。正确解析所收集文本数据的技术以及对积极或消极情绪的界定也是研究的重点。

        应用程序问题是与将特定技术应用于特定领域相关的问题。例如,商业应用程序以盈利为导向,而医疗应用程序可能更注重准确性或计算效率。涉及不同应用程序领域的风险可能也很重要。例如,由于对客户细分不准确而产生的营销计划可能会导致金钱损失,但错误的患者诊断处方可能导致生命损失,这是完全不可接受的。因此,研究人员在进行BD/BI研究时需要考虑到应用领域特有的问题。

        管理问题包括影响采用业务流程/商业智能技术的因素、采用技术时的成本效益评估、业务流程/商业智能涉及的安全和隐私问题,以及采用业务流程/商业智能的组织准备情况(如人力资源)。有许多与采用信息技术有关的理论。它们有助于调查为什么采用或不采用BD/BI。从管理角度来看,安全和隐私问题也是一个大问题。

BD/BI的影响是另一个尚未深入研究的方面。以往的研究大多集中在业务流程/商业智能的积极一面,以促进技术的发展,但尚未证明业务流程/商业智能的价值创造或避免负面影响。大多数现有病例报告都是基于轶事证据。我们需要更多的大规模研究来验证BD/BI的价值,包括战略价值和管理价值。我们还需要研究BD/BI对个人生活、组织运作和社会活动的影响(积极和消极的)。例如,从移动应用程序(如谷歌地图)收集的用户的位置或交通数据如何在最小程度侵犯个人隐私的情况下增强社区的安全(或警察殴打)。

  • 29
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
使用 HISAT2 工具对 RNAseq 数据进行比对分析的基本步骤如下: 1. 准备好参考基因组的 HISAT2 索引文件和 RNAseq 数据,可以使用 HISAT2-build 工具创建索引文件,使用 fastq-dump 工具下载 RNAseq 数据。 2. 使用 HISAT2 工具将 RNAseq 数据比对到参考基因组上,生成 SAM/BAM 格式的比对结果。HISAT2 的命令格式如下: ``` hisat2 [options] -x <ht2-index> -U <reads.fastq> -S <samfile> ``` 其中,-x 选项指定 HISAT2 索引文件的路径,-U 选项指定 RNAseq 数据的路径,-S 选项指定输出的 SAM 格式文件的路径。 例如,假设 HISAT2 索引文件的前缀为 genome,RNAseq 数据的文件名为 sample.fastq,生成的 SAM 格式文件的文件名为 sample.sam,则比对命令如下: ``` hisat2 -x genome -U sample.fastq -S sample.sam ``` 3. 将 SAM 格式的比对结果转换成 BAM 格式,并进行排序和索引。可以使用 SAMtools 工具来完成这个过程,命令如下: ``` samtools view -bS <samfile> | samtools sort -o <sorted.bam> samtools index <sorted.bam> ``` 其中,<samfile> 是 HISAT2 生成的 SAM 格式文件的路径,<sorted.bam> 是排序后的 BAM 格式文件的路径。 4. 使用 StringTie 工具进行转录本重构和定量分析。StringTie 可以从 BAM 格式的比对结果中重构转录本,并进行定量分析。命令如下: ``` stringtie <sorted.bam> -G <annotation.gtf> -o <output.gtf> ``` 其中,<sorted.bam> 是排序后的 BAM 格式文件的路径,<annotation.gtf> 是已知基因组注释的 GTF 格式文件的路径,<output.gtf> 是 StringTie 输出的 GTF 格式文件的路径。 例如,假设已知基因组注释的 GTF 文件名为 annotation.gtf,StringTie 输出的 GTF 文件名为 output.gtf,则命令如下: ``` stringtie sorted.bam -G annotation.gtf -o output.gtf ``` 5. 根据需要进行其他分析,比如基因差异表达分析、富集分析等等。可以使用常见的生物信息学分析工具,比如 DESeq2、edgeR、GOseq 等等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

封印师请假去地球钓鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值