定性和定量大数据分析方法指南

  定性和定量大数据分析方法?我们看到数据时想到的第一件事是什么?第一个本能是找到模式,联系和关系。我们查看数据以发现其中的含义。

  同样,在研究中,一旦收集了数据,下一步就是从中获取见解。例如,如果服装品牌试图确定年轻女性的最新趋势,那么该品牌将首先与年轻女性接触,并向她们询问与研究目标相关的问题。在收集了这些信息之后,该品牌将分析该数据以识别样式-例如,它可能会发现大多数年轻女性希望看到更多的牛仔裤。

  大数据分析是研究人员从大量数据到有意义的见解的方式。取决于研究类型,有许多不同的大数据分析方法。您可以使用以下几种方法来分析定量和定性数据。

  分析不良数据非常困难。通过我们的博客“ 4种数据收集技术:哪个适合您?”,确保您正在收集高质量的数据 。

  分析定量数据

  资料准备

  分析数据的第一步是数据准备,其目的是将原始数据转换为有意义且可读的内容。它包括四个步骤:

  步骤1:资料验证

  数据验证的目的是尽可能地找出数据收集是否按照预设的标准进行并且没有任何偏差。这是一个四步过程,其中包括…

  欺诈,以推断每个受访者是否真正接受了采访。

  筛选,以确保根据研究标准选择了受访者。

  Procedure,以检查是否已正确执行数据收集过程。

  完整性,以确保访调员向受访者提出所有问题,而不仅仅是几个必填问题。

  为此,研究人员需要从已完成的调查中随机抽取一个样本并验证收集到的数据。(请注意,这对于包含大量回复的调查可能会非常耗时。)例如,假设有一个200名受访者被分为两个城市的调查。研究人员可以从每个城市中随机抽取20名受访者作为样本。此后,研究人员可以通过电子邮件或电话与他们联系,并检查他们对某些问题的回答。

  首先检查18个数据验证,这些数据验证可防止不良数据进入您的数据集。

  

大数据分析

 

  步骤2:资料编辑

  通常,大数据集包含错误。例如,受访者可能会错误填写字段或意外跳过字段。为了确保没有此类错误,研究人员应进行基本数据检查,检查异常值,并编辑原始研究数据,以识别和清除所有可能影响结果准确性的数据点。

  例如,错误可能是被调查者留空的字段。编辑数据时,确保删除或填充所有空白字段非常重要。(这里有4种方法来处理丢失的数据。)

  步骤3:资料编码

  这是数据准备中最重要的步骤之一。它是指对调查的答复进行分组和分配值。

  例如,如果研究人员访问了1000人,现在想查找受访者的平均年龄,则研究人员将创建年龄段,并根据这些代码对每个受访者的年龄进行分类。(例如,年龄在13-15岁之间的受访者将其年龄编码为0,将16-18编码为1,将18-20编码为2,等等)

  然后,在分析过程中,研究人员可以处理简化的年龄段,而不是处理大量的个人年龄段。

  定量大数据分析方法

  完成这些步骤后,就可以进行大数据分析了。两种最常用的定量大数据分析方法是描述性统计和推断性统计。

  描述性统计

  通常,描述性统计(也称为描述性分析)是分析的第一级。它可以帮助研究人员汇总数据并找到模式。一些常用的描述性统计数据是:

  平均值:一组值的数值平均值。

  中位数:一组数值的中点。

  模式:一组值中最常见的值。

  百分比:用于表示数据中的一个值或一组答复者与较大的一组答复者之间的关系。

  频率:找到值的次数。

  范围:一组值中的最高和最低值。

  描述性统计信息提供绝对数字。但是,他们没有解释这些数字背后的理由或理由。在应用描述性统计之前,重要的是要考虑哪一个最适合您的研究问题以及您想展示什么。例如,百分比是显示受访者性别分布的好方法。

  当研究仅限于样本并且不需要推广到更大的人群时,描述性统计最有用。例如,如果您比较两个不同村庄中接种疫苗的儿童的百分比,则描述性统计就足够了。

  由于描述性分析主要用于分析单个变量,因此通常称为单变量分析。

  

大数据分析

 

  分析定性数据

  定性大数据分析的工作原理与定量数据有所不同,主要是因为定性数据是由单词,观察值,图像甚至符号组成的。从这样的数据中得出绝对含义几乎是不可能的。因此,它主要用于探索性研究。虽然在定量研究中,数据准备阶段和大数据分析阶段之间存在明显的区别,但定性研究的分析通常在数据可用后立即开始。

  数据准备和基本大数据分析

  分析和准备工作并行进行,包括以下步骤:

  熟悉数据:由于大多数定性数据只是文字,因此研究人员应先读取数据几次以熟悉数据,然后开始寻找基本的观察结果或模式。这也包括转录数据。

  重新研究目标:在这里,研究人员重新审查研究目标,并确定可以通过收集的数据回答的问题。

  开发框架:也称为编码或索引,在这里研究人员识别出广泛的想法,概念,行为或短语,并为其分配代码。例如,编码年龄,性别,社会经济地位,甚至概念,例如对问题的肯定或否定回答。编码有助于结构化和标记数据。

  识别模式和联系:对数据进行编码后,研究就可以开始确定主题,寻找最常见的问题答案,识别可以回答研究问题的数据或模式,并找到可以进一步探索的领域。

  

大数据分析

 

  定性大数据分析方法

  有几种方法可用于分析定性数据。最常用的大数据分析方法是:

  内容分析:这是分析定性数据的最常用方法之一。它用于分析文本,媒体甚至物理项目形式的文档信息。何时使用此方法取决于研究问题。内容分析通常用于分析受访者的回答。

  叙事分析:此方法用于分析各种来源的内容,例如受访者的访谈,实地观察或调查。它着重于利用人们分享的故事和经验来回答研究问题。

  话语分析:话语分析与叙事分析一样,用于分析与人的互动。但是,它着重于分析研究者与受访者之间进行交流的社会环境。话语分析还会查看受访者的日常环境,并在分析过程中使用该信息。

  扎根理论:这是指使用定性数据来解释为什么发生某种现象。它通过在不同的环境中研究各种相似的案例并使用数据得出因果关系来做到这一点。研究人员在研究更多案例时可能会更改解释或创建新的解释,直到得出适合所有案例的解释。

  这些方法是最常用的方法。但是,也可以使用其他大数据分析方法,例如会话分析。

  大数据分析也许是研究中最重要的组成部分。较弱的分析会产生不准确的结果,不仅会影响研究的真实性,还会使发现无法使用。必须谨慎选择大数据分析方法,以确保您的发现具有洞察力和可操作性。

 

摘自:https://www.aaa-cg.com.cn/data/2163.html

分享产生价值! A valuable new edition of a standard reference "A 'must-have' book for anyone expecting to do research and/or applications in categorical data analysis." –Statistics in Medicine on Categorical Data Analysis, First Edition The use of statistical methods for categorical data has increased dramatically, particularly for applications in the biomedical and social sciences. Responding to new developments in the field as well as to the needs of a new generation of professionals and students, this new edition of the classic Categorical Data Analysis offers a comprehensive introduction to the most important methods for categorical data analysis. Designed for statisticians and biostatisticians as well as scientists and graduate students practicing statistics, Categorical Data Analysis, Second Edition summarizes the latest methods for univariate and correlated multivariate categorical responses. Readers will find a unified generalized linear models approach that connects logistic regression and Poisson and negative binomial regression for discrete data with normal regression for continuous data. Adding to the value in the new edition is coverage of: Three new chapters on methods for repeated measurement and other forms of clustered categorical data, including marginal models and associated generalized estimating equations (GEE) methods, and mixed models with random effects Stronger emphasis on logistic regression modeling of binary and multicategory data An appendix showing the use of SAS for conducting nearly all analyses in the book Prescriptions for how ordinal variables should be treated differently than nominal variables Discussion of exact small-sample procedures More than 100 analyses of real data sets to illustrate application of the methods, and more than 600 exercises An Instructor's Manual presenting detailed solutions to all the problems in the book is available from the Wiley editorial department.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值