数据挖掘与分析应用复习题:笔记1

文章讨论了在当前就业市场环境下,技术人才如何适应变化,特别是算法和开发岗位的融合。提到了学习Oracle数据库的重要性,尤其是对于网络安全和公共部门职位。同时,强调了数据挖掘的知识,如SQL和Oracle,以及它们在数据仓库和统计分析中的应用。文章还涵盖了Hive在大数据处理中的角色,异常值检测,以及数据仓库测试和数据清理的相关概念。
摘要由CSDN通过智能技术生成

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲


文章目录

某小区居民订晚报60%,订青年报45%,两报均订30%,随机抽一户,至少订一种报纸的概率是

A
B
至少定一种的概率就是要么是定A,要么定B,要么AB
AB其实包含在A,或B中
需要减掉
P(A并B)=P(A)+P(B)-P(AB)
即0.6+0.4-0.3=0.75

关于统计学和大数据之间的关系,下列说法错误的是:

在这里插入图片描述
对于大数据来说,统计学的研究对象

统计学的研究对象是客观现象总体数量特征和数量关系

它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。

由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究。

不论你数据多少,大数据的研究对象仍然是这些总体数量特征和数量的关系

下列说明错误的是( )

A.
性别=“男”=> 职业=“司机”,是布尔型关联规则
B.
性别=“女”=> avg(收入)=2300,是一个数值型关联规则
C.
肝炎=> ALT(丙氨酸转氨酶)升高,是一个单层关联规则
D.
性别=“女”=> 职业=“秘书”,是多维关联规则
在这里插入图片描述
肝炎=> ALT(丙氨酸转氨酶)升高,是一个较高层次和细节层次之间的多层关联规则。

Hive,hive是基于Hadoop的一个数据仓库工具

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
在这里插入图片描述

描述其集中趋势用 最为适宜,其值是,集中趋势永远是众数

在这里插入图片描述
在这里插入图片描述

《个人信息保护法》执行时间

在这里插入图片描述

检测一元正态分布中的离群点,属于异常值检测中的基于 的离群点检测

在这里插入图片描述

建立线性回归之前,我们可以利用哪种方法挑选重要属性,以降低模型的复杂度?

在这里插入图片描述

设置置信概率和置信区间的异常值判断方法为:统计判别法

在这里插入图片描述

spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?

R平方越大(趋近于1)说明你拟合的曲线和实际曲线越趋近,当然效果越好了。

ODS是指数据仓库

在这里插入图片描述
ODS全称为Operational Data Store,是用来存储多个数据源业务数据的系统,其数据用来支持业务流程或者输入到数据仓库中进行分析。

是操作型数据存储,是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合。ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征。

在这里插入图片描述

简单随机重复抽样,平均误差降低50%,则样本容量扩大4倍

为啥呢
原来比如误差是1/2
则1个错误
现在错误是降低1/2
那就是1/4的误差
样本容量不就是要4吗

在这里插入图片描述

下列哪个不是大数据提供的用户交互方式

在这里插入图片描述

检查异常值常用的统计图形是:箱线图

在这里插入图片描述
箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间
上下四分位数,专门用来卡异常值的

在这里插入图片描述
正常 是竖线箱子中的数据
*

o
都是异常值

帕累托图,是“二八原则”的图形化体现。二八法则又叫帕累托法则,最早是由意大利经济学家帕累托发现的。

在这里插入图片描述

二八原则认为:80%的财富掌握在20%的人手里,在实际应用场景中帕累托法则的作用就是找到对象中的关键因素,经常会用在销售管理、个人规划等方面。

SPSSAU提供的帕累托图分析,可以帮助从多项因素中快速科学地找出最重要因素,便于研究者提出更有针对性的建议和解决措施。

案例:当前有一项关于‘员工离职原因’的调研,使用问卷收集100份数据,现希望使用图形直观地展示出员工离职的重要原因。
在这里插入图片描述
在这里插入图片描述
通过从最大到最小的原因排序,可以展示出哪些因素是至关重要项,哪些因素是微不足道的。

结合智能分析总结可知,资待遇与福利、公司发展前景与预期落差大、激励机制较差、晋升机会少、当前职业无法发挥个人专长、工作压力较大、工作缺少成就感、上级处事方式较差共7个离职因素,占总数的80%左右是需要关注的原因。

其中“工资待遇与福利水平较差”是主要原因,应重点关注。
”公司发展前景与预期落差大”、“激励机制较差”、“晋升机会少”也都属于待遇福利等与收入相关的因素,可以将其归为一类原因关注。

其次,“当前职业无法发挥个人专长”、“工作压力较大”、“工作缺少成就感”属于软性方面的问题,更多与工作自身属性相关项,说明应该在招聘员工时加大关注员工兴趣与工作匹配度。

实际由源业务系统自动接入的指标数据,占应接指标总数的比例为:

在这里插入图片描述

假设检验中,拒绝域的边界称为:临界值

在这里插入图片描述

大数据不是泛指单一的数据集

在这里插入图片描述
在这里插入图片描述

数据收集的标准为相关、可靠、失效性高

在这里插入图片描述

《中华人民共和国数据安全法》中的数据,是任何电子、或者以其他方式对【信息】的记录

在这里插入图片描述
不管你是啥数据,都是记录的信息

下列不是原始数据的来源的是:年鉴

因为年鉴已经是高度处理过的集成的结果了
在这里插入图片描述

数据挖掘技术的三个主要部分:

数据、建模能力、算法与技术
在这里插入图片描述

矩形树装结构图,用以展示树状结构数据

在这里插入图片描述
使用矩形树图呈现出了
英国在76小时没有煤的情况下,电力生成占比情况,
由图可以看出在没有燃煤发电的情况下,燃油、核能、风能发电、太阳能发电等共同构成了电力来源,
其中,以燃油发电(Gas)占比最多,核能和新能源发电占比都在其之后
在这里插入图片描述

excel工作表中,单元格内不能输入*数字来输入数值

在这里插入图片描述

有关数据仓库的测试,说法不正确的是

在这里插入图片描述
在这里插入图片描述
没必要测试就离谱了

Apriori算法

给你一个表,给定可信度,支持度
在这里插入图片描述
问题1:请你找出频繁项集
问题2:强关联规则都有哪些?

在这里插入图片描述
问题1:请你找出频繁项集
频繁1项集,2,3,4,5。。。

找频繁1项集:标准是,支持度50%
这里四个id,就是4个项,那支持度标杆就是4*50%=2

根据标杆找项集
那出现次数大于2次的项是谁呢?
在这里插入图片描述
1出现了两次
2出现3次
3出现了3次
4出现了1次
5出现了3次

所以咱们的频繁1项集为(1,2,3,5)
这就是频繁1项集

再寻找频繁2项集
老样子,我们要用这个表了
在这里插入图片描述
12在原始表格中,出现了2次吗?【标杆是2】
12出现了1次
13出现了2次
15出现1次
23出现了2次
25出现了3次
35出现了2次
所以,频繁2项集是:
(13,23,25,35)

下一步找频繁3项集
又是去组合这个表
在这里插入图片描述
咱们看看
同类项合并,2个项中首项相同的,才有必要拼接【记住这个特性】
【(原来是随机组合,但是没必要)】
23和25是首项同,拼
235出现了2次
所以频繁3集只有(235)
频繁4项集凑不出来了目前就结束
所以频繁集就出来了。
在这里插入图片描述

问题2:强关联规则都有哪些?

强关联的标杆是啥?
可信度70%
看3项集中的东西
23->5推出
32->5
25->3
52->3
35->2
53->2

一个个算它的可信度:
23->5推出
32->5:
235出现的次数2
除以
23出现的次数2
2除以2=1

25->3
52->3
235出现的次数2
除以
25出现的次数3
2除以3=0.67【不足】

35->2
53->2
235出现的次数2
除以
35出现的次数2
2除以2=1

再根据频繁2项集找最大关联规则

老样子,看2项集
(13,23,25,35)
13出现2次
1出现2次
3出现3次
1->3则就是2/2=1
3->1的话,就是2/3,小于0.7
不行
反正就这么去推理即可

这样的话,超过可信度70%的那些都是强关联规则
懂?

这就是apriori算法
贼溜

所这道题你能理解吗
在这里插入图片描述
在这里插入图片描述

数据库的冗余性很低,不然我设计你做啥

在这里插入图片描述

反应客户的忠诚度:购买频次

在这里插入图片描述

5年后净现值为4500万,折现率为16%,终值为

现值*系数=终值
系数=(1+i)r(次方)

系数(1+0.16)^5
1.16的5次方=2
4500×2就是答案
在这里插入图片描述

数据再规定时间前和频度周期内接入系统的比例为

在这里插入图片描述

数据正规化在知识挖掘处理中的:数据编码阶段

在这里插入图片描述

关联分析,知道买蘑菇,就是要炖鸡了

在这里插入图片描述

四分位数不会受异常值的影响

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字.
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字.第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字.

排序后,找排序属于0.25和0.75未知的数
在这里插入图片描述

大数据应用需求分为年度需求和即时需求

在这里插入图片描述

数据仓库的最终目的是:

在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰露可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值