数据挖掘与分析应用复习题：笔记1

冰露可乐

于 2023-03-16 12:26:34 发布

阅读量960

点赞数

分类专栏：数据挖掘文章标签：数据挖掘大数据数据仓库

本文链接：https://blog.csdn.net/weixin_46838716/article/details/129578419

版权

数据挖掘专栏收录该内容

86 篇文章

订阅专栏

文章讨论了在当前就业市场环境下，技术人才如何适应变化，特别是算法和开发岗位的融合。提到了学习Oracle数据库的重要性，尤其是对于网络安全和公共部门职位。同时，强调了数据挖掘的知识，如SQL和Oracle，以及它们在数据仓库和统计分析中的应用。文章还涵盖了Hive在大数据处理中的角色，异常值检测，以及数据仓库测试和数据清理的相关概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开
测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库
这oracle比sql安全，强大多了，所以你需要学习，最重要的，你要是考网络警察公务员，这玩意你不会就别去报名了，耽误时间！
与此同时，既然要考网警之数据分析应用岗，那必然要考数据挖掘基础知识，今天开始咱们就对数据挖掘方面的东西好生讲讲

文章目录

@[TOC](文章目录)

某小区居民订晚报60%，订青年报45%，两报均订30%，随机抽一户，至少订一种报纸的概率是
关于统计学和大数据之间的关系，下列说法错误的是：
下列说明错误的是( )
Hive，hive是基于Hadoop的一个数据仓库工具
描述其集中趋势用最为适宜，其值是，集中趋势永远是众数
《个人信息保护法》执行时间
检测一元正态分布中的离群点，属于异常值检测中的基于的离群点检测
建立线性回归之前，我们可以利用哪种方法挑选重要属性，以降低模型的复杂度？
设置置信概率和置信区间的异常值判断方法为：统计判别法
spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?
ODS是指数据仓库
简单随机重复抽样，平均误差降低50%，则样本容量扩大4倍
下列哪个不是大数据提供的用户交互方式
检查异常值常用的统计图形是：箱线图
帕累托图，是“二八原则”的图形化体现。二八法则又叫帕累托法则，最早是由意大利经济学家帕累托发现的。
实际由源业务系统自动接入的指标数据，占应接指标总数的比例为：
假设检验中，拒绝域的边界称为：临界值
大数据不是泛指单一的数据集
数据收集的标准为相关、可靠、失效性高
《中华人民共和国数据安全法》中的数据，是任何电子、或者以其他方式对【信息】的记录
下列不是原始数据的来源的是：年鉴
数据挖掘技术的三个主要部分：
矩形树装结构图，用以展示树状结构数据
excel工作表中，单元格内不能输入*数字来输入数值
有关数据仓库的测试，说法不正确的是
Apriori算法
数据库的冗余性很低，不然我设计你做啥
反应客户的忠诚度：购买频次
5年后净现值为4500万，折现率为16%，终值为
数据再规定时间前和频度周期内接入系统的比例为
数据正规化在知识挖掘处理中的：数据编码阶段
关联分析，知道买蘑菇，就是要炖鸡了
四分位数不会受异常值的影响
大数据应用需求分为年度需求和即时需求
数据仓库的最终目的是：
总结

某小区居民订晚报60%，订青年报45%，两报均订30%，随机抽一户，至少订一种报纸的概率是

A
B
至少定一种的概率就是要么是定A，要么定B，要么AB
AB其实包含在A，或B中
需要减掉
P(A并B）=P（A）+P（B）-P（AB）
即0.6+0.4-0.3=0.75

关于统计学和大数据之间的关系，下列说法错误的是：

在这里插入图片描述
对于大数据来说，统计学的研究对象

统计学的研究对象是客观现象总体数量特征和数量关系。

它是通过搜集、整理、分析统计资料，认识客观现象数量规律性的方法论科学。

由于统计学的定量研究具有客观、准确和可检验的特点，所以统计方法就成为实证研究的最重要的方法，广泛适用于自然、社会、经济、科学技术各个领域的分析研究。

不论你数据多少，大数据的研究对象仍然是这些总体数量特征和数量的关系

下列说明错误的是( )

A.
性别=“男”=> 职业=“司机”,是布尔型关联规则
B.
性别=“女”=> avg(收入)=2300,是一个数值型关联规则
C.
肝炎=> ALT(丙氨酸转氨酶)升高,是一个单层关联规则
D.
性别=“女”=> 职业=“秘书”,是多维关联规则
在这里插入图片描述
肝炎=> ALT(丙氨酸转氨酶)升高,是一个较高层次和细节层次之间的多层关联规则。

Hive，hive是基于Hadoop的一个数据仓库工具

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
在这里插入图片描述

描述其集中趋势用最为适宜，其值是，集中趋势永远是众数

在这里插入图片描述

《个人信息保护法》执行时间

在这里插入图片描述

检测一元正态分布中的离群点，属于异常值检测中的基于的离群点检测

在这里插入图片描述

建立线性回归之前，我们可以利用哪种方法挑选重要属性，以降低模型的复杂度？

在这里插入图片描述

设置置信概率和置信区间的异常值判断方法为：统计判别法

在这里插入图片描述

spss回归分析得出的R方值、F值、t值各有何含义,数值大小有何含义?

R平方越大(趋近于1)说明你拟合的曲线和实际曲线越趋近,当然效果越好了。

ODS是指数据仓库

在这里插入图片描述
ODS全称为Operational Data Store，是用来存储多个数据源业务数据的系统，其数据用来支持业务流程或者输入到数据仓库中进行分析。

是操作型数据存储，是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合。ODS是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征。

在这里插入图片描述

简单随机重复抽样，平均误差降低50%，则样本容量扩大4倍

为啥呢
原来比如误差是1/2
则1个错误
现在错误是降低1/2
那就是1/4的误差
样本容量不就是要4吗

在这里插入图片描述

下列哪个不是大数据提供的用户交互方式

在这里插入图片描述

检查异常值常用的统计图形是：箱线图

在这里插入图片描述
箱线图的绘制方法是：先找出一组数据的上边缘、下边缘、中位数和两个四分位数；然后，连接两个四分位数画出箱体；再将上边缘和下边缘与箱体相连接，中位数在箱体中间
上下四分位数，专门用来卡异常值的

在这里插入图片描述
正常是竖线箱子中的数据
*
和
o
都是异常值

帕累托图，是“二八原则”的图形化体现。二八法则又叫帕累托法则，最早是由意大利经济学家帕累托发现的。

在这里插入图片描述

二八原则认为：80%的财富掌握在20%的人手里，在实际应用场景中帕累托法则的作用就是找到对象中的关键因素，经常会用在销售管理、个人规划等方面。

SPSSAU提供的帕累托图分析，可以帮助从多项因素中快速科学地找出最重要因素，便于研究者提出更有针对性的建议和解决措施。

案例：当前有一项关于‘员工离职原因’的调研，使用问卷收集100份数据，现希望使用图形直观地展示出员工离职的重要原因。
在这里插入图片描述

通过从最大到最小的原因排序，可以展示出哪些因素是至关重要项，哪些因素是微不足道的。

结合智能分析总结可知，资待遇与福利、公司发展前景与预期落差大、激励机制较差、晋升机会少、当前职业无法发挥个人专长、工作压力较大、工作缺少成就感、上级处事方式较差共7个离职因素，占总数的80%左右是需要关注的原因。

其中“工资待遇与福利水平较差”是主要原因，应重点关注。
”公司发展前景与预期落差大”、“激励机制较差”、“晋升机会少”也都属于待遇福利等与收入相关的因素，可以将其归为一类原因关注。

其次，“当前职业无法发挥个人专长”、“工作压力较大”、“工作缺少成就感”属于软性方面的问题，更多与工作自身属性相关项，说明应该在招聘员工时加大关注员工兴趣与工作匹配度。

实际由源业务系统自动接入的指标数据，占应接指标总数的比例为：

在这里插入图片描述

假设检验中，拒绝域的边界称为：临界值

在这里插入图片描述

大数据不是泛指单一的数据集

在这里插入图片描述

数据收集的标准为相关、可靠、失效性高

在这里插入图片描述

《中华人民共和国数据安全法》中的数据，是任何电子、或者以其他方式对【信息】的记录

在这里插入图片描述
不管你是啥数据，都是记录的信息

下列不是原始数据的来源的是：年鉴

因为年鉴已经是高度处理过的集成的结果了
在这里插入图片描述

数据挖掘技术的三个主要部分：

数据、建模能力、算法与技术
在这里插入图片描述

矩形树装结构图，用以展示树状结构数据

在这里插入图片描述
使用矩形树图呈现出了
英国在76小时没有煤的情况下，电力生成占比情况，
由图可以看出在没有燃煤发电的情况下，燃油、核能、风能发电、太阳能发电等共同构成了电力来源，
其中，以燃油发电(Gas)占比最多，核能和新能源发电占比都在其之后
在这里插入图片描述

excel工作表中，单元格内不能输入*数字来输入数值

在这里插入图片描述

有关数据仓库的测试，说法不正确的是

在这里插入图片描述

没必要测试就离谱了

Apriori算法

给你一个表，给定可信度，支持度
在这里插入图片描述
问题1：请你找出频繁项集
问题2：强关联规则都有哪些？

在这里插入图片描述
问题1：请你找出频繁项集
频繁1项集，2,3，4,5。。。

找频繁1项集：标准是，支持度50%
这里四个id，就是4个项，那支持度标杆就是4*50%=2

根据标杆找项集
那出现次数大于2次的项是谁呢？
在这里插入图片描述
1出现了两次
2出现3次
3出现了3次
4出现了1次
5出现了3次

所以咱们的频繁1项集为（1,2，3,5）
这就是频繁1项集

再寻找频繁2项集
老样子，我们要用这个表了
在这里插入图片描述
12在原始表格中，出现了2次吗？【标杆是2】
12出现了1次
13出现了2次
15出现1次
23出现了2次
25出现了3次
35出现了2次
所以，频繁2项集是：
（13,23,25,35）

下一步找频繁3项集
又是去组合这个表
在这里插入图片描述
咱们看看
同类项合并，2个项中首项相同的，才有必要拼接【记住这个特性】
【（原来是随机组合，但是没必要）】
23和25是首项同，拼
235出现了2次
所以频繁3集只有（235）
频繁4项集凑不出来了目前就结束
所以频繁集就出来了。
在这里插入图片描述