自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 80道数据挖掘单选题,背会了应付一般地面试,没有问题(下)

41.频繁项集、频繁闭项集、最大频繁项集之间的关系是: ©A、频繁项集 频繁闭项集 =最大频繁项集B、频繁项集 = 频繁闭项集 最大频繁项集C、频繁项集 频繁闭项集 最大频繁项集D、频繁项集 = 频繁闭项集 = 最大频繁项集42.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含(C)A、1,2,3,4B、1,2,3,

2021-07-29 10:21:07 2426

原创 80道数据挖掘单选题,背会了应付一般地面试,没有问题(上)

1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2.以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。A. Precision, RecallB. Recall, PrecisionC. Precision, ROCD. Recall, ROC3.将原始数据进行集成、变换、

2021-07-28 11:54:17 847

原创 用Python做数据分析之数据筛选及分类汇总

1、按条件筛选(与,或,非)为数据筛选,使用与,或,非三个条件配合大于,小于和等于对数据进行筛选,并进行计数和求和。与 excel 中的筛选功能和 countifs 和 sumifs 功能相似。Excel 数据目录下提供了“筛选”功能,用于对数据表按不同的条件进行筛选。Python 中使用 loc 函数配合筛选条件来完成筛选功能。配合 sum 和 count 函数还能实现 excel 中 sumif 和 countif 函数的功能。1)使用“与”条件进行筛选条件是年龄大于 25 岁,并且城市为 be

2021-07-27 10:33:02 10696

原创 数据分析过程中,发现数值缺失,怎么办?

按照数据缺失机制,数据分析过程中,我们可以将其分为以下几类:(1)完全随机缺失(MCAR):所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。(2)随机缺失(MAR):假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。(3)不可忽略的缺失(NIM):亦称为非随机缺失,即如果不完全变量中,数据的缺失既依赖于完全变量又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。那么,对于缺失值,我们应该如何处理呢?

2021-07-22 10:34:23 3562

原创 Linux sudo权限绕过漏洞详解

最近大热的bug时间,就是Linux sudo权限绕过漏洞CVE-2019-14287事件,对此,我们做了一些研究。虽然各大平台已经把核心的东西晒出来了,但是,因为目前没有说的特别完整的,所以,笔者研究一番后,总算是把这个过程都弄明白了。关于sudo的定义,我们就不细说了,不了解的小伙伴可以问度娘。这里我们主要说一下漏洞的问题。本漏洞存在于sudo 1.8.28之前的版本,随便打开个虚拟机看看当前版本。如果版本没有问题,那就直接开撸。先附上发现者苹果信息安全部门Joe Vennix的原文:从这里

2021-07-21 11:14:02 1060 2

原创 用Python做数据分析之生成数据表

第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。获取外部数据python 支持从多种类型的数据导入。在开始使用 python 进行数据导入前需要先导入 pandas 库,为了方便起见,我们也同时导入 numpy 库。1 import numpy as np2 import pandas as pd导入数据表下面分别是从 excel 和 csv 格式文件导入数据

2021-07-20 10:54:27 3188

原创 数据分析的理念、流程、方法、工具(下)

四、用户分群1、用户分群用户分群是精细化运营的基础要求,也是数据分析的最基础方式。对用户进行分群,能帮助我们了解每个细分群体用户的变化情况,进而了解用户的整体现状及发展趋势。同时,由于运营资源本身有限,不可能真的做到一对一的个性化运营,但针对群体的运营是十分必要的。2、用户分群模型用户分群的首要任务是根据具体的业务场景,确定不同的分类规则,给出清晰的定义。AARRR模型分群法借鉴增长黑客AARRR模型,可以把用户分为注册用户:通过不同获客渠道完成注册的用户。活跃用户:注册且登陆的用户。

2021-07-14 11:48:56 241 1

原创 数据分析的理念、流程、方法、工具(上)

一、数据的价值1、数据驱动企业运营从电商平台的「猜你喜欢」到音乐平台的「心动模式」,大数据已经渗透到了我们生活的每一个场景。不论是互联网行业,还是零售业、制造业等,各行各业都在依托互联网大数据(数据采集、数据存储、数据处理、数据挖掘、数据分析、数据呈现)实现企业价值。企业中数据从产生到应用依次要经过数据源层、数据仓库层、数据建模层,最后到数据应用层,经过层层加工逐渐支持到上游的应用环节。数据应用层是数据产生价值的出口,通过数据挖掘、用户画像建模、推荐算法的制定,可实现千人千面的个性化内容推荐。「个

2021-07-13 11:21:52 319

原创 抽丝剥茧的数据分析之道

不得不说,当今社会,就是一个用数据说话的时代,更是一个依靠“数据秘密”,从众多竞争者中脱颖而出的时代。麦肯锡公司曾经发表过这样一段经典言论:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”在世界500强企业中,90%以上的企业,都有自己专门的数据情报收集部门。由此可见,数据分析对工作的影响也就不言而喻了。那么,对于数据分析者来说,他们每天的工作是什么呢?又需要掌握哪些技能?今天,就让我们抽丝剥茧,来了解数据分析行业那些你既了解,又了解不多的内容。1、解构数据分析我们字面拆解:数

2021-07-12 11:44:59 408

原创 商业智能BI和数据可视化的区别

现在市场上有非常多的商业智能BI产品,几乎都在着重宣传其数据可视化功能的强大,给人造成一种商业智能BI就是数据可视化的印象。事实上商业智能BI并不等于数据可视化。要探究商业智能BI和数据可视化的区别,我们先要分别弄清楚这两个概念。1、什么是数据可视化?数据可视化起源于18世纪,William Playfair在他出版的书籍《The Commercial and Political Atlas》中第一次使用了柱形图和折线图。当时是为了表示国家的进出口量,在今天依旧这么使用。19世纪初,他出版了《 St

2021-07-08 10:53:47 953

原创 菜鸟进阶数据大牛:如何系统学习BI商业智能

在这个信息爆炸式增长的时代,挖掘数据的潜在价值尤为重要,越来越多的人将目光聚集于商务智能BI领域。通过数据分析软件对来自不同的数据源进行统一的处理和管理,并以灵活的方式展示数据之间的联系,辅助企业进行决策。在BI越发重要的今天,如何学习BI应用并熟练掌握它呢?总结一下,大致需要从五个方向着手:1)学习数据库知识,掌握基础技能sql直白来讲,BI就是玩数据的,从数据中获取各种所需信息。因为BI的出发点是数据,希望能够从数据分析中得到有价值的信息,所以从事BI相关的工作是绝对离不开数据库的。2)技术方面

2021-07-07 11:54:49 443

原创 数据分析2021年最实用工具排名前6位出炉

对于数据分析工具,我们通过会有一个疑问,在众多的数据分析工具中,到底有什么区别,哪一个更好,我又应该学习哪一个呢?虽然这是一个老生常谈的问题了,但它却是非常重要,我也一直在努力寻找最终的答案。如果你到网上去搜索相关的问题,很难得到一个完全公正的观点。因此,我们通过调查问卷,采访了多位数据分析师,得出了数据分析行业最实用的数据分析工具,前6位结果如下:1、ExcelExcel 具有多种强大的功能,诸如创建表单、数据透视表和 VBA 编程等,其强大的功能令任何数据分析工具都无法超越它,从而确保人们可以根据

2021-07-06 11:17:57 1474

原创 这样学Python,数据分析从0到1轻松入门(下)

5、编写第一个Python代码程序在完成完成Anaconda之后,我们就可以进入Jupyter Notebook了。在键盘上按下Windows键+R键,在弹出的运行窗口中输入CMD后点击确定然后将会弹出一个CMD命令窗口,在窗口内输入Jupyter NoteBook,然后敲击回车就可以进入浏览器窗口了,记住这个CMD窗口在回车后会进入Jupyter NoteBook的本地服务器模式,记得不要关闭这个窗口哦,不然就没办法运行Python了。在弹出的浏览器窗口中,新建一个Python3的文件6、

2021-07-05 10:28:04 626 2

原创 传说中的数据挖掘工程师,究竟是做什么的?

数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣最多等。进一步,可以基于用户的浏览、点击、收藏、购买等行为推断用户的年龄、性别、购买能力、爱好等能表示一个人的画像,就相当于用这些挖掘出来的属性来刻画一个人,这些还是最简单的东西,更深层次的比如预测(股票预测),但是比较难。1、数据挖掘的过往说到数据挖掘。往往与机器学习离不开。比如分类、聚类、关联规则挖掘、个性化推荐、预测、神经网络、深度学习等。很多

2021-07-01 11:00:14 1211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除