![](https://img-blog.csdnimg.cn/430d7e71bd3046718c5c8902021969ba.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
文章平均质量分 71
数据科学导论、大数据分析与挖掘、大数据可视化技术、大数据分析与挖掘
黄乐荣
打工赚钱!
展开
-
大数据分析与挖掘期末复习
第5章聚类:聚类:算法:基于划分、基于层次、基于密度、基于网格。(选择题:给你个算法让你判断他是那个类型的算法?让你找选项里面那个是或者那个不是这类算法。)距离的度量:会计算欧氏距离、杰卡德距离;(判断、选择题):有无量纲,(幂距离(有量纲)、欧氏距离(有量纲,标准化欧氏距离是针对简单欧式距离做的改进方案,可以消除不同属性的量纲差异化所带的影响)、曼哈顿距离、兰氏距离(无量纲,其消除了量纲)、马氏距离(无量纲,其不受量纲影响)、杰卡德距离、余弦相似度(有量纲,需要进行无量纲化操作))。原创 2021-03-27 18:05:32 · 4631 阅读 · 10 评论 -
等宽等深-局部平滑
噪声数据:是指数据中存在着错误或异常(偏离异常值)的数据,这些数据对数据分析造成了干扰。即无意义数据,现阶段的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被源程序读取和运用的数据,不管是已经接受、存贮的还是改变的,都成为噪声。噪声产生的原因有:数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致因为噪声对数据分析造成了干扰,所以我们需要去掉噪声或者平滑数据。现在介绍一种初级的方法:分箱“分箱”是将属性的值域划分成若干连续子区间。如果一个属性原创 2021-01-01 22:43:51 · 6935 阅读 · 0 评论 -
水库抽样
输入:一组数据,其大小未知输出:这组数据的K个均匀抽样要求:仅扫描数据一次 空间复杂性为O(K)【和抽样大小有关,和整个数据量无关,不可把所有数据都放在内存里进行抽样】 扫描到数据的前n个数字时(n>K),保存当前已扫描数据的K个均匀抽样针对此种需求,水库抽样法应运而生算法步骤:申请一个长度为K的数组A保存抽样 保存首先接收到的K个元素 当接收到第 i 个新元素 t 时,以 K / i 的概率随机替换A中的元素(即生成 [ 1, i ]间随机数j,若 j ≤ K,则以 .原创 2021-01-01 01:05:11 · 1079 阅读 · 1 评论 -
FP-Growth算法
给定一个包含K个项的事务数据库T,所有可能的候选项有个,如果将这些项按照层次结构组织,自上而下项集的长度逐层增加1。那么Apriori算法在本质上是按照层次自上而下搜索所有可能的项集,我们可以将其看作为一种“广度优先搜索策略”。如果K比较大,那么产生的候选项个数将非常大,且扫描数据库的次数以及匹配候选项集的操作也会大大增加。针对Apriori算法的缺点,Frequent-Pattern Growth(FP-Growth)算法给出了一种不需要产生候选项集的频繁项挖掘算法。下面为Apriori和FP..原创 2020-10-22 21:53:49 · 2459 阅读 · 1 评论 -
电商平台零售数据分析
本次目标主要是利用RFM模型对用户进行分类。通过对比分析不同用户群体在时间、地区等维度下的交易量、交易金额等,总结分析结果并提出优化建议。R(Recently):最近一次的消费时间F(Frequency):消费频率(单位时间的消费次数)M(Money):消费金额(单位时间的消费金额)本次数据来源于在线零售业务的交易数据,以下是礼品数据的相关字段:InvoiceNO:订单编号,每笔交易有六个整数,退货订单编号开头有字母“C”StockCode:产品编号,由五个整数组成Descrip原创 2020-10-16 16:45:40 · 1413 阅读 · 2 评论 -
PySpark+Windows开发环境的搭建
anaconda的安装与环境配置 java的安装与环境配置 scala的安装与环境配置 hadoop的安装与环境配置 spark的安装与环境配置 py4j的安装 下载winutils.exe和hadoop.dll Python下Spark开发环境搭建一、Anaconda的安装与环境配置下载anacondaanaconda安装过后,记得去环境变量看一下是否有以下路径。检验是否安装成功打开cmd输入python、conda env list指令查看是否显示相关版本信息二、原创 2020-10-15 20:47:04 · 494 阅读 · 0 评论 -
判别分析
判别分析是在已知分类的前提下,将给定的新样品按照某种分类规则判入某个类中,它是研究如何将个体"归类”的一种统计分析方法。多重共线性:在解释变量中,有某一解释变量可由其他解释变量线性表出。多重共线性的影响:共线性会导致回归参数不稳定,即增加或删除一个样本点或特征,回归系数的估计值会发生很大变化。 这是因为某些解释变量之间存在高度相关的线性关系,XTX会接近于奇异矩阵,即使可以计算出其逆矩阵,逆矩阵对角线上的元素也会很大,这就意味着参数估计的标准误差较大,参数估计值的精度较低,这样,数据中的一.原创 2020-07-22 18:08:34 · 9031 阅读 · 0 评论 -
行连接和列连接的区别
关于计算:axis=0表示平均值计算是跨行进行的,获得是列方向的均值。相反,axis=1表示跨列计算的。原创 2020-06-11 10:31:41 · 540 阅读 · 0 评论 -
Scikit-Learn库概述
该库最早由数据科学家David Cournapeau在2007年发起,使用需要Numpy和Scipy等其他库的支持,是Python中专门针对机器学习应用而发展起来的一款开源扩展库 和其他开源项目一样,该库主要由社区成员自发进行维护 scikit-learn与其他开源项目相比显得更为保守:一是scikit-learn从来不做除机器学习领域之外的其他扩展,而是scikit-learn从来不采用未经广泛验证的算法https://scikit-learn.org/stable/index.htmlScik原创 2020-05-12 17:19:44 · 1898 阅读 · 0 评论 -
K-近邻算法
基于电影中出现的亲吻,打斗出现的次数,使用K-近邻算法构造程序,自动划分电影的题材类型,是爱情片、动作片还是、、、、、。K-近邻算法采用测量不同特征值之间的距离方法进行分类K-近邻算法优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变...原创 2020-05-02 22:47:41 · 261 阅读 · 0 评论 -
实操二总结
探索性数据分析EDA知识点一:探索数据1.检查数据:查看是否有缺失值,异常值,重复值等问题2.数据描述:.describe()函数3.箱线图:boxplot()4.特征相关性:crosstab()共生矩阵/交叉表,用于统计分组频率的特殊透视表5.图形化:Scatter散点图6.特征分布:直方图近似表示特征的概率分布知识点二:创建新的特征1.特征的线性修正...原创 2020-05-03 15:10:48 · 4883 阅读 · 0 评论 -
Pandas数据操作
Pandas是基于Numpy的一种工具,该工具是为了解决数据分析任务而创建的Pandas基于numpy实现,常与numpy和matplotlib一同使用Pandas有两大核心数据结构:DataFrame(数据框,可以进行行、列索引)、Series(一维数据,为键值对的形式)Pandas数据结构 Series:一维数组,与Numpy中的一维array类似Series、numpy中的...原创 2020-03-05 18:57:48 · 447 阅读 · 0 评论 -
Numpy数据操作
Ndarray概述N维数组对象ndarray是用于存放同类型元素的多维数组原创 2020-03-03 16:43:38 · 427 阅读 · 0 评论 -
数据改写-数据科学导论
一、Pandas数据处理数据科学过程:数据获取、数据改写、数据分析、数据可视化数据改写对分析和实验过程中不适合的数据格式,使用一系列基本的python数据结构和命令处理所有的问题数据,为数据科学过程下一阶段提供典型的数据矩阵,矩阵的行和列中分别存储观测数据和变量数据分析包括简单统计和报表,统计分析,数据挖掘,机器学习方法等Pandas数据处理:pandas可以从文件加载表格数据p...原创 2020-03-02 15:36:18 · 684 阅读 · 0 评论 -
其他问题
隐马尔可夫模型隐马尔可夫模型是一个关于时序的概率模型,描述由隐马尔可夫链随机生成观测序列的过程,属于生成模型。隐马尔可夫模型在语音识别、自然语言处理、生物信息等领域有着广泛的应用CRF条件随机场CRF条件随机场是一个序列标注模型,其优点在于为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息CRF有John Lafferty最早在NLP技术领域任务中进行本文标注,有多种应用场景,如...原创 2020-02-08 08:24:32 · 145 阅读 · 0 评论 -
聚类问题
聚类问题是无监督学习,算法的思想是“物以类聚,人以群分”。聚类算法感知样本间的相似度,进行类别归纳,对新的输入进行输出预测,输出变量取有限个离散值K-means又称K-均值或K-平均聚类算法。算法思想就是首先随机确定K个中心点作为聚类中心,然后把每个数据点分配给最邻近的中心点,分配完成后形成K个聚类,计算各个聚类的平均中心点,将其作为该聚类新的类中心点,然后重复迭代上述步骤直到分配过程不再产生...原创 2020-02-07 09:59:45 · 2506 阅读 · 2 评论 -
回归问题
回归分析用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量值随之发生变化。直观来说回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好的预测未来数据线性回归算法假设特征和结果满足线性关系。这就意味着可以将输入项分别乘以一些常量,再将结果加起来得到输出岭回归岭回归应用结构风险最小化的模型选择策略,在经验风险最小化的基础上加入正则...原创 2020-02-07 08:24:01 · 453 阅读 · 0 评论 -
分类问题
分类问题是监督学习的一个核心问题,它从数据中学习一个分类决策函数或分类模型(分类器(classifier)),对新的输入进行输出预测,输出变量去有限个离散值(有一套试卷并有标准答案,写完之后对照正确答案进行比对和学习)二分类问题(垃圾邮件、正常邮件)多分类问题(文章可以分为科技、军事、时政核心算法:决策树、贝叶斯、SVM、逻辑回归决策树决策树:是一个树结构,每个非叶节点表示一个特征属...原创 2020-02-06 21:31:59 · 3672 阅读 · 0 评论 -
数据处理与特征工程
机器如何学习?数据预处理(数据清洗、数据集成、数据采样)特征工程(特征编码、特征选择、特征降维、规范化)数据建模(回归问题、分类问题、聚类问题、其他问题)结果评估(拟合度量、查准率、查全率、F1值、PR曲线、ROC曲线)数据预处理数据清洗:对各种脏数据进行对应方式的处理,得到标准、干净、连续的数据、提供给数据统计、数据挖掘等使用数据的完整性数据的合法性(例如获取的数据与常识不...原创 2020-02-06 18:34:57 · 273 阅读 · 0 评论 -
机器学习概述
机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键发展过程推理期(20世纪50-70年代初)认为只要给机器赋予逻辑推理能力,机器就能具有智能知识期(20世纪70年代中期)认为要使机器具有智能,就必须设法使机器拥有知识学科形成(20世纪80年代)20世纪80年代是机器学习称为一个独立学科领域并开始快速发展,各种机器学习技术百花齐放繁荣期(20世纪80年代-至今)20世...原创 2020-02-05 14:17:40 · 280 阅读 · 0 评论