【机器学习】
文章平均质量分 89
机器学习
温欣2030
公众号:数据分析智库。比较少回复。
展开
-
【Python】上市公司数据进行经典OLS回归实操
主营业务利润占比(Coefficient: -0.027229, P-value: 1.294914e-25):主营业务利润占比的增加与因变量的减少呈负相关关系,且统计上显著。现金资产比率(Coefficient: 0.024404, P-value: 3.653465e-51):现金资产比率的增加与因变量的增加呈正相关关系,且统计上显著。管理费用率(Coefficient: -0.009757, P-value: 7.784131e-05):管理费用率的增加与因变量的减少呈负相关关系,且统计上显著。原创 2023-11-15 07:00:00 · 971 阅读 · 0 评论 -
机器学习系列(17)_关联规则
一、关联规则含义事务仅包含其涉及到的项目,而不包含项目的具体信息。(只要购买某种商品,则这种商品的标签就为1,否则为0,不管买了多少件产品)X==>Y含义:- X和Y是项集- X称为规则前项- Y称为规则后项原创 2022-06-01 20:02:30 · 2116 阅读 · 2 评论 -
机器学习系列(16)_朴素贝叶斯算法
注:机器学习之分类<朴素贝叶斯>期末会有一道贝叶斯的计算的题目文章目录一、1、计算题2、一、朴素贝叶斯是一种直接衡量标签和特征之间的概率关系的有监督算法。1、计算题2、#快速体验import numpy as npfrom sklearn.naive_bayes import GaussianNBX = np.array([[-1, -1], [-2, -2], [-3, -3], [-4, -4], [1, 1], [2, 2], [3, 3]])y = np原创 2022-05-26 19:05:34 · 1114 阅读 · 0 评论 -
机器学习系列(15)_KNN(K近邻)算法
文章目录一、KNN1、K值的判断与选取2、缺失值差填补3、KNN填充和模型评估4、RESSION一、KNNKNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。KNN属于懒惰学习,没有前期训练过程,而是在程序开始运行时,把数据加载到内存后,直接开始进行分类。KNN分类算法的计算原创 2022-05-25 21:22:13 · 1345 阅读 · 0 评论 -
机器学习系列(14)_PCA对图像数据集的降维_03
文章目录一、噪音过滤1、案例:手写数字图像识别一、噪音过滤降维的目的之一是希望抛弃对模型带来负面影响的特征,同时,带有效信息的特征的方差应该是远大于噪音的,所以相比噪音,有效的特征所带来的信息不会在PCA当中大量抛弃。inverse_transform能够在不恢复原始数据的情况下,将降维后的数据返回到原本的高维空间。(即能够实现:“保证维度,但是去除方差很小的特征所带来的信息”)。我们可以利用·inverse_transform来实现噪音的过滤。寻找确定关键特征是降噪的前提,只保留关键特征,其他都可以原创 2022-05-17 13:22:06 · 4533 阅读 · 3 评论 -
机器学习系列(13)_PCA对图像数据集的降维_02
文章目录一、降维究竟是怎样实现的二维特征矩阵降维的一般过程PCA降维与特征选择的不同:重要参数n_components迷你案例:高维数据的可视化6、探索降维后的数据最大似然估计自选超参数按信息量占比选超参数1、一、降维究竟是怎样实现的【1】降维:减少特征,删除数据,模型受影响【2】噪音:【3】PCA使用样本方差二维特征矩阵降维的一般过程过程二维特征矩阵n维特征矩阵1输入原数据,结构为(2,3)2345PCA降维与特征选择的不原创 2022-05-16 10:30:53 · 4031 阅读 · 0 评论 -
机器学习系列(12)_PCA对人像数据集的降维_01
文章目录一、PCA什么是维度?什么是降维?一、PCA什么是维度?维度:共同构造标签的特征。对于数组和series(回顾numpy和pandas),则使用shape的方式查看。行与列构建二维表:【1】数组中的每一张表,都可以是一个特征矩阵或者一个Dataframe,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。【2】针对每一张表,维度是指样本的数量或者特征的数量,一般无特别说明,指的都是特征的数量。【3】除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。【4】对原创 2022-05-09 18:30:11 · 2122 阅读 · 1 评论 -
机器学习系列(11)_决策树挖掘NBA冠军球队数据
导入NBA数据,我放在我的gitee里面,需要的朋友点击文章最上面的链接自取。NBA数据的属性如下:共27个特征,718条数据。这27个特征中有一些特征不重要,因此我们只选取一些较为重要的参数。根据这些参数进行分析,然后预测一些球队得冠军的概率有多高。定义我们需要的特征:有六条数据中三分球的得分为0,这可能会对最终的数据造成影响。由于含有694个空值,因此我们需要将空值变成0在对数据有了大概的处理之后,就原创 2022-05-02 16:57:26 · 2891 阅读 · 1 评论 -
python 期末复习笔记
文章目录1、set 与 union2、axis=0 与 axis=13、ascending=False4、json自定义函数提取数据5、apply6、concat7、join8、append9、groupbyas_index=Trueby10、value_counts1、set 与 unionset 是一个不允许内容重复的组合,而且set里的内容位置是随意的,所以不能用索引列出。可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。a=[1,1,2,3,2,7,6,5,6,8,0,5,3]原创 2022-04-24 20:55:36 · 4076 阅读 · 1 评论 -
机器学习系列(10)_决策树与随机森林回归
文章目录一、决策树优缺点二、泰坦尼克号幸存者案例一、决策树优缺点(1)优点:易于理解;数据的预处理工作可以较少;使用树的成本比如预测数据的时候,对于训练树的数据点往往使用的是数量的对数;能够同时处理数值和分类数据‘处理多输出的问题;属于易于理解的白盒模型;可通过统计测试试验模型;(2)缺点:如果树过于复杂,即过拟合,导致不能很好的推广;可能不稳定;基于贪婪算法;二、泰坦尼克号幸存者案例【1】导入库#(1)导入库import pandas as pdfrom sklearn.tree imp原创 2022-05-01 17:19:03 · 1737 阅读 · 0 评论 -
机器学习系列(9)_决策树详解01
文章目录一、种类介绍1、监督学习2、非监督学习3、半监督学习4、强化学习5、批量学习6、在线学习7、基于实例的学习8、基于模型的学习二、决策树random_state和splitter一、种类介绍1、监督学习在监督学习中,提供给算法的包含所需解决方案的训练数据,称为标签或标记。监督学习是包含自变量和因变量(有Y),同时可以用于分类和回归。下来常见的算法都是监督学习算法。K近邻算法线性回归logistic回归支持向量机(SVM)决策树和随机森林神经网络2、非监督学习聚类算法K均值算原创 2022-04-25 23:42:25 · 2591 阅读 · 1 评论 -
机器学习系列(8)_回归算法,支持向量机
注:本篇文章参考:b站:机器学习经典算法——回归算法文章目录一、机器学习简介二、回归算法三、支持向量机要解决的问题四、支持向量机求解目标五、核函数变换一、机器学习简介机器学习应用的领域非常广泛:数据挖掘:分析用户信息,提高用户对产品的依赖性。计算机视觉:无人驾驶汽车–实时进行检测任务机器学习的步骤:1、训练样本2、特征提取(数据科学家:知道一份数据如何是机器能更好的识别特征)3、学习函数4、预测Numpy:科学计算库(矩阵)Pandas:数据分析处理库(缺失值,异常值等数据分析原创 2022-04-24 13:36:53 · 1199 阅读 · 1 评论 -
机器学习系列(7)_决策树与随机森林概念
注:本篇博客参考 b站:机器学习经典算法(2)——决策树与随机森林文章目录一、熵与基尼系数二、决策树构造实例三、信息增益(ID3算法)四、信息增益率(C4.5算法)五、二分选值六、决策树减枝七、随机森林决策树有三种算法:一、熵与基尼系数熵:一件事情的混乱程度如果一个集合内部的属性很多,混乱程度就很大,则熵值也较大如果一个集合内部的属性很少,混乱程度就很小,则熵值也较小基尼系数和熵在公式上面不同,但是表达的结果是相同的。熵和基尼系数越大,说明当前分类效果越不好熵和基尼系数越小原创 2022-04-23 16:29:51 · 1496 阅读 · 0 评论 -
机器学习系列(6)_特征工程03碳排放小案例
文章目录一、归一化处理import numpy as npimport pandas as pdfrom scipy.cluster.vq import *import matplotlib.pyplot as pltfrom sklearn.manifold import TSNEfrom scipy.spatial.distance import cdistfrom matplotlib.ticker import MultipleLocatorfrom matplotlib impor原创 2022-04-21 19:18:42 · 4522 阅读 · 0 评论 -
机器学习系列(5)_特征工程02特征提取
文章目录#数据预处理,特征选择的目的是改善数据质量,体现数据的本质特征,降低计算成本,提升模型的表现。特征选择–主要分为三个模块:特征提取(Features Extraction):如从文本型数据提取日期型数据;从非结构化数据(文本,视频,音频等)提取数据。如:Web爬取等;特征创建(Features Creation):通过组合,计算等方法,得到原本不存在的特征(必须是合理的);特征选择(Features Selection):从所有特征中,选择对当前模型有价值的特征,必须要经过验证。&l原创 2022-04-19 07:42:52 · 1438 阅读 · 0 评论 -
机器学习系列(4)_数据分析之Kaggle鸢尾花iris
本篇博客参考链接:1、iris-经典案例解析-机器学习我们要解决的问题如下:已知鸢尾花iris分为三个不同的类型:山鸢尾花Setosa、变色鸢尾花Versicolor、韦尔吉尼娅鸢尾花Virginica,这个分类主要是依据鸢尾花的花萼长度、宽度和花瓣的长度、宽度四个指标(也可能还有其他参考)。我们并不知道具体的分类标准,但是植物学家已经为150朵不同的鸢尾花进行了分类鉴定,我们也可以对每一朵鸢尾花进行准确测量得到花萼花瓣的数据。那么问题来了,你女朋友家的一株鸢尾花开花了,她测量了一下,花萼长原创 2022-04-17 15:12:59 · 3565 阅读 · 1 评论 -
机器学习系列(3)_特征工程01数据预处理
参考链接:1、scikit-learn官方网站2、sklearn提供的自带的数据集3、Kaggle官网4、数据挖掘——无量纲化文章目录一、数据中台二、sklearn中的数据预处理与特征工程三、数据无量纲化(1)preprocessing.MinMaxScaler 归一化(2)preprocessing.StandardScaler 标准化(3)如何选择归一化和标准化四、缺失值处理(1)impute.SimpleImputer五、处理分类型特征:编码与哑变量(1)preprocessing.Labe原创 2022-04-11 09:12:38 · 2779 阅读 · 2 评论 -
机器学习系列(2)_数据分析之Kaggle电影TMDB5000
文章目录一、数据整理1. 电影类型随时间变化怎么样?2. 电影类型与利润的关系3. 电影的投入与利润的关系4. Universal和Paramount两家影视公司的对比情况如何?5. 改编电影和原创电影以及评分情况如何6. 电影时长与电影票房以及评分的关系7. 分析电影关键字8.分析演员的关联度(社会网络计算)9.分析演员的词云一、数据整理budget :电影成本genres:风格列表,按|分隔,最多5种风格homepage:电影首页URLid :电影IDkeywords:电影关键词,按|分隔,原创 2022-04-09 14:56:48 · 3463 阅读 · 2 评论 -
机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾
本篇博客通过分析泰坦尼克号事故中幸存者与遇难者的名单,从而得出一些相关关系的判断,并且使用可视化的手段更加具体的展现。import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif']=['Microsoft YaHei'] # 用来正常显原创 2022-04-03 15:07:59 · 4901 阅读 · 6 评论