机器学习
文章平均质量分 73
机器学习
IT之一小佬
敲响键盘之乐,跳起程序之舞,抵达智慧之巅!
展开
-
python绘制热力图
python绘制热力图原创 2023-08-02 08:47:06 · 1795 阅读 · 0 评论 -
使用Pyecharts制作Bar3D用法详解
使用Pyecharts进行数据可视化时可提供直观、交互丰富、可高度个性化定制的数据可视化图表。本文以pyecharts==1.9.1为例:1.标准3D柱状图示例代码:import randomimport pyecharts.options as optsfrom pyecharts.charts import Bar3Dhours = ["12a", "1a", "2a", "3a", "4a", "5a", "6a", "7a", "8a", "9a",...转载 2021-12-30 22:04:15 · 3985 阅读 · 0 评论 -
百面机器学习之经典算法
1.在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在 超平面上的投影仍然是线性可分的吗?原创 2021-06-22 14:58:46 · 229 阅读 · 0 评论 -
百面机器学习之模型评估
1.准确率的局限性。原创 2021-06-21 10:49:30 · 376 阅读 · 2 评论 -
百面机器学习之特征工程
1.为什么需要对数值类型的特征做归一化?为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得 不同指标之间具有可比性。对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值 区间内。最常用的方法主要有以下两种。...原创 2021-06-20 12:41:29 · 380 阅读 · 0 评论 -
python之matplotlib制作雷达图
python之matplotlib制作雷达图示例代码:import numpy as npimport matplotlib.pyplot as pltimport matplotlibmatplotlib.rcParams['font.family']='SimHei'matplotlib.rcParams['font.sans-serif'] = ['SimHei']labels = np.array(['综合','属性1','属性2','属性3','属性4','属性5'])n原创 2021-05-17 20:16:06 · 585 阅读 · 0 评论 -
朴素贝叶斯算法简介
朴素贝叶斯算法简介1.2 概率基础复习1.概率定义概率定义为一件事情发生的可能性 扔出一个硬币,结果头像朝上 P(X) : 取值在[0, 1]2.案例:判断女神对你的喜欢情况在讲这两个概率之前我们通过一个例子,来计算一些结果:问题如下:女神喜欢的概率? 职业是程序员并且体型匀称的概率? 在女神喜欢的条件下,职业是程序员的概率? 在女神喜欢的条件下,职业是程序员、体重超重的概率?计算结果为:P(喜欢) = 4/7P(程序员, 匀称) = 1/7(联原创 2021-04-19 15:32:02 · 1505 阅读 · 0 评论 -
聚类分析案例:探究用户对物品类别的喜好细分降维
聚类分析案例:探究用户对物品类别的喜好细分降维数据如下:order_products__prior.csv:订单与商品信息 字段:order_id,product_id, add_to_cart_order, reordered products.csv:商品信息 字段:product_id, product_name,aisle_id, department_id orders.csv:用户的订单信息 字段:order_id,user_id,eval_set,order_..原创 2021-04-17 12:28:26 · 795 阅读 · 0 评论 -
聚类算法之特征降维-特征选择、主成分分析
聚类算法之特征降维-特征选择、主成分分析1 降维1.1 定义 【就是改变特征值,选择哪列保留,哪列删除;目标是得到一组“不相关”的主变量】降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 降低随机变量的个数 相关特征(correlated feature) 相对湿度与降雨量之间的相关 等等 正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大1.2 降...原创 2021-04-17 11:59:56 · 7095 阅读 · 1 评论 -
聚类算法优化
聚类算法优化【其实就是为了选择质心,保证每个点距离不是很近】k-means算法小结优点: 1.原理简单(靠近中心点),实现容易 2.聚类效果中上(依赖K的选择) 3.空间复杂度o(N),时间复杂度o(IKN)N为样本点个数,K为中心点个数,I为迭代次数缺点: 1.对离群点,噪声敏感 (中心点易偏移) 2.很难发现大小差别很大的簇及进行增量计算 3.结果不一定是全局最优,只能保证局部最优(与K的个数及初值选取有关)1 Canopy算法配合初始聚类原创 2021-04-17 10:41:09 · 3110 阅读 · 0 评论 -
聚类算法之模型评估
聚类算法之模型评估1 误差平方和(SSE \The sum of squares due to error):举例:(下图中数据-0.2, 0.4, -0.8, 1.3, -0.7, 均为真实值和预测值的差)在k-means中的应用:公式各部分内容:【c为2类,m代表当前c类的聚心/质心,p为c类中所有点】上图中: k=2SSE图最终的结果,对图松散度的衡量.(eg:SSE(左图)<SSE(右图))SSE随着聚类迭代,其值会越来越小,直到最后趋于稳定: ...原创 2021-04-16 21:37:49 · 2150 阅读 · 0 评论 -
聚类算法实现流程
聚类算法实现流程k-means其实包含两层内容: K : 初始中心点个数(计划聚类数) means:求中心点到其他数据点距离的平均值1 k-means聚类步骤1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别 3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值) 4、如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程通过下图解释实现流程:原创 2021-04-16 20:46:59 · 3624 阅读 · 0 评论 -
聚类算法api初步使用
聚类算法api初步使用1 api介绍sklearn.cluster.KMeans(n_clusters=8) 参数: n_clusters:开始的聚类中心数量 整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数。 方法: estimator.fit(x) 【训练】 estimator.predict(x) 【预测】 estimator.fit_predict(x) 【也可...原创 2021-04-16 20:11:06 · 388 阅读 · 0 评论 -
聚类算法简介
聚类算法简介1 认识聚类算法使用不同的聚类准则,产生的聚类结果不同。1.1 聚类算法在现实中的应用 用户画像,广告推荐,Data Segmentation(数据分割),搜索引擎的流量推荐,恶意流量识别 基于位置信息的商业推送,新闻聚类,筛选排序 图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段 【分类:1.细聚类,2.聚类】1.2 聚类算法的概念聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中原创 2021-04-16 19:31:48 · 618 阅读 · 0 评论 -
集成学习之Boosting
集成学习之Boosting1.boosting集成原理1.1 什么是boosting随着学习的积累从弱到强简而言之:每新加入一个弱学习器,整体能力就会得到提升代表算法:Adaboost,GBDT,XGBoost1.2 实现过程:1.训练第一个学习器2.调整数据分布3.训练第二个学习器4.再次调整数据分布5.依次训练学习器,调整数据分布6.整体过程实现关键点:如何确认投票权重?如何调整数据分布?AdaBoost的构原创 2021-04-09 15:51:25 · 1055 阅读 · 0 评论 -
集成学习之Bagging
集成学习之Bagging1 Bagging集成原理目标:把下面的圈和方块进行分类【此时用直线很难把圈和方块分开的】实现过程:1.采样不同数据集2.训练分类器3.平权投票,获取最终结果4.主要实现过程小结2 随机森林构造过程在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林= Bagging +决策树例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是F..原创 2021-04-09 14:23:43 · 465 阅读 · 1 评论 -
集成学习算法简介
集成学习算法简介1 什么是集成学习【超级个体和弱者联盟对比,后者更优】集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。2复习:机器学习的两个核心任务3 集成学习中boosting和Bagging只要单分类器的表现不太差,集成学习的结果总是要好于单分类器的....原创 2021-04-08 17:15:08 · 294 阅读 · 0 评论 -
决策树算法案例:泰坦尼克号乘客生存预测
决策树算法案例:泰坦尼克号乘客生存预测1 泰坦尼克号数据在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt原创 2021-04-08 17:05:15 · 2682 阅读 · 0 评论 -
决策树算法api
决策树算法apiclass sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None) criterion 【选择哪个参数来划分决策树】 特征选择标准 "gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。 min_samples_split 内部节点再划分所需最小样本数 这个值限制了子树继续划分..原创 2021-04-08 15:48:23 · 313 阅读 · 0 评论 -
决策树算法之特征工程-特征提取
决策树算法之特征工程-特征提取什么是特征提取呢? 【把数据转化为机器更加容易识别的数据】1 特征提取1.1 定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:特征值化是为了计算机更好的去理解数据特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 1.2 特征提取APIsklearn.feature_extraction2 字典特征提取 【对类别型数据进行转换】作用:对字典数据进行特征...原创 2021-04-08 13:38:43 · 1686 阅读 · 0 评论 -
决策树算法之cart剪枝
决策树算法之cart剪枝1 为什么要剪枝 【决策树容易发生过拟合】•横轴表示在决策树创建过程中树的结点总数,纵轴表示决策树的预测精度。•实线显示的是决策树在训练集上的精度,虚线显示的则是在一个独立的测试集上测量出来的精度。•随着树的增长,在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。出现这种情况的原因:•原因1:噪声、样本冲突,即错误的样本数据。•原因2:特征即属性不能完全作为分类标准。•原因3:巧合的规律性,数据量不够大。...原创 2021-04-07 21:57:39 · 468 阅读 · 0 评论 -
决策树分类原理
决策树分类原理1 熵 [用于衡量一个对象的有序程度]1.1 概念物理学上,熵 Entropy是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。信息理论:1、从信息的完整性上进行的描述:当系统的有序状态一致时,**数据越集中的地方熵值越小,数据越分散的地方熵值越大。2、从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。1948年香农提出了信息熵(Entropy)的概念。假如事件A的分类划分...原创 2021-04-07 21:46:19 · 671 阅读 · 0 评论 -
决策树算法简介
决策树算法简介决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。怎么理解这句话?通过一个对话例子想一想这个女生为什么把年龄放在最上面判断!!!!!!!!! [信息熵]上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量..原创 2021-03-13 22:41:20 · 196 阅读 · 0 评论 -
逻辑回归之ROC曲线的绘制
逻辑回归之ROC曲线的绘制关于ROC曲线的绘制过程,通过以下举例进行说明假设有6次展示记录,有两次被点击了,得到一个展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面的表示序号,后面的表示点击(1)或没有点击(0)。然后在这6次展示的时候都通过model算出了点击的概率序列。下面看三种情况。1 曲线绘制1.1 如果概率的序列是(1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4)。[比如以0.75进行分割]与原来的序列一起,得到序列(从概率从高到原创 2021-03-13 22:40:25 · 6053 阅读 · 2 评论 -
逻辑回归及常用模型分类评估方法
逻辑回归之分类评估方法1.分类评估方法【准确率:预测正确的数占样本总数的比例。 (TP+TN)/(TP+TN+FP+FN)】1.1 精确率与召回率1.1.1 混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)1.1.2 精确率(Precision)与召回率(Recall)精确率:预测结果为正例样本中真实为正例的比例 【查的准不准】【预测100个人得病,其..原创 2021-03-13 21:21:05 · 3185 阅读 · 0 评论 -
逻辑回归之案例:癌症分类预测-良/恶性乳腺癌肿瘤预测
逻辑回归之案例:癌症分类预测-良/恶性乳腺癌肿瘤预测数据介绍原始数据的下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/数据描述(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤相关的医学特征,最后一列表示肿瘤类型的数值。(2)包含16个缺失值,用”?”标出。1 分析1.获取数据2.基本数据处理2.1 缺失值处理2.2 确定特征值,目标值2.3 分割数据3.特征工原创 2021-03-13 15:52:37 · 1261 阅读 · 0 评论 -
逻辑回归api介绍
逻辑回归api介绍 sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) 【solver是用什么样的梯度下降算法来解决】 solver可选参数:{'liblinear', 'sag', 'saga','newton-cg', 'lbfgs'}, 默认: 'liblinear';用于优化问题的算法。 对于小数据集来说,“liblinear”是个不错的选择,而“s.原创 2021-03-13 15:25:42 · 237 阅读 · 0 评论 -
逻辑回归介绍
逻辑回归介绍逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。【概念:解决一个二分类问题,逻辑回归的输入是线性回归的输出】1 逻辑回归的应用场景广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器2 逻辑回归的原理要想掌握逻辑回原创 2021-03-13 15:17:33 · 373 阅读 · 0 评论 -
线性回归之模型的保存和加载
线性回归之模型的保存和加载1 sklearn模型的保存和加载APIfrom sklearn.externals import joblib 保存:joblib.dump(estimator, 'test.pkl') 加载:estimator = joblib.load('test.pkl') 【注意:1.保存文件,后缀名是**.pkl;2.加载模型是需要通过一个变量进行承接】 2 线性回归的模型保存加载案例def load_dump_demo(): """ 线性回原创 2021-03-12 22:33:13 · 620 阅读 · 0 评论 -
线性回归的改进-岭回归
线性回归的改进-岭回归1 APIsklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False) 【normalize:如果在特征工程处进行了标准化处理,此处就不需要再做处理】 具有l2正则化的线性回归 alpha:正则化力度,也叫 λ 【alpha=1.0为默认】 λ取值:0~1 1~10 solver:会根据数据自动选择优化方法 【solver="aut...原创 2021-03-12 22:32:29 · 376 阅读 · 0 评论 -
线性回归之正则化线性模型
线性回归之正则化线性模型Ridge Regression 岭回归 Lasso 回归 Elastic Net 弹性网络 Early stopping1 Ridge Regression (岭回归,又名 Tikhonov regularization)岭回归是线性回归的正则化版本,即在原来的线性回归的 cost function 中添加正则项(regularization term):以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代价函数:【MSE(0)是均方误差的值,原创 2021-03-11 21:39:23 · 849 阅读 · 0 评论 -
线性回归之欠拟合和过拟合
线性回归之欠拟合和过拟合1 定义过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单) 【过拟合:在训练集上表现的好,在测试集上表现的不好】 【欠拟合:在训练集上表现的不好,在测试集上表现的也不好】那么是什么原因导致模型复杂?线性回归进行训练学习的时候原创 2021-03-11 21:17:53 · 1958 阅读 · 0 评论 -
线性回归之案例:波士顿房价预测
线性回归之案例:波士顿房价预测数据介绍 【13个特征值,1个目标值】给定的这些特征,是专家们得出的影响房价的结果属性。此阶段不需要自己去探究特征是否有用,只需要使用这些特征。到后面量化很多特征需要我们自己去寻找1 分析回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。数据分割与标准化处理 回归预测 线性回归的算法效果评估2 回归性能评估均方误差(Mean Squared Error)MSE)评价机制:sklearn.metrics.m..原创 2021-03-11 20:04:55 · 1478 阅读 · 0 评论 -
线性回归api深度介绍
线性回归api深度介绍sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 fit_intercept:是否计算偏置 【默认为true】 LinearRegression.coef_:回归系数 LinearRegression.intercept_:偏置 sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, .原创 2021-03-11 19:20:02 · 259 阅读 · 0 评论 -
线性回归之梯度下降法介绍
线性回归之梯度下降法介绍上一篇博文中介绍了最基本的梯度下降法实现流程,常见的梯度下降算法有:全梯度下降算法(Full gradient descent), 随机梯度下降算法(Stochastic gradient descent), 随机平均梯度下降算法(Stochastic average gradient descent) 小批量梯度下降算法(Mini-batch gradient descent),它们都是为了正确地调节权重向量,通过为每个权重计算一个梯度,从而更新权值,使目标函数尽可原创 2021-03-11 19:12:02 · 460 阅读 · 0 评论 -
线性回归的损失和优化-正规方程&梯度下降
线性回归的损失和优化-正规方程&梯度下降假设刚才的房子例子,真实的数据之间存在这样的关系真实关系:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率那么现在呢,我们随意指定一个关系(猜测)随机指定关系:预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率请问这样的话,会发生什么?真实结果与我们预测的结果之间是原创 2021-03-11 16:34:06 · 479 阅读 · 0 评论 -
线性回归之数学:求导公式
线性回归之数学:求导公式1 常见函数的导数2 导数的四则运算3 练习4 矩阵(向量)求导参考链接:https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities原创 2021-03-11 11:31:12 · 1135 阅读 · 0 评论 -
线性回归api初步使用
线性回归api初步使用1 线性回归APIsklearn.linear_model.LinearRegression() LinearRegression.coef_:回归系数 2 举例2.1 步骤分析1.获取数据集 2.数据基本处理(该案例中省略) 3.特征工程(该案例中省略) 4.机器学习 5.模型评估(该案例中省略)2.2 代码过程导入模块from sklearn.linear_model import LinearRegression构造数据集x原创 2021-03-11 11:19:56 · 208 阅读 · 0 评论 -
线性回归简介
线性回归简介1 线性回归应用场景 房价预测 销售额度预测 贷款额度预测 举例: 2 什么是线性回归2.1 定义与公式 【y=kx】线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归线性回归用矩阵表示举例那么怎么理解呢?我们来看几个例子期末成绩:0.7×考试成绩+0.3..原创 2021-03-11 11:11:22 · 3722 阅读 · 0 评论 -
K-近邻算法之案例2:预测facebook签到位置
K-近邻算法之案例2:预测facebook签到位置1 数据集介绍 【https://www.kaggle.com天池,人工智能比赛网址】数据介绍:将根据用户的位置,准确性和时间戳预测用户正在查看的业务。train.csv,test.csv row_id:登记事件的IDxy:坐标准确性:定位准确性 时间:时间戳place_id:业务的ID,这是您预测的目标官网:https://www.kaggle.com/navoshta/grid-knn/data2 步骤...原创 2021-03-11 10:52:17 · 994 阅读 · 1 评论