DING0614-CSDN博客

用户对电商产品的评价及评分中包含着用户的偏好信息，利用情感分析模型可以获取用户的情感以及对产品属性的偏好。人类大脑在思考时，神经元会接受外部的刺激，当传入的冲动使神经元的电位超过阈值时，神经元就会从抑制转向兴奋，并将信号向下一个神经元传导。应用中，常常采用如下图所示的多层神经网络，在多层神经网络模型中，输入层和输出层间可以有多层隐藏层，层与层之间互相连接，信号通过线性变换和激活函数的复杂映射，不断地进行传递。此时如果不再进行下面的操作，那么到这里，它就和第三章讲的线性回归模型是一样的了。

2024-03-24 18:52:39 2711 1

原创 Python数据聚类与分群分析【附代码】

KMeans算法的K代表类别数量，Means代表每个类别内样本的均值，所以KMeans算法又称为K-均值算法。KMeans算法以距离作为样本间相似度的度量标准，将距离相近的样本分配至同一个类别。样本间距离的计算方式可以是欧氏距离，曼哈顿距离，余弦相似度等，KMeans算法通常采用欧氏距离来度量各样本间的距离。KMeans算法的核心思想是。

2024-03-23 18:06:18 1349 1

原创 Python数据降维之PCA主成分分析【附代码】

其实是根据每张人脸不同像素点的颜色不同来进行数据建模与判断，人脸的每个像素点的颜色都有不同的值，这些值可以组成人脸的特征向量们，不过因为人脸上的像素点过多，所以特征变量过多，因此需要利用。在根据已有的信用卡持有人信息及其违约数据来建立信用卡违约评判模型时，数据可能包含申请人的收入，年龄，性别，婚姻状况，工作单位等数百个维度的数据。这里处理人脸的方式和第七章处理手写数字图片的方式非常类似，都是根据人脸各个地方颜色的不同，获取其地方颜色的数值（颜色是有数值的，不同颜色的值不同），从而将图片转换为数字。

2024-03-17 09:57:00 1958 1

原创 Python特征工程之数据预处理【附代码】

WOE的全称是“，即证据权重，其反映了某一特征的特征区分度，要计算一个变量的WOE值，需要首先把这个变量进行11.4节提到的分箱处理。分箱后，对于第i组分箱内的数据，该分箱中的WOE值的计算公式如下演示数据如下：对上面的数据进行分箱，并分别计算每个分箱中对应的WOEi值，最终整理表格如下表所示：这里简单说明下第一个分箱中的计算过程，计算过程如下图所示，对于年龄在20-30之间的人来说。

2024-03-15 19:31:55 1299 1

原创 Python中AdaBoost与GBDT模型【附代码】

AdaBoost算法 (Adaptive Boosting) 是一种有效而实用的Boosting算法，它以一种高度自适应的方法顺序地训练弱学习器。AdaBoost根据前一次的分类效果调整数据的权重，上一个弱学习器中错误分类样本的权重会在下一个弱学习器中增加，正确分类样本的权重会相应减少，并且在每一轮迭代时会向模型加入一个新的弱学习器。不断重复调整权重和训练弱学习器的过程，直到误分类数低于预设值或迭代次数达到指定最大迭代次数时，我们会得到一个强分类器。

2024-03-13 20:18:08 1187 1

原创 Python随机森林模型的基本原理和代码实现【附代码】

集成学习模型是机器学习非常重要的一部分。集成学习是使用一系列的弱学习器（或称之为基础模型）进行学习，并将各个弱学习器的结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习模型有两种常见的算法：•。

2024-03-12 19:00:59 2968 1

原创 Python数据归一化和K临近算法【附代码】

K近邻算法的原理非常简单：对于一个新的数据而言，K近邻算法的目的就是在已有数据中寻找与它最相似的K个数据，或者说“离它最近”的K个数据，如果这K个点大多数属于某一个类别，则该样本也属于这个类别。以下图为例，假设五角星和三角形分别代表两类不同的电影，一类是爱情片，一类是动作片。此时加入一个新样本正方形，此时需要判断该电影的类别：选择离新样本最近的3个近邻点时(K=3)为判断依据时，这3个点由1个五角星和2个三角形组成，可以。

2024-03-11 19:56:55 1582 1

原创 Python朴素贝叶斯模型算法【附代码】

医疗水平突飞猛进，人们对医院快速识别肿瘤是否为良性的要求同样也越来越高，能否根据患者肿瘤的相关特征水平快速判断肿瘤的性质影响着患者的治疗方式和痊愈速度。传统的做法是医生根据数十个指标来判断肿瘤的性质，不过该方法的预测效果依赖于医生的个人经验而且效率较低，而通过机器学习我们有望能快速预测肿瘤的性质。贝叶斯分类是机器学习中应用极为广泛的分类算法之一，其产生来自于贝叶斯对于逆概问题的思考，朴素贝叶斯是贝叶斯模型当中最简单的一种。的值是相同的，所以我们在实际计算中可以舍去这部分的计算，直接比较两者分子大小即可。

2024-03-11 18:33:03 1170

原创 Python决策树模型的基本原理和参数调优【附代码】

下图所示为一个典型的决策树模型：员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5，答案为“是”则认为该员工会离职，答案为“否”则接着判断其收入是否小于10,000元，答案为“是”则认为该员工会离职，答案为“否”则认为该员工不会离职。这里。

2024-03-11 17:20:40 2845

原创 Python逻辑回归模型算法原理和两种曲线评估方法【附代码】

进行每一笔股票交易的时候，交易者都是要付给开户所在的证券公司一些手续费的，虽然单笔交易的手续费并不高，然而股票市场每日都有巨额的成交量，使得每一笔交易的手续费汇总起来的数目相当可观，而这一部分收入对于一些证券公司来说很重要，甚至可以占到所有营业收入。上面这个方程是预测连续变量的，其取值范围属为负无穷到正无穷，而逻辑回归模型是用来预测类别的，比如它预测某物品是属于。的准确度，显然这个较高的准确度是没有意义的，因为它一个可能流失的人都没有预测出来。逻辑回归模型的本质其实是预测概率，而不是直接预测是属于。

2024-03-10 13:08:14 1347 1

原创 Python一元和多元线性回归模型的原理及评估【附代码】

线性回归模型是利用线性拟合的方式来探寻数据背后的规律，如下图所示，就是通过搭建线性回归模型来寻找这些散点（也称样本点）背后的趋势线（也称回归曲线），而通过这个回归曲线我们就能进行一些简单的预测分析或因果关系分析。线性回归中，我们根据特征变量（也称自变量）来对反应变量（也称因变量）进行预测，根据特征变量的个数可将线性回归模型分为一元线性回归和多元线性回归。通过一个特征变量：工作年限对收入进行预测，就属于一元线性回归；通过多个特征变量：工作年限、行业、所在城市等对收入进行预测，就属于多元线性回归。

2024-03-09 19:15:08 3433 6

weixin_60476982的博客

原创字节内推码

原创 Python深度学习之神经网络模型【附代码】