机器学习
文章平均质量分 94
机器学习学习笔记
WSKH0929
2022年博客之星综合评分人工智能领域Top4、总榜Top24;阿里云专家博主;CSDN博客专家、人工智能领域优质创作者;已授权美国专利1件、发明专利9件和软著2件、受理发明专利2件、在申发明专利1件;获得17个算法/系统开发类竞赛奖项,在第四届集成电路EDA设计精英挑战赛(国内EDA算法领域最高水平竞赛)中获得一等奖和华大九天企业特别奖;负责过5个企业项目的算法及系统开发,其中3个合作企业为世界五百强,拥有较丰富的算法设计与开发经验
展开
-
【机器学习】Linear and Nonlinear Regression 线性/非线性回归讲解
回归:根据工资和年龄,预测额度为多少其中,工资和年龄被称为特征(自变量),额度被称为标签(因变量)下图展示了线性回归特性,其相当于Y = aX1+bX2+c,在此问题中,就相当于一个三维空间中的二维平面,我们希望找到一个二维平面,尽可能接近所有点下图展示了误差项的定义,我们一般认为误差项越接近0越好。原创 2023-02-11 14:13:18 · 6417 阅读 · 0 评论 -
【机器学习】Java 代码实现 CART 决策树算法
CART(classification and regression tree)树:又称为分类回归树,从名字可以发现,CART树既可用于分类,也可以用于回归。当数据集的因变量是离散值时,可以采用CART分类树进行拟合,用叶节点概率最大的类别作为该节点的预测类别。当数据集的因变量是连续值时,可以采用CART回归树进行拟合,用叶节点的均值作为该节点预测值。:一个枚举类,用来指示特征是数值型的还是字符型的。:CART 决策树算法对象。:训练数据集存放对象。原创 2023-01-16 17:22:35 · 19715 阅读 · 0 评论 -
【机器学习】Logistic Regression 逻辑回归算法详解 + Java代码实现
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。逻辑回归不是一个回归算法!而是一个分类算法!逻辑回归的决策边界可以是非线性的逻辑回归是最简单的分类算法。通常来说在进行分类任务时,我们都会用逻辑回归做一个BaseLine,然后再尝试其他算法不断改进。逻辑回归不是只能做二分类,它也可以做多分类问题!原创 2023-01-15 21:23:42 · 20650 阅读 · 0 评论 -
【机器学习】关联规则挖掘算法 + 三大案例实战 + Apriori算法 + Python代码实现
关联规则中的数据集结构一般如下所示:{ 牛奶 } 是 1-项集{ 牛奶,果冻 } 是 2-项集;{ 啤酒,面包,牛奶 } 是 3-项集X和Y是项集X称为规则前项Y称为规则后项事务:即样本,一个样本称为一个事务。事务仅包含其涉及到的项目,而不包含项目的具体信息在超级市场的关联规则挖掘问题中事务是顾客一次购物所购买的商品,但事务中并不包括这些商品的具体信息,如商品的数量、价格等# 自定义一份数据集 data = {原创 2023-01-09 21:47:38 · 40966 阅读 · 5 评论 -
【机器学习】K近邻算法(K-NearestNeighbors , KNN)详解 + Java代码实现
邻近算法,或者说K最邻近(KNN,K-NearestNeighbors)分类算法是分类方法中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。KNN 最初由 Cover 和 Hart 于1968年提出,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。原创 2023-01-09 08:05:48 · 23743 阅读 · 3 评论 -
【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。原创 2023-01-08 17:25:41 · 26999 阅读 · 4 评论 -
【机器学习】信息论基础(联合熵、条件熵、交叉熵、KL散度等)+ Python代码实现
联合熵是一集变量之间不确定性的衡量手段。两个变量 XXX 和 YYY 的联合信息熵定义为 [1]{ }^{[1]}[1] :H(X,Y)=−∑x∑yP(x,y)log2[P(x,y)]\mathrm{H}(X, Y)=-\sum_{x} \sum_{y} P(x, y) \log _{2}[P(x, y)]H(X,Y)=−x∑y∑P(x,y)log2[P(x,y)]其中 xxx 和 yyy 是 XXX 和 YYY 的特定值,相应地, P(x,y)P(x, y)P(x,y) 是这些值一起出现的原创 2022-02-21 18:57:09 · 21685 阅读 · 0 评论 -
【机器学习】Linear Regression Experiment 线性回归实验 + Python代码实现
把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1,这个方法被广泛的使用在许多机器学习算法中(例如:支持向量机、逻辑回归和类神经网络)。原创 2022-10-18 21:54:48 · 23605 阅读 · 3 评论 -
【机器学习】Model Evaluation 常用模型评估方法 + Python代码实现
Scikit-learn(前身为scikits.learn,也称为sklearn)是一个用于Python编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means和DBSCAN,并且设计用于与Python数字和科学库NumPy和SciPy互操作。Scikit learn是NumFOCUS财政资助的项目。scikit-learn官网scikit-learn 的安装也很简单。直接 pip install 即可。原创 2022-10-18 13:10:11 · 25172 阅读 · 0 评论 -
【机器学习】Support Vertor Machine 支持向量机算法详解 + 数学公式推导 + Python代码实战
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性原创 2022-10-17 18:48:53 · 23071 阅读 · 3 评论 -
【机器学习】Ensemble Learning 集成学习 + Python代码实战
Bagging模型:并行训练一堆分类器,然后对所有分类器的结果求平均作为最后的结果Bagging模型中最典型的代表是:随机森林随机:数据随机采样,特征选择随机森林:多个决策树并行放在一起跟上学考试一样,这次做错的题,需要额外注意,下次就不要做错了堆叠:很暴力,拿来一堆直接上(各种分类器都来了)可以堆叠各种各样的分类器(KNN、SVM、RF、神经网络等等)分阶段:第一阶段得出各自的结果,第二阶段再用前一阶段的结果训练为了刷结果,不择手段!原创 2022-10-17 08:19:52 · 30223 阅读 · 2 评论 -
【机器学习】Decision Tree 决策树算法详解 + Python代码实战
节点在分割之前必须具有的最小样本数:叶子节点必须具有的最小样本数:叶子节点的最大数量:在每个节点处评估用于拆分的最大特征数(除非特征非常多,否则不建议限制最大特征数)max_depth:树最大的深度。原创 2022-10-11 20:53:40 · 44233 阅读 · 3 评论