机器学习算法
文章平均质量分 93
机器学习算法
Rocket,Qian
硕士毕业于同济大学,主要方向是机器学习、深度学习、推荐算法研究以及量化。精通python、MATLAB,熟悉java、C++等编程语言,熟练掌握数据结构与算法、计算机网络,sklearn、XGboost、Tensorflow、pytorch、Keras等框架,分布式系统等。
展开
-
激活函数总结
激活函数1.激活函数的性质2.常见激活函数2.1 sigmoid型函数2.1.1 Logisitic函数2.1.2 Tanh函数2.2 ReLU函数2.2.1 LeakyReLU函数2.2.2 PReLU函数2.2.3 ELU函数2.2.4 softplus函数2.3 Swish函数2.4 GELU函数2.5 Maxout单元1.激活函数的性质1.连续并可导(允许少数点不可导)的非线性函数可导的激活函数可直接数值优化来学习网络参数2.激活函数及其导函数要尽可能的简单利于提高网络计算效率原创 2021-07-15 16:16:54 · 480 阅读 · 0 评论 -
推荐算法之FM
推荐算法之FM1.模型原理2. 延伸2.1 对比MLP+Embedding2.2 领域信息Field3. FM的Tensorflow实现3. 参考1.模型原理FM出现之前的传统的处理方法是人工特征工程加上线性模型(如逻辑回归Logistic Regression)。为了提高模型效果,关键技术是找到到用户点击行为背后隐含的特征组合。如男性、大学生用户往往会点击游戏类广告,因此 “男性且是大学生且是游戏类” 的特征组合就是一个关键特征。但这本质仍是线性模型,其假设函数表示成内积形式一般为:ylinear=原创 2021-07-07 18:51:54 · 721 阅读 · 4 评论 -
Wide & Deep模型原理与案例实现
Wide & Deep原创 2021-07-06 23:53:14 · 1028 阅读 · 1 评论 -
Embedding技术在推荐系统中的应用
Embedding技术1.什么是 Embedding?1.1 词向量的例子1.2 Embedding技术对于深度学习推荐系统的重要性2.word2vec——经典的Embedding方法2.1 什么是word2vec2.2 Word2vec的训练过程2.3 Word2vec的负采样训练方法3.Item2vec——Word2vec在推荐系统领域的推广到处都在谈Embedding,那么Embedding技术到底是什么呢?1.什么是 Embedding?Embedding 其实就是用一个低维稠密的数值向量“表原创 2021-01-14 16:51:08 · 366 阅读 · 1 评论 -
二类线性分类模型-感知机
感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导出基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。是神经网络与支持向量机的基础。原创 2020-11-26 18:02:54 · 848 阅读 · 0 评论 -
支持向量机(SVM)
支持向量机 support vector machines1.线性可支持向量机与硬间隔最大化1.1 线性可分支持向量机1.2 函数间隔和几何间隔1.3 间隔最大化1.4 学习的对偶算法2.线性支持向量机与软间隔最大化3.非线性支持向量机与核函数3.1 核技巧3.2 正定核3.3 常用核函数4.序列最小最优化算法SMOSVM 是一个非常美丽的算法,具有完善的数学理论,曾经把神经网络按在地上摩擦,所以决定花点时间去学习以及整理一下。支持向量机是一种二类分类模型。其基本模型是定义在特征空间上的间隔最大的线性分原创 2020-10-22 21:08:27 · 699 阅读 · 0 评论 -
经典ML之CART算法
CART算法1.CART算法1.1 CART生成1.1.1 回归树的生成1.1.2 分类树的生成1.2 CART剪枝1.CART算法分类回归树(classification and regression tree,CART)模型是应用广泛的决策树学习方法。CART同样由特征选择、树的生成以及剪枝组成,既可以用于分类也可以用于回归。同样属于决策树的一种。CART算法由以下两步组成:决策树的生成:基于训练数据集生成决策树,生成的决策树要尽量大;决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子原创 2020-09-25 22:43:20 · 436 阅读 · 0 评论 -
推荐系统的排序算法-树模型
推荐系统的排序算法-树模型01. 决策树1.1 决策树算法1.1.1决策树模型1.1.2 特征选择1.1.3 决策树的生成1.1.4 决策树的剪枝1.2 决策树的集成算法1.3 决策树集成算法案例2. 集成学习2.1 GBDT+LR主要包括决策树、随机森林(RF)、GBDT、GBDT+LR和深度森林。树模型的优点是可以通过有监督的方式进行特征的自动交叉和选择,也是集成学习中的常用方法或组成部分,树模型在工业界常用的方法有GBDT+LR和Xgboost。1. 决策树1.1 决策树算法决策树是随机森林原创 2020-09-17 17:25:45 · 1996 阅读 · 0 评论 -
推荐系统的排序算法-线性模型
推荐系统的排序算法-线性模型1. 逻辑回归1.1 逻辑回归算法1.2 逻辑回归算法实现2. 因子分解机FM推荐系统的排序算法,就是根据用户和物品的所有标签特征,通过排序模型计算,得到用户对候选物品集的评分。其中,在排序模块中使用的特征比召回模块中的复杂,目的是计算用户精确的预测值。工业界最常使用的方法是逻辑回归和FM。1. 逻辑回归逻辑回归(Logistics Regression,LR)是一种解决二分类问题的机器学习方法,用于获得某种事物的估计值。1.1 逻辑回归算法二元逻辑回归模型逻辑回归原创 2020-09-15 23:20:29 · 778 阅读 · 0 评论 -
集成学习知识点(葫芦书笔记)
集成学习 1.集成学习种类2. 基分类器3. 偏差与方差4. GBDT的优缺点:5. XGboost和GBDT的联系和区别1.集成学习种类BoostingBoosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。BaggingBagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。(著名算法:RF)Bagging原创 2020-08-25 16:12:03 · 309 阅读 · 0 评论 -
机器学习中的优化算法
优化算法1. 有监督学习的损失函数2. 机器学习中的优化问题3. 经典优化算法4. 随机梯度下降法5. SGD的加速6. L1正则化与稀疏性机器学习算法=模型表征+模型评估+优化算法优化算法所做的事情就是在模型表征空间中找到模型评估指标最好的模型。1. 有监督学习的损失函数在有监督学习中,损失函数刻画了模型和训练样本的匹配程度。二分类问题损失函数0-1损失Hinge损失Logistic损失函数交叉熵 Cross Entropy回归问题最常用的损失函数:平方损失函数。Lsq原创 2020-08-24 22:17:14 · 374 阅读 · 0 评论 -
监督学习方法特点总结
监督学习方法特点概括总结方法适用问题模型特点模型类型学习策略损失函数学习算法感知机二分类分离超平面判别模型极小化误分点到超平面距离误分点到超平面距离随机梯度下降k近邻法多分类、回归特征空间、样本点判别模型———朴素贝叶斯多分类特征与类别的联合概率分布,条件独立假设生成模型极大似然估计、最大后验概率估计对数似然损失概率计算公式、EM算法决策树多分类、回归分类树、回归树判别模型正则化的极大似然估计对数似然损失特征选原创 2020-08-20 22:03:14 · 1820 阅读 · 0 评论 -
ML之集成学习
集成学习1. 机器学习中的集成学习1.1 个体与集成1.1.2 Boosting1.2 Bagging与Random Forest1.2.1 Bagging1.2.2 随机森林1.3 结合策略1.3.1 平均法(回归问题)1.3.2 投票法(分类问题)1.3.3 学习法1.3.4 多样性(diversity)1.4 **Boosting模型**1.4.1 数学准备1.2 Gradient Boosting Tree1.3 XGboost1.4 高效的工具包 LightGBM1. 机器学习中的集成学习1.原创 2020-08-20 13:40:39 · 199 阅读 · 0 评论 -
无监督学习之主成分分析PCA
1.数据降维与主成分分析PCA主成分分析(principal component analysis,PCA)是一种常用的无监督学习方法,利用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。1.1 基本思想后续持续补充,码公式不易!1.2 PCA算法总结PCA算法步骤:设有m条n维数据将原始数据按列组成n行m列矩阵XXX将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值求出协方差矩阵C=1mXXTC={1\over m}原创 2020-08-19 17:22:51 · 1562 阅读 · 0 评论 -
无监督学习之聚类方法
1.聚类算法1.1 聚类聚类算法分为两类:Partitioning Clustering:K-means/K=medoidsGaussian Mixture Model(高斯混合模型)Spectral Clustering(谱聚类)Centroid-based ClusteringHierarchical Clustering:Single-linkageComplete-linkageConnectivity-based Clusting聚类算法的应用:数据压缩原创 2020-08-19 17:19:28 · 795 阅读 · 0 评论 -
ML之分类回归树与随机森林
总结与记录之前学的一些知识!持续更新!!!1.分类回归树与随机森林1.1 连续值和缺失值的处理连续值处理基本思路:连续属性离散化常见做法:二分法(bi-partition)n个属性值可形成n-1个候选划分把候选划分值当做离散属性处理,寻找最佳划分缺失值处理基本思路:样本赋权,权重划分1.2 回归树模型1.2.11.2.2 回归树的构建方法假设一个回归问题,预估结y∈Ry\in Ry∈R,特征向量X=[x1,x2,...,xp]∈RX= [x_1,x_2,...,x_p]\原创 2020-08-18 19:08:06 · 540 阅读 · 2 评论 -
ML之朴素贝叶斯
1.贝叶斯分类器持续更新!!!1.1 简介1.1.2 贝叶斯分类的基础-贝叶斯定理P(B∣A)=P(A∣B)P(B)P(A)P(B|A)= {P(A|B)P(B) \over P(A)}P(B∣A)=P(A)P(A∣B)P(B)1.2 朴素贝叶斯法(naive Bayes)朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯是典型的原创 2020-08-16 23:36:07 · 216 阅读 · 0 评论 -
经典ML之决策树 Decision Tree
1.决策树 Decision Tree1.1 简介决策树是一种基本的分类与回归方法。决策树的衍生算法有ID3, C4.5和C5.0等。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性、分类速度快。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部节点(internal node原创 2020-08-14 17:34:15 · 417 阅读 · 0 评论 -
经典ML之Logisitic Regression
逻辑回归(对数几率回归 Logisitic Regression)未完待续!!!1.模型介绍Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 具有简单、可并行化、可解释强等优点。逻辑回归由于存在易于实现、解释性好以及容易扩展等优点,被广泛应用于点击率预估(CTR)、计算广告(CA)以及推荐系统(RS)等任务中。逻辑回归虽然名字叫做回归,但实际上却是一种分类学习方法。Logistic 回归的本质是:假设数据服从这个分原创 2020-08-13 15:00:37 · 148 阅读 · 0 评论 -
经典ML之线性模型 Linear model
经典机器学习模型之线性模型1. 线性模型 Linear modelhθ(x)=θ0+θ1x1+...+θnxnh_\theta(x) = \theta_0+\theta_1x_1+...+\theta_nx_nhθ(x)=θ0+θ1x1+...+θnxnh(x)=∑i=1nθixi=θTxh(x)= \sum_{i=1}^n\theta_ix_i=\theta^Txh(x)=i=1∑nθixi=θTxJ(θ)=12∑i=1m(hθ(x(i))−y(i))2J(\theta原创 2020-08-13 11:01:25 · 622 阅读 · 0 评论