机器学习算法学习
文章平均质量分 69
常用机器学习算法讲解
laufing
944582529@qq.com 邮箱,用于交流学习
展开
-
逻辑回归分类算法
逻辑回归;公式推导;sklearn的逻辑回归用法原创 2024-06-01 10:37:52 · 728 阅读 · 0 评论 -
机器学习目录
机器学习内容原创 2024-05-31 22:42:02 · 1232 阅读 · 0 评论 -
梯度下降与归一化
原创 2021-03-30 21:25:16 · 318 阅读 · 0 评论 -
线性回归
线性回归概念决策函数损失函数示例及代码概念使用线性数学模型,解决回归预测问题决策函数线性数学模型y=w(0)x(0)+w(1)x(1)+...+w(n)x(n)y = w^{(0)}x^{(0)}+w^{(1)}x^{(1)}+...+w^{(n)}x^{(n)}y=w(0)x(0)+w(1)x(1)+...+w(n)x(n)=wTx=w^Tx=wTxw=(w(0)w(1)...w(n))x=(x(0)x(1)...x(n))w = \begin{gathered}\begin{pmatr原创 2021-03-18 23:09:18 · 119 阅读 · 0 评论 -
ML数据预处理
预处理数据集数据预处理归一化二值化样本的归一化独热编码数据集ML数据集矩阵每行:一个样本每列:一个特征SQL数据集每行:记录每列:字段面向对象 数据每行:对象每列:属性数据预处理归一化最小最大归一化scale=x−minmax−minscale = \frac {x-min}{max-min}scale=max−minx−minx为每一列数据x 为每一列数据x为每一列数据scale=X−minmax−minscale = \frac {X-min}{max-min}sc原创 2021-03-17 17:37:05 · 208 阅读 · 0 评论 -
ML面试
ML做过什么项目?数据来源?数据清洗过程?特征工程用了哪些模型?训练多久?模型的评估方式得分多少?测试结果怎么样?怎么部署模型?怎么维护模型?做过什么项目?需求问题数据来源?总共多少数据量数据清洗过程?缺失值,异常值的处理方法特征工程怎么选择特征的用了哪些模型?模型的选择为什么使用这个模型?训练多久?训练过程模型的评估方式分类 评估指标:准去率、平均准确率、精确率、召回率、f1score、混淆矩阵,分类报告、学习曲线、ROC、AUC准去率、平均准确率、精确率、召回率、f1_{原创 2021-03-17 16:12:27 · 112 阅读 · 0 评论 -
机器学习要解决的问题
机器学习为什么需要MLML需要解决的问题ML分类数据处理机器学习业务运维ML应用业务场景面试问题为什么需要ML自动化的升级、维护可以自我学习,自我改善解决算法过于复杂的问题解决没有具体算法的问题ML需要解决的问题建模问题从数据集中,统计、推理 学习到决策函数 y=f(X)y=f(X)y=f(X)评估问题对于一个输入XXX,决策函数的输出yyy跟实际的值之间 有一定的误差,需要构建评估系统,根据误差来判断决策函数的优劣优化问题找到最优解ML分类监督学习、无监原创 2021-03-17 16:00:22 · 302 阅读 · 0 评论 -
集合模型
集合模型Bagging 与随机森林bagging 思想随机森林sklearn中的随机森林Boosting 与AdaBoostboosting思想AdaBoostsklearn中的AdaBoostGBDT算法sklearn中的GBDTBagging 与随机森林bagging,自助聚合算法bagging 思想随机森林sklearn中的随机森林from sklearn.ensemble import RandomForestClassifierfrom sklearn.ensemble import原创 2021-03-16 12:00:09 · 609 阅读 · 0 评论 -
电影推荐系统 搭建
推荐系统+服务部署基于用户 协同过滤 推荐步骤训练模型 代码使用模型基于物品 协同过滤 推荐搭建服务,部署模型数据集基于用户 协同过滤 推荐训练基于 用户用户用户 的协同过滤推荐步骤1.加载用户画像数据,即通过提取用户的特征,向量化2.计算用户之间的相似度,自己设计算法欧式距离,余弦距离,相关系数,聚类欧式距离,余弦距离,相关系数,聚类欧式距离,余弦距离,相关系数,聚类3.取出与 目标用户目标用户目标用户 相似度高的用户,从这些用户交互的物品中,选出目标用户未交互的物品,计算推荐评分4.原创 2021-03-15 12:08:42 · 428 阅读 · 1 评论 -
推荐系统
pending原创 2021-03-14 22:34:46 · 153 阅读 · 0 评论 -
OPTICS聚类
OPTICS聚类Ordering Points To Identify Cluster StructureDBSCAN算法的衍生算法引入可达距离,解决ε\varepsilonε参数确定的问题定义样本点xix_ixi的核心距离若样本点xix_ixi为核心点,则其有核心距离,否则没有核心距离如下图,在指定ε\varepsilonε距离阈值和MinPts=4时,样本点xix_ixi第一近邻点为本身(这里计入本身点),第二近邻点为样本2,第三近邻点为样本3(x1)(x_1)(x1),第原创 2021-03-14 22:30:42 · 1804 阅读 · 3 评论 -
DBSCAN密度聚类
DBSCAN经典的密度聚类DBSCAN基本概念ε\varepsilonε邻域(eps邻域)ε\varepsilonε是一个距离阈值,对于样本集S中的任意xix_ixi样本,与其距离小于等于ε\varepsilonε阈值的其他样本的集合,叫做样本xix_ixi的ε\varepsilonε邻域记为:Nε(xi)N_\varepsilon(x_i)Nε(xi)= {xj∣dist(xi,xj)≤ε{ x_j|dist(x_i,x_j)\le \varepsilon }xj∣dist(xi原创 2021-03-14 22:28:52 · 281 阅读 · 0 评论 -
样本类别不均衡
均衡化下采样上采样模型参数置信概率下采样对类别多的一类,采样,减少其样本数np.random.choice(10000,100,replace=True)上采样对类别少的一类,搜集更多的样本模型参数有些模型具有class_weight 参数“balanced” 均衡化{0:0.1,1:0.9} 权重字典置信概率即预测属于某个类别的概率,可信程度from sklearn.svm import SVCclf = SVC(C=1.0,kernel="rbf",gamma=0.1,pr原创 2021-03-14 20:41:52 · 92 阅读 · 0 评论 -
情感分析
舆情分析文本语义分析文本分词英文分词中文分词文本向量化语音向量化图片向量化三级目录文本语义分析对训练文本,分析提取关键字,形成词典统计词典中每个词在文本中的Tf-idf值,文本向量化构建 监督学习模型预测 测试样本的 情感类别文本分词英文分词nltkpip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simple/#使用from nltk import tokenize as tkdoc = "Are you cur原创 2021-03-11 23:55:44 · 160 阅读 · 0 评论 -
朴素贝叶斯算法
Naive Bayes贝叶斯定理先验概率及估计后验概率及估计多项式NB高斯NBsklearn中的NB基于NB 的垃圾邮件分类朴素贝叶斯:1、特征条件独立假设2、基于贝叶斯定理 --条件概率公式分类算法,广泛应用于NLP贝叶斯定理先验概率及估计后验概率及估计多项式NB高斯NBsklearn中的NBfrom sklearn.naive_bayes import MultinomialNBclf = MultinomialNB(alpha=1.0) #alpha 平滑参数from原创 2021-03-11 21:29:08 · 114 阅读 · 1 评论 -
支持向量机分类算法
SVM基本思想;硬间隔;软间隔;核函数;拉格朗日乘子式原创 2021-03-09 17:16:04 · 867 阅读 · 2 评论 -
决策树算法
Cart决策树Cart 分类树Cart 回归树项目案例Cart 分类树Cart 回归树项目案例原创 2021-03-04 09:46:41 · 318 阅读 · 1 评论 -
分类模型评价指标
分类评价准确率 平均准确率准确率:平均准确率:例子代码混淆矩阵查准率 召回率 f1_score分类报告ROC AUC准确率 平均准确率准确率:对于验证集,模型预测正确的样本数/ 预测的总样本数accuracy=ncorrectntotalaccuracy = \frac {n_{correct}} {n_{total}}accuracy=ntotalncorrect缺点:在训练集,验证集类别严重不平衡时,准确率无法全面评估模型平均准确率:对每个类别,计算准确率,然后所有类别准确率原创 2021-03-03 11:57:51 · 599 阅读 · 0 评论 -
数据集的划分与交叉验证
数据集的划分与交叉验证数据集的划分交叉验证学习曲线数据集的划分训练模型的时候,为防止模型只在训练集上有效,需将数据集划分为训练集,验证集,如8/2分,训练集占比80%, 验证集占比20%此时,不能从整体样本空间划分数据集,应按照每个类别,进行8/2分理解:若在整个样本集上划分,比如对2类样本的规律学习到的很少,模型有偏差用学习到大多数0,1类样本规律的模型,预测2类样本,准确率也不会很高就好比我们人的学习,学习的时候让你学习大量的语文,数学,然后考试的时候让你考大量的英语,那这尴尬了原创 2021-03-02 21:01:56 · 1801 阅读 · 0 评论 -
多项式回归
多项式回归线性回归多项式回归sklearn库实现多项式变换线性回归在回归分析中,对于线性可分的数据集,如下:二维平面中的一条直线即可将两类数据点分开但是 如果是如下的情况:一条直线就不能很好的将数据分开,线性回归就力不从心了这个时候可以采用多项式回归多项式回归采用原有数据维度的多项式表示若原有1个维度x1−−−>二阶多项式x12+x1+1x_1 --->二阶多项式 x_1^2 +x_1+1x1−−−>二阶多项式x12+x1+1若有2个维度x1,x2−−&g原创 2021-02-25 14:29:51 · 245 阅读 · 0 评论 -
Kmeans 聚类算法
KMeans典型的划分聚类划分聚类划分聚类使用场景KMeans算法属于无监督学习,解决聚类的问题对于数据集D, 不需提供数据标记,大大减少工作量数据集D必须是凸集,非凸数据集难以收敛必须先指定聚类簇数kk-means优点原理简单,实现容易,可解释性较强聚类效果较好主要的调参只有kk-means缺点k值的选择不好把握只适用于凸集,非凸数据集难以收敛损失函数非凸,易收敛于局部最优解对于噪声和异常点比较敏感基本思想簇内尽量紧凑,簇间尽量分散算法步骤随机初始化k原创 2021-02-20 13:09:26 · 3058 阅读 · 0 评论 -
KNN分类算法
K近邻算法原创 2021-02-19 23:07:14 · 486 阅读 · 1 评论 -
建立球树算法
KNN之球树算法一级目录二级目录三级目录一级目录二级目录三级目录原创 2021-02-19 23:05:23 · 259 阅读 · 0 评论 -
KD树算法
KNN之KD树一级目录二级目录三级目录一级目录二级目录三级目录原创 2021-02-19 23:03:36 · 107 阅读 · 0 评论 -
sklearn 算法选择
中文版:英文版:原创 2021-02-02 08:49:49 · 154 阅读 · 0 评论 -
无监督学习--聚类算法
KMeans聚类使用场景二级目录三级目录使用场景KMeans算法属于无监督学习,解决聚类的问题对于数据集D, 不需提供数据标记,大大减少工作量数据集D必须是,非凸数据集难以收敛二级目录三级目录...原创 2021-01-11 20:37:31 · 341 阅读 · 1 评论 -
聚类结果的评价指标
聚类评价指标外部指标Jaccard系数FM指数举例子MI外部指标Jaccard系数FM指数举例子MImutual info,互信息原创 2021-01-10 11:29:52 · 4386 阅读 · 0 评论 -
凸数据集与凸函数
凸数据集与凸函数凸数据集凸函数凸数据集如果一个数据集D是凸的,那么对于其中任意的两点x,y∈D,θ∈R,0≤θ≤1,则 θ x + ( 1 − θ ) y ∈ C \theta x + (1-\theta)y\in Cθx+(1−θ)y∈C凸函数原创 2021-01-03 14:09:26 · 6515 阅读 · 0 评论 -
机器学习环境安装
Anaconda环境搭建windows系统二级目录三级目录Linux系统MacOS系统下载地址:https://repo.anaconda.com/archive/ 下载速度慢清华源:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载速度快安装指导文档:https://docs.anaconda.com/anaconda/install/windows系统二级目录三级目录Linux系统MacOS系统...原创 2020-12-31 17:49:29 · 883 阅读 · 0 评论