机器学习
YEGE学AI算法
From Zero To Hero!
展开
-
机器学习07-(中文分词、样本类别均衡化、置信概率、k-means聚类算法、均值漂移聚类算法)
机器学习-07机器学习-07中文分词(jieba)样本类别均衡化置信概率聚类模型K均值算法均值漂移算法轮廓系数DBSCAN算法推荐引擎机器学习-07中文分词(jieba)https://github.com/fxsjy/jieba样本类别均衡化上采样与下采样处理样本类别均衡化下采样:把样本数据量大的那一类样本减少到与数据量小的那一类样本数量相近。上采样:把样本数据量小的那一类样本增加到与数据量大的那一类样本数量相近。通过类别权重的均衡化,使所占比例较小的样本权重较高,而所占比例较大的样本权重原创 2020-07-10 11:20:04 · 698 阅读 · 0 评论 -
“结巴”中文分词:做最好的 Python 中文分词组件
jieba“结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.特点支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词原创 2020-07-10 11:14:32 · 830 阅读 · 0 评论 -
机器学习06-(支持向量机SVM、网格搜索、文本分词、词袋模型、词频、文本分类-主题识别)
机器学习-06机器学习-06支持向量机(SVM)支持向量机原理网格搜索情感分析文本分词词袋模型词频(TF)文档频率(DF)逆文档频率(IDF)词频-逆文档频率(TF-IDF)文本分类(主题识别)朴素贝叶斯分类机器学习-06支持向量机(SVM)支持向量机原理寻求最优分类边界正确:对大部分样本可以正确地划分类别。泛化:最大化持向量间距。公平:与支持向量等距。简单:线性,直线或平面,分割超平面。基于核函数的升维变换通过名为核函数的特征变换,增加新的特征,使得低维度空间中的线性不可分问题原创 2020-07-09 15:46:24 · 1639 阅读 · 1 评论 -
sklearn数据预处理中fit(),transform()与fit_transform()的区别
1 概述注意这是数据预处理中的方法:Fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释:简单来说,就是求得训练集X的均值啊,方差啊,最大值啊,最小值啊这些训练集X固有的属性。可以理解为一个训练过程Transform(): Method using these calcula...原创 2020-07-08 17:18:20 · 664 阅读 · 1 评论 -
机器学习05-(分类模型\逻辑回归:训练集和测试集划分、交叉验证、交叉验证指标、混淆矩阵、分类报告 ,决策树分类)
机器学习-05机器学习-05分类模型逻辑回归数据集划分交叉验证混淆矩阵分类报告决策树分类验证曲线学习曲线支持向量机(SVM)支持向量机原理机器学习-05分类模型逻辑回归数据集划分对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据,而应该在其每一个类别的样本中抽取特定百分比作为训练数据。sklearn模块提供了数据集划分相关方法,可以方便的划分训练集与测试集数据,使用不同数据集训练或测试模型,达到提高分类可信度。数据集划分相关API:import sklearn.mod转载 2020-07-08 11:16:30 · 10181 阅读 · 0 评论 -
机器学习04-(决策树、集合算法:AdaBoost模型、BBDT、随机森林、分类模型:逻辑回归)
机器学习04机器学习-04集合算法AdaBoost模型(正向激励)GBDT自助聚合随机森林分类模型什么问题属于分类问题?逻辑回归数据集划分交叉验证混淆矩阵分类报告机器学习-04集合算法根据多个不同模型给出的预测结果,利用平均(回归)或者投票(分类)的方法,得出最终预测结果。基于决策树的集合算法,就是按照某种规则,构建多棵彼此不同的决策树模型,分别给出针对未知样本的预测结果,最后通过平均或投票得到相对综合的结论。常用的集合模型包括Boosting类模型(AdaBoost、GBDT)与Bagging(自转载 2020-07-07 09:43:17 · 1453 阅读 · 0 评论 -
机器学习03-(决策树:基本原理及集合算法、波士顿房屋价格数据分析与房价预测)
机器学习-03机器学习-03决策树基本算法原理集合算法AdaBoost模型(正向激励)GBDT自助聚合随机森林机器学习-03决策树基本算法原理核心思想:相似的输入必会产生相似的输出。例如预测某人薪资:年龄:1-青年,2-中年,3-老年学历:1-本科,2-硕士,3-博士经历:1-出道,2-一般,3-老手,4-骨灰性别:1-男性,2-女性年龄学历经历性别==>薪资1111==>6000(低)2131==>10000(中)原创 2020-07-06 12:00:21 · 2825 阅读 · 0 评论 -
机器学习02-(损失函数loss、梯度下降、线性回归、评估训练、模型加载、岭回归、多项式回归)
机器学习-02回归模型线性回归评估训练结果误差(metrics)模型的保存和加载岭回归多项式回归决策树基本算法原理回归模型线性回归输入 输出0.5 5.00.6 5.50.8 6.01.1 6.81.4 7.0...y = f(x)预测函数:y = w0+w1xx: 输入y: 输出w0和w1: 模型参数所谓模型训练,就是根据已知的x和y,找到最佳的模型参数w0 和 w1,尽可能精确地描述出输入和输出的关系。5.0 = w0原创 2020-07-04 15:51:58 · 3199 阅读 · 0 评论 -
机器学习01-(机器学习概述、数据预处理、线性回归,损失函数、梯度下降)
机器学习机器学习概述什么是机器学习为什么需要机器学习机器学习的问题机器学习的种类机器学习的一般过程机器学习的典型应用机器学习的基本问题数据预处理均值移除(标准化)范围缩放归一化二值化独热编码(onehot)标签编码回归模型线性回归机器学习概述什么是机器学习机器学习是一门能够让编程计算机从数据中学习的计算机科学。一个计算机程序在完成任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E增加而增加,那么这样计算机程序就被称为机器学习系统。自我完善,自我增进,自我适应转载 2020-07-03 14:36:33 · 554 阅读 · 0 评论