![](https://img-blog.csdnimg.cn/20200221194118513.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
主要是机器学习算法基础,以及数据挖掘相关的知识
AI study
只有充实的每一天才能配得上完美的自己!
展开
-
混淆矩阵
混淆矩阵在机器学习领域中又称为错误矩阵或可能性表格。Example:假设有27只小动物:8只猫,6条狗,13只兔子。结果的混淆矩阵如下图:在混淆矩阵中,共有8只猫,其中又3只被预测成了狗;总共有6只够,其中被预测错的有3只;不过兔子预测效果不错。意义:混淆矩阵可以很方面的看出哪里有错误,因为正确的预测都在对角线上。...原创 2020-12-29 14:08:25 · 600 阅读 · 0 评论 -
【机器学习-基础算法】梯度下降法
俗话说,没有对比就没有伤害,为了体现出Tensorflow2.0,PyTorch等深度学习框架的便捷性,这次我们使用科学计算库Numpy来实现在整个机器学习领域中最重要,也是最基础的迭代优化算法----梯度下降法。话不多说,上菜导包:import numpy as npfrom sklearn import datasetsimport matplotlib.pyplot as plt%matplotlib inline计算误差def total_error_of_calcul原创 2020-12-09 11:19:57 · 190 阅读 · 0 评论 -
【深度学习之基础入门】发展历程与环境搭建
1.win10系统修改下载镜像源1】找到路径:C:\Users\Administrator;2】在该路径下新建文件夹,重命名为pip;3】进入pip目录,在该目录下新建文件pip.ini;文件内容如下:[global]timeout=6000index-url=http://pypi.douban.com/simpletrusted-host=pypi.douban.com修改成功!2.重新认识深度学习深度学习是基于深层神经网络实现的模型和算法2.1基础框架.原创 2020-09-07 23:56:43 · 104 阅读 · 0 评论 -
【深度学习】学习路线图
从学校到工作,学习了这么长时间,其实方向是很重要的,明确了方向,其次就是学习计划,要制定学习计划,那么学习路线是必不可少的。为此,我总结了深度学习的路线图,该图是自己要学习的几个考量,仅供参考。...原创 2020-06-19 14:14:55 · 3584 阅读 · 0 评论 -
【神经网络】BP算法
技术要点:计算图 激活函数 梯度下降法 链式求导法则 张量求导原理推到代码展示import numpy as npimport pickledef sigmoid(z): return 1/(1+np.exp(-z))def sigmoid_derivative(x): return sigmoid(x)*(1-sigmoid(x)...原创 2020-02-25 21:13:02 · 348 阅读 · 0 评论 -
【神经网络】激活函数
每个神经元模型包含一个input,一个output和一个权值以及一个处理单元。神经元输入的信号流即xi被认为是单向的,神经元输出信号是由激活函数f=func(z)处理后的。1.1基础概念1.1.1常见的激活函数h:sigmoid;tanh;relu;softplus;softsign;softmax等1.1.2以下是激活函数在运用中所需要得性质:1.1.2.1饱和当一个激活...原创 2020-02-25 18:54:06 · 394 阅读 · 0 评论 -
【神经网络】卷积神经网络CNN
3.1基础原理3.1.1发展历史3.1.2卷积和全连接网络对比1.1.1全连接层的缺点参数太多,权值太多,特征太多就会是资源的浪费 没有利用像素之间位置信息,对图像识别任务来说,每个像素与周围的像素都是联系比较紧密的. 层数的限制1.1.2对全连接层的改进我们在全连接层之前加入隐藏层,让参数变的比较少3.1.3结构分析1.基本结构2.结构详介神经网...原创 2019-12-19 15:57:08 · 158 阅读 · 0 评论 -
【神经网络】人工神经网络ANN
2.1softMax回归2.1.1softmax函数2.1.2几个算法之间的对比算法 策略 优化 线性回归 均方误差 梯度下降 逻辑回归 对数似然损失 提低下降(二分类) 神经网络 交叉熵损失(似然的升级) 反向传播BP,也就是梯度下降.文本(二分类或者多分类) 2.1.3损失函数我们的损失函数必须经过one-hot的...原创 2019-12-18 21:18:10 · 183 阅读 · 0 评论 -
【Tensorflow】文件IO操作
1.队列和线程2.文件读取2.1文件读取流程构造一个队列读取队列内容-readcsv文件-默认读取一行二进制文件-指定一个样本的bytes读取图片文件-一张一张的读取对内容进行解码批处理一次读取多个样本.主线程主要用来训练,子线程主要用来读取就是说我们设置一个阈值为50,只要主线程读取够50个样本,我们就拿去进行训练.2.2.文件读取API构造文件队列Q...原创 2019-12-17 21:51:24 · 154 阅读 · 0 评论 -
【迁移学习】遗传算法
1.基本概念1.1基因和染色体首先我们应该讲生物中的基因和染色体转换成数学中的解和解中的元素.举个例子:[1,2,3]、[1,3,2]、[3,2,1]是3x+4y+5z<100,在这里我们认为这个式子有三个染色体,每个染色体上有3个基因.1.2适应度函数自然界中优胜劣汰,那么在遗传算法中我们需要用适应度函数完成优胜劣汰.遗传算法在运行的过程中会进行N次迭代,每次迭代都会生成若干...原创 2019-12-17 11:56:27 · 1219 阅读 · 0 评论 -
【神经网络】感知机
1.地位尽管在现在的企业中感知机是不怎么用,用起来也没有现在的神经网络的准确率高,但是它却是神经网络和支持向量机的基础,因此想要学好后续的神经网络,感知机必须搞懂.2.原理感知机是二分类的线性问题,输入是实例的特征向量(多个信号),输出的是事例的类别(一个信号),属于判别模型.如果说数据集线性可分,感知机学习目标是求得一个能够将正实例点和负实例点完全正确分开的分离超平面.如果线性不可分,最...原创 2019-12-12 19:36:25 · 369 阅读 · 0 评论 -
【tensorflow1.0】基础入门01
一、基础入门1、什么是tensorflow1】可视化展示http://playground.tensorflow.org2】tensor-张量,flow-流动,其实就是张量在图中飞,支持CNN,RNN,LSTM算法,目前主要用于图像和NLP处理2、tensorflow优点1】多语言支持2】CPU或者GPU上都可运行3】代码的编译效率比较高4】发展比较迅速5】能够生成网络拓扑结构...原创 2019-12-10 22:11:26 · 643 阅读 · 0 评论 -
【机器学习之百面机器学习】第一章:特征工程
本章主要讨论两种常用的数据类型。1、结构化数据:包含数值型和类别型两种基本类型;可认为是数据库中的一张表,每行每列都有清晰的定义,每一行数据都表示一个样本信息。2、非结构化数据:包含文本、图像、音频、视频数据;包含的信息无法用简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。1.特征归一化为了消除特征之间的量钢化影响,我们需要对特征进行归一化处理,使不同指标之间具有可比性。2.类别型特征3.高维组合特征的处理4.组合特征5.文本表示模型...原创 2020-09-08 18:04:06 · 160 阅读 · 0 评论 -
【特征工程】数据降维
前几个章节我们将了机器学习的基础知识以及数据预处理和特征选择,本章节我们将讲述数据降维,在次之前,首先我们要明白为什么要进行数据降维操作?加快运算速度 有利于防止过拟合(但防止过拟合最好的方法却是正则化) 减少用来存储数据的空间2.3数据降维当特征选择完成之后,可以直接训练模型,但是可能由于矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也就必不可少了。数据降维可以保证...原创 2020-04-07 00:33:13 · 665 阅读 · 0 评论 -
【时间序列】ARIMA模型
1.基础知识应用:根据股票历史数据的增长情况,预测未来的趋势;根据当前降雨量预测未来一周或者一个月的降雨情况.平稳性有规律可循才能进行预测,时间序列数据必须要有惯性,数据的内部有一定的平稳性平稳性要求数据均值和方差不发生明显的变化严平稳和弱平稳严平稳:...原创 2020-03-24 20:08:41 · 4298 阅读 · 0 评论 -
【机器学习】线性回归
一元线性回归正相关和负相关斜率和截距回归问题就是求方程的系数代价函数(损失函数)因为距离是正的,为了把值变成正的,我们我们可以使用拒绝值求解,也可以使用平方求解,但是绝对值求导数不方便,因此我们使用平方 误差肯定越小越好 除以m是为了求每个样本的平均值,而2是为了消除求导之后的2为了让结果最好,我们应该让代价函数最小我们可以调节不同的权值来改变相关性系...原创 2020-03-03 23:41:15 · 1634 阅读 · 0 评论 -
【回归算法】回归分析
1.1什么是回归问题?线性:两个变量之间的关系是一次函数关系(直线) 非线性:两个变量之间的关系不是一次函数关系 回归:根据两个或者多个数据之间的关系,找到他们之间的一条线,我们把这条线叫做这些变量之间的回归线,通过这条回归线,我们便可以预测出已知变量对应的未知数值.1.2回归分析解决什么样的问题?寻找到数据与数据之间的规律所在,从而就可以模拟出结果,也就是对结果进行预测。解决的就是...原创 2020-01-10 21:22:20 · 398 阅读 · 0 评论 -
【分类算法】决策树
原创 2020-03-30 00:40:13 · 115 阅读 · 0 评论 -
【分类算法】K近邻算法01
在机器学习模型中涉及衡量两个样本之间的距离的算法模型.如:聚类\KNN\KMeans等,使用的都是欧式距离,其实除了欧式距离之外还有很多距离的计算标准,本文将会介绍欧式距离和马氏距离.欧式距离point1:(x1,x2,x3..xn);point2:(y1,y2,y3,...yn)马氏距离首先明确几个概念:方差:标准差的平方,数据集中各个点到均值点距离的平均值,反应数据的离...原创 2020-02-08 01:00:59 · 207 阅读 · 0 评论 -
【特征工程】特征选择
上一章节我们系统性的讲述了数据预处理,本章我们将讲解特征选择。参看官网,效果更佳!目录2.2特征选择2.2.1过滤法(Filter)2.2.1.1方差选择法2.2.1.2相关系数法2.2.1.3卡方检验2.2.1.4互信息法2.2.2包装法(wrapper)2.2.3嵌入法(Embedded)2.2.3.1基于惩罚项的特征选择2.2.3.2基于树模型的特...原创 2020-04-05 23:19:28 · 301 阅读 · 0 评论 -
【特征工程】数据预处理
本章节将讲述数据预处理操作,如:缺失值的填充 文本数据的编码 连续数据离散化 数据无状态转换 数据的无量纲化 数据的特征衍生(是一个正好和特征选择相反的操作,有时候我们对数据进行特征衍生之后,往往可以得到更好的结果。)操作官方文档阅读,效果更佳!2.1数据预处理2.1.1缺失值的填充2.1.1.1单变量插补这种方法是根据具体的情况进行的填充,我们可以填充最大值、最小...原创 2020-04-04 23:36:10 · 262 阅读 · 0 评论 -
【机器学习】基础知识
1、为什么要进行归一化由于原始数据值的范围差异很大,这可能导致具有相同权重的要素,因为数值范围的不同而造成权重的不一致,为此将特征范围归一化,可使得,每个特征对最终距离的贡献大致成比例。2、归一化的好处1】加快了梯度下降求最优解的速度;2】还有可能提高精度3、归一化的方法1】线性归一化公式:使用:适用于数值比较集中的情况,处理后的数据范围为[0,1]区间内。这种方法的缺陷是,如...原创 2019-11-13 18:06:40 · 289 阅读 · 0 评论 -
【数据挖掘】知识点总结
一、原创 2019-06-17 19:33:34 · 1616 阅读 · 1 评论 -
【数据挖掘】技术点总结
第一天一、 了解数据分析与数据挖掘1、 数据挖掘的过程1、定义目标2、获取数据3、数据探索:对数据初步的研究4、数据预处理(数据清洗–数据集成–规范化数据–数据规约即数据标准化)5、挖掘建模(分类、聚类、关联、预测)6、模型评价与发布二、 数据分析与数据挖掘中相关模块的简介与安装1、 模块简介Numpy:处理数据,提供数组的支持,很多模块的基础Pandas:数据探索和数据分...原创 2019-06-08 11:39:17 · 2952 阅读 · 0 评论