![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
"灼灼其华"
HELLO WORLD,HELLO FUTURE!
展开
-
数据集shuffle方法中buffer_size
是做随机采样使用的缓冲大小,buffer_size的值是相对于batch_size而言的tensorflow中的数据集类Dataset有一个shuffle方法,用来打乱数据集中数据顺序,训练时非常常用。其中shuffle方法有一个参数buffer_size,非常令人费解,文档的解释如下:buffer_size: A tf.int64 scalar tf.Tensor, representing the number of elements from this dataset from which .转载 2021-03-01 15:18:36 · 2086 阅读 · 0 评论 -
categorical[np.arange(n), y] = 1 IndexError: index 2 is out of bounds for axis 1 with size 2
报错详情:categorical[np.arange(n), y] = 1 IndexError: index 34is out of bounds for axis 1 with size 29错误的原因一(来自网上):这是因为train_labels不是numpy.array的形式,需要把train_labels转化为numpy数组的形式自己输出类型,发现训练数据的标签类型为 numpy.array原因二:数据标签是不连续的数值,最小为1,最大为36,不重复计数为29个,所以我.原创 2020-10-16 22:17:49 · 13311 阅读 · 1 评论 -
Jupyter配置本地python环境,修改Jupyter默认目录和浏览器?
1.打开cmd,首先进入到Jupyter的安装目录,我的是在D:\Python\Anaconda\Scrips中。然后,输入命令“jupyter notebook --generate-config”2.执行命令后,会在如下所示路径的文件夹中找到新建立的Jupyter_notebook_config.py文件。3.用Notepad++或者IPython打开文件(记事本也可以),对文...原创 2019-11-01 18:09:21 · 1441 阅读 · 0 评论 -
Jupyter Notebook中的快捷键
Command Mode (press Esc to enable)F : find and replaceCtrl-Shift-P : open the command paletteEnter : enter edit modeShift-Enter : run cell, select belowCtrl-Enter : run selected cellsAlt-Ente...原创 2019-09-19 23:22:38 · 208 阅读 · 0 评论 -
监督学习,无监督学习,半监督学习,主动学习的概念
1、监督学习(supervised learning)训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签,即生成合适的函数将输入映射到输出。2、无监督学习(unsupervised learning)训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,...原创 2019-12-18 11:39:17 · 4077 阅读 · 0 评论 -
sklearn(16)模型保存和加载
sklearn - 模型的保存和加载 - APIfrom sklearn.externals import joblib保存 joblib.dump(rf, ‘test.pkl’) 加载 estimator = joblib.load(‘test.pkl’) 保存# 使用线性模型进行预测# 使用正规方程求解lr = LinearRegression()# 进行训练...原创 2019-09-23 10:21:53 · 131 阅读 · 0 评论 -
sklearn(15)分类算法-逻辑回归、精确率、召回率、ROC、AUC
https://blog.csdn.net/qq_28827635/article/details/84679726https://blog.csdn.net/weixin_41666747/article/details/88791940转载的博客链接仅供个人学习方便,如有侵犯请联系删除...转载 2019-09-21 18:35:11 · 936 阅读 · 0 评论 -
机器学习(14)岭回归
https://blog.csdn.net/weixin_41666747/article/details/88706587https://blog.csdn.net/qq_28827635/article/details/84679709转载的博客链接仅供个人学习方便,如有侵犯请联系删除...转载 2019-09-18 17:05:43 · 140 阅读 · 0 评论 -
机器学习(13)欠拟合与过拟合
欠拟合与过拟合学习目标目标 说明线性回归(不带正则化)的缺点 说明过拟合与欠拟合的原因以及解决方法 应用 无 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。1、 什么是过拟合与欠拟合欠拟合过拟合分析 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天...转载 2019-09-18 16:56:11 · 126 阅读 · 0 评论 -
sklearn(12)线性回归
https://blog.csdn.net/weixin_41666747/article/details/88706571https://blog.csdn.net/qq_28827635/article/details/84481414转载的博客链接仅供个人学习方便,如有侵犯请联系删除。...转载 2019-09-17 20:31:34 · 88 阅读 · 0 评论 -
sklearn(11)随机森林
一、什么是集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。二、什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个数的...原创 2019-09-17 15:40:27 · 298 阅读 · 0 评论 -
sklearn(10)决策树
https://blog.csdn.net/qq_28827635/article/details/84481308https://blog.csdn.net/weixin_41666747/article/details/88706550转载的博客链接仅供个人学习方便,如有侵犯请联系删除。...转载 2019-09-15 20:54:31 · 74 阅读 · 0 评论 -
sklearn(9)朴素贝叶斯算法
https://blog.csdn.net/qq_28827635/article/details/84481227转载 2019-09-13 15:08:23 · 121 阅读 · 1 评论 -
sklearn(8)交叉验证与参数调优
一、交叉验证与参数调优1.1 交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练集、验证集和测试集。训练集:训练集+验证集 测试集:测试集为什么需要交叉验证?为了让被评估的模型更加稳健1.2 参数调优超参数搜索-网格搜索(Grid Search)通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值),这种叫超参数。但是手动过程繁杂,...原创 2019-09-13 14:27:23 · 4748 阅读 · 2 评论 -
sklearn(7)K-近邻算法
https://blog.csdn.net/qq_28827635/article/details/84480936from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScale...转载 2019-09-12 21:37:17 · 122 阅读 · 0 评论 -
sklearn(6)转换器和估计器
1、转换器和估计器1.1 转换器想一下之前做的特征工程的步骤?1、实例化 (实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式fit_transformfittransform这几个方法之间的区别是什么呢?我们看以下代码就清楚了In ...原创 2019-09-08 08:22:13 · 880 阅读 · 0 评论 -
机器学习(5)特征降维
1 降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。相关特征(correlated feature)相对湿度与降雨量之间的相关2 什么是特征选择数据中包含冗余或相关变量(特征、属性、指标),旨在从原有特征中找出主要特征。2.1 方法Filter(过滤式):主要研究特征本身特点,特征与特征和目标值之间关联方差选择法:低方差特征过滤相关系数法...原创 2019-09-06 15:44:01 · 570 阅读 · 0 评论 -
机器学习(4)特征预处理
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程。1 包含内容数值型数据的无量纲化(使不同规格的数据转换到同一规格): 归一化 标准化 为什么要进行归一化/标准化?特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。2 特征预处理APIsklea...原创 2019-08-28 18:15:56 · 686 阅读 · 0 评论 -
机器学习(3)文本特征提取
中文文本特征提取: 对文本数据进行特征值化(转换成特征向量),主要有两个API来实现 CountVectorizer 和 TfidfVectorizerCountVectorizer:只考虑词汇在文本中出现的频率TfidfVectorizer:除了考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征1 Co...原创 2019-08-28 18:14:02 · 917 阅读 · 0 评论 -
sklearn(1)数据集的使用
特征值(4个):花瓣、花萼的长度、宽度目标值(3个):setosa、vericolor、virginicaload_* 获取小规模数据集sklearn.datasets.load_iris()# 鸢尾花数据集sklearn.datasets.load_boston()# 波士顿房价数据集fetch_* 获取大规模数据集sklearn.datasets.fetch_20newsgrou...原创 2019-08-28 08:31:54 · 420 阅读 · 0 评论 -
conda不是内部或者外部命令
问题:自己安装完Anaconda,打开cmd输入命令行conda --version显示’conda’ 不是内部或外部命令,也不是可运行的程序。查了很多资料,发现网上有很多这样的情况,解决的办法说是,在控制面板\所有控制面板项\系统\环境变量里面的path没有添加Anaconda\Scripts路径,但是在cmd命令行输入path,发现路径是存在的,但是conda还是不能使用。解决办法:1....原创 2019-08-26 12:44:09 · 4397 阅读 · 1 评论