来来新视界-CSDN博客

原创人工智能——逻辑回归，预测癌症案例

何为逻辑回归？普通线性回归是用来预测连续的变量，例如房价预测，逻辑回归是用来预测离散的变量，例如病理预测，广告点击率。逻辑回归是分类方法，用于二分类。逻辑回归是解决二分法的利器sigmoid 函数：将输出的值映射到0与1之间，也可以看成概率值。Sigmoid函数的值域范围限制在(0,1)之间，我们知道[0,1]与概率值的范围是相对应的，这样sigmoid函数就能与一个概率分布联系起来了。逻辑回归API：#导入逻辑回归APIfrom sklearn.linear_model

2020-06-14 15:31:37 916

原创训练集，测试集，这踏马是个啥？

都给我肃静啊：在这里，小编就不给大家专业官方的解释了，咱们就用大白话为大家解释一下。训练集：其实训练集就是我们拿去练习的，但是训练集中的数据占据了全部数据的大部分，通过训练我们会的到我们想要的结果，以及特征之间的关系，也就是一个模型。测试集：有了训练集的这个模型，我们就可以用测试集中的数据去检验训练集所得到的模型的精准率。其实按照小编的理解就是，在训练集中我们就已经得到了我们想要的，通过测试集我们可以检验准确度，通过准确度我们可以修改代码等操作。以上都是小...

2020-05-30 11:26:25 313

转载鸢尾花分类之网格搜索与交叉验证

小编有话说：其实网格搜索与交叉验证已经被封装到方法中，只需要我们在合适的场景中去运用即可，同时原理我们要搞清楚，这样会使我们能够更加灵活的使用。#导入鸢尾花数据from sklearn.datasets import load_iris#导入划分数据集方法from sklearn.model_selection import train_test_split#导入标准化方法from sklearn.preprocessing import StandardScaler#导入knn算法模块

2020-05-30 11:25:10 714

原创机器学习——鸢尾花分类之网格搜索与交叉验证

（一) 交叉验证：交叉验证(Cross-validation)主要用于建模应用中，例如PCR、PLS回归建模中。在给定的建模样本中，拿出大部分样本进行建模型，留小部分样本用刚建立的模型进行预报，并求这小部分样本的预报误差，记录它们的平方加和。其实用小编的大白话来讲就是，将训练集单独拿出，分为n等分，然后拿出其中一份作为验证集，其余的作为训练集，最后我们想要的就是让每份都作为一次验证机，这样我们就会得到n个模型，也就是n个准确率，取平均值，那么这个平均值就是...

2020-05-30 11:23:09 808

原创 20newsgroups数据集导入

from sklearn.datasets import fetch_20newsgroupsnews = fetch_20newsgroups(subset='all')在运行程序后，pycharm会提供一个链接，点击链接下载。下载后解压点击我的电脑——C盘——用户点击之后，再次点击de'l'l,选择scikit_learn_data之后将解压资源复制粘贴即可。...

2020-05-28 10:58:29 1293

转载朴素贝叶斯算法实现

20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。对于数据集的使用，我们直接使用20newsgroups，在运行程序时，pycharm会提供一个下载数据的位置，点击下载即可。（下载的数据导入方法在下一个图文消息中）from sklearn.naive_bayes import MultinomialNBfrom sklearn.datasets import fetch_20

2020-05-28 10:57:32 205

转载人工智能——机器学习——朴素贝叶斯算法

1，什么是朴素贝叶斯算法？贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率，同时算法本身也比较简单。2，使用朴素贝叶斯的前提是样本特征之间相互独立，依托条件概率的原理，事件A与事件B相互独立。3，应用分类是数据分析和机器学习领域的一个

2020-05-28 10:55:47 1601

原创人工智能——机器学习——k-近邻算法

K-近邻算法 #分类算法定义：如果一个样本在特征空间中有K个最相似的样本，并且这些样本中大多数属于某一个类别，则该样本也属于一个类别。简而言之:就是通过将目标样本与相似样本进行平方差开根号，通过对比找到距离最近的样本，从而确定目标样本的类别。sklearn k-近邻算法API: sklearn.neighbors.(n_neighbors=n) n_neighbor:int n为查询的邻居数推荐案例：网址：https://www.kaggle.com/navosht...

2020-05-21 21:00:03 413

原创人工智能——sklearn.impute的使用语法，导入包改变

导入包：from sklearn.impute import SimpleImputer语法：qsz = SimpleImputer(strategy='mean')括号里加asix = 0,程序运行不正确

2020-05-12 15:03:46 673

原创人工智能——机器学习，数据特征预处理，数据降维

数据特征预处理，数据降维处理方法： 1，数值型数据：标准缩放（1）归一化（2）标准化（3）缺失值 2...

2020-05-12 14:37:09 479

原创人工智能-——初学机器学习，环境安装！

小编有话说，肃静！开发环境小知识： 1，PyCharm 是Python的IDE，也就是集成开发环境，带有一整套可以帮助用户在使用Python语言开发提高工作效率的工具，可以帮助我们调试代码，语法高亮，工程管理，代码跳转，智能提示等等。（其实就是方便我们做项目，是我们实现python的工具） 2，anaconda 是一个开源的Python的开发版本，其包含了conda、Python等180多个科学包及其依赖项，因为包含了大量的科学包，A...

2020-05-11 17:10:51 223

weixin_47601051的博客