zhangjzyeah-CSDN博客

原创环境简介

Windows+Anaconda+tensorflow+keras深度学习框架搭建用python3.5作为开发语言，Spyder作为集成开发环境，使用较为流行的tensorflow框架，调用keras库，使用Anaconda3pythonpython的数据处理能力主要依赖于Numpy,Scipy,Matplotlib,Pandas这四个库，其中Numpy提供了矩阵运算的功能，Scipy...

2018-07-18 15:40:38 273

原创第5章 Logistic回归—示例

从疝气病症预测病马的死亡率1 准备数据处理数据中缺失值的方法：使用可用特征的均值来填补缺失值使用特殊值来填补缺失值，如-1 忽略有缺失值的样本使用相似样本的均值添补缺失值使用另外的机器学习算法预测缺失值此例中选择用0来代替缺失值，可以在使用该样本跟新回归系数时不产生影响。忽略标签数据缺失的样本 2 测试算法：使用Logist...

2018-06-21 21:10:41 537

原创第5章 Logistic回归

介绍：回归：用一条直线对已知数据点进行拟合的过程称作回归。利用Logistic回归进行分类的主要思想：根据现有数据对分类边界线建立回归公式，以此进行分类。回归的关键在于寻找最佳拟合参数，使用的是最优化算法。Logistic回归的一般过程：1 收集数据---2 准备数据---3 分析数据---4 训练算法（目的是找到最佳的分类回归系数，占用大部分时间）---5 测试算法 ...

2018-06-21 20:50:47 490

原创第14章利用SVD简化数据

SVD:Singular Value Decomposition14.1 优缺点：优点：简化数据，去除噪声，提高算法的结果缺点：数据的转换可能难以理解适用数据类型：数值型数据14.2 常见应用：隐性语义索引（Latent Semantic Indexing,LSI)/隐性语义分析(Latent Semantic Analysis,LSA)推荐系统14.3 基于...

2018-06-15 21:24:11 250

原创 LSTM模型相关知识

知识链接：如何判断lstm模型中的过拟合和欠拟合等情况：点击打开链接

2018-04-20 18:50:15 271

原创第4章使用朴素贝叶斯分类的一个简单总结

第4章使用朴素贝叶斯分类的一个简单总结

2018-04-16 10:00:34 375

原创第4章 4.6使用朴素贝叶斯过滤垃圾邮件

4.6使用朴素贝叶斯过滤垃圾邮件其中有一部分函数在上一节的内容中记录过，因为该实例需要使用上节中介绍的某些函数，所以把那些函数拷贝过来了。添加的新函数：text Parse（），spamTest() 其中spamTest()函数是对叶贝斯垃圾邮件分类器进行自动化处理。过程如下导入文件夹spam和ham下的文本文件（分别对应正常邮件和垃圾邮件），将文本文件解析为词列表（[...

2018-04-13 20:17:34 503

原创 Python中各个函数的用法链接

split函数的使用：点击打开链接正则化模块re的使用：点击打开链接append和extend的区别： append是将内容作为一个对象，整体打包到相应列表中。 extend是将内容作为一个序列，添加到相应列表中。...

2018-04-13 16:27:00 243

原创第4章 4.5使用Python进行文本分类---4.5.3 测试算法：根据现实情况修改分类器

4.5.3 测试算法：根据现实情况修改分类器4.5.4 准备数据：文档词袋模型词集模型：将每个词的出现与否作为一个特征。词袋模型：每个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，记录每个词出现的次数。相应代码及解释如下：'''函数功能：判断待分类的文本向量，属于哪个类别（0，1）的概率大输入...

2018-04-10 18:47:20 410

原创第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率

2018-04-10 17:19:30 1095

原创机器学习中各种方法常用来解决的问题

朴素贝叶斯：是用于文档分类的常用算法

2018-04-10 16:20:46 298

原创第4章 4.5 使用Python进行文本分类---4.5.1 从文本中构建词向量

朴素贝叶斯分类器通常有两种实现方式：基于贝努利模型和基于多项式模型贝努利模型假设每个特征同等重要，就是只考虑词在文档中是否出现，并不考虑次数。而多项式模型考虑词在文档中出现的次数。此处使用贝努利模型，则朴素贝叶斯方法进行的两个假设： 1：特征之间相互独立 2：每个特征同等重要4.5.1 准备数据：从文本中构建词向量'...

2018-04-10 16:20:23 1955

原创第2章 k-近邻算法总结

算法思想：训练数据(特征+标签)，新数据(特征)。输入新数据后，将新数据的每个特征与训练集（特征）中每条数据对应的特征进行比较，选择最相近的前k条数据，统计这k条数据所对应的标签种类及个数，选择出现次数最多的标签，作为新数据的分类标签。算法伪代码：输入：新数据向量，训练集，训练集对应的标签向量，k获取训练集的大小n，即行数新数据向量重复n行，1列。（方便计算距离）计算距离（可采用欧式距离）...

2018-03-31 20:10:14 133

zhangjzyeah的博客