机器学习
Winnycatty
这个作者很懒,什么都没留下…
展开
-
用weka打开CSV文件时 提示attribute names are not unique! Cause:'0,0,0,0,0
错误如下图所示;这可能时因为里面有空格,造成的。首先一、检查文件中有没有给每一列数据 设定标题。如果没有添加标题,则使用Python 给csv 文件加上标题即可,代码见此。二、检查文件中是不是有一列序号,在给其他列设置标识的时候没有给他设置标识。建议使用记事本打开,可以看到在csv上看不到的符号。改完之后就可以使用weka打开了。weka 打开的方法为;一、打开w...原创 2019-11-01 21:13:33 · 3480 阅读 · 0 评论 -
Python3给Kddcup99训练数据添加标识
使用数据集为Kddcup99的10%数据集。以下代码需要先把下载下来的文件变成txt格式,然后新建一个kddcup.data_10_percent_corrected 文件。接着运行即可。文件路径都是绝对路径可以根据自己的文件位置更改。代码为:import pandas as pdcol_names = ["duration","protocol_type","servic...原创 2019-11-01 21:12:54 · 1764 阅读 · 1 评论 -
SpamBayes
SpamBayes是一个用Python编写的贝叶斯 垃圾邮件过滤器,它使用了Paul Graham在他的文章“垃圾邮件计划”中提出的技巧。随后,Gary Robinson和Tim Peters等人对其进行了改进。传统的贝叶斯过滤器和SpamBayes使用的过滤器之间最显着的区别是有三种分类而不是两种:垃圾邮件,非垃圾邮件(在SpamBayes中称为ham),和不确定。用户将消息训练为火腿或垃...翻译 2018-10-12 09:18:01 · 456 阅读 · 0 评论 -
垃圾邮件是如何用贝叶斯方法过滤掉的
一封邮件,判断它是正常邮件还是垃圾邮件,很明显是一个“分类”问题。一谈到“分类”,大家不约而同想到的方法是找“特征”。就像同是猫科动物,老虎和猫怎样分类?肯定是找大小、体重、颜色、花纹等特征进行区分嘛。那同是邮件,正常邮件和垃圾邮件有什么特征区分?很显然—“关键词(字)”。垃圾邮件的关键词:“发票”,“贷款”,“利率”,“中奖”,“办证”,“抽奖”,“号码”,“钱”,“款”,“幸运”……等等。...转载 2018-10-09 14:23:20 · 2208 阅读 · 0 评论 -
机器学习
机器学习的认识:从实践的角度出发,机器学学习要做的工作就是在我们有的一个数据集上建立一个或者多个模型,然后对我们的模型进行优化和评估。...翻译 2018-10-22 17:50:18 · 164 阅读 · 0 评论 -
机器学习:PCA技术以及
一:引言 降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。 降维具有如下一些优点:(1)使得数据集更易使用(2)降低算法的计算开销(3)去除噪声(4)使得结果容易理解...翻译 2018-10-22 20:08:12 · 835 阅读 · 0 评论 -
ReLu(Rectified Linear Units)激活函数
传统Sigmoid系激活函数传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被视为神经网络的核心所在。从数学上来看,非线性的Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将...转载 2018-12-06 11:15:08 · 604 阅读 · 0 评论 -
[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD
阅读目录1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般线性回归函数的假设函数为:hθ=∑nj=0θjx...转载 2018-12-26 14:20:08 · 267 阅读 · 0 评论