![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 81
zxd131248
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯模型的简单应用
朴素贝叶斯模型是贝叶斯理论中最简单的一类,基本假设有两个,一是特征相互独立,二是特征同等重要,这样可以大大简化计算,虽然在实际中属性之间未必是相互独立的,甚至存在严重的依赖性(此时会用到半朴素贝叶斯模型,比如贝叶斯网),但是这并不影响朴素贝叶斯的使用价值。在很多情况下可以取得很好的效果。以下用一个简单的模拟数据集来展示了朴素贝叶斯模型的基本实现过程,使用python3.6版本from numpy ...原创 2018-06-14 17:24:52 · 2482 阅读 · 0 评论 -
python实现决策树分类
基于信息增益的决策树分类是较为常见的一种分类方法,特征属性一般为标称型数据。原理较为简单,这里不做推导。网上的程序许多是基于python2.x,我在这里将基于python3.6的程序列出来供大家参考。欢迎多多交流!def create_dataset(): data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'...原创 2018-06-25 22:49:58 · 1205 阅读 · 0 评论 -
Softmax Regression多分类中的求导及参数更新
Softmax Regression是Logistic Regression的拓展,主要用于多分类问题。Softmax Regression一般与交叉熵损失函数结合使用,但是关于交叉熵损失函数的求导和参数更新资料比较少,讲的也不是让我很满意,所以决定自己写一篇,就当是总结一下自己的认识,和大家一起交流进步。首先是假设函数:假设有3个目标类别,直接使用Softmax Regression进行分类,注...原创 2018-07-06 11:25:22 · 2039 阅读 · 0 评论 -
kaggle入门之Titanic实战(一)
为了提高自己的实践能力,最近打算在kaggle上做一些开源的项目。同时在blog上记录一下自己的学习过程。 对于新手,毫无疑问Titanic是一个非常好的入门级项目。数据集较小,特征数目也不多,处理起来不是太难。数据集见以下网址。 Titanic地址:https://www.kaggle.com/c/titanic/data 一、首先读取训练集,并观察是否有缺...原创 2018-07-27 18:08:12 · 917 阅读 · 2 评论 -
kaggle入门之Titanic实战(二)
这是继《kaggle入门之Titanic实战(一)》的更新,主要加入了两点更新。 一、其中对baseline中没有分析利用的一些特征进行了处理,比如对Name进行了隐藏特征提取,并对其他特征进行了较为详细的分析; 二、加入了简单的模型融合。以下是正文:1、对数据的缺失值和离群点进行处理。其中Cabin缺失值用众数进行填充;做Fare的散点图可以看出,取值基本分...原创 2018-08-10 11:44:05 · 317 阅读 · 0 评论 -
CNN手写数字识别(基于tensorflow)
关于卷积神经网络的原理, 网上资料比较多, 这里不做介绍。我基于tensorflow搭建了一个含有三层卷积层(包含池化层和dropout)和2层全连接层的卷积神经网络, 使用了L2正则化和AdamOptimizer。结构较为简单,直接看代码就可以了, 非常适合新手上路。如果使用cpu进行模型训练(比如我), 训练速度比较慢, 在我的电脑上大概需要20分钟左右,在测试集上进行Valida...原创 2019-03-07 19:06:58 · 614 阅读 · 0 评论