数据挖掘
文章平均质量分 71
Wiking__acm
这个作者很懒,什么都没留下…
展开
-
Titanic: Machine Learning from Disaster(Kaggle 数据挖掘竞赛)
Predict survival on the Titanic (with tutorials in Excel, Python, R, and an introduction to Random Forests)The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On Apr原创 2015-01-15 16:27:10 · 6593 阅读 · 0 评论 -
《机器学习(周志华)》 习题9.4参考答案
实现K均值算法。。。书上的例子是错的!那个数据集,用书上选的那几个初始点,则一开始就是收敛的。实现时,顺便学了matplotlib.animation,可以把聚类过程用动态图显示出来。代码如下:# coding: utf-8import pandas as pd import numpy as np import matplotlib.pyplot as pltimport原创 2016-06-04 21:59:34 · 2274 阅读 · 0 评论 -
Neural Networks for Machine Learning 课程笔记
Cousera 上 神经网络大神 Geoffrey Hinton 的课程,课程笔记整理与此。原创 2015-12-16 11:29:33 · 2437 阅读 · 1 评论 -
《机器学习(周志华)》习题11.1 参考答案
试编程实现Relief算法,并考察其在西瓜3.0上的结果。# coding: utf-8import numpy as np input_path = "西瓜数据集3.csv"file = open(input_path.decode('utf-8'))filedata = [line.strip('\n').split(',') for line in file]filedata原创 2016-05-30 18:36:38 · 2731 阅读 · 1 评论 -
Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville) 阅读笔记
Ian Goodfellow, Yoshua Bengio and Aaron Courville 合著的《Deep Learning》 终于写完了,并且放在网上可以在线免费阅读。网址:http://www.deeplearningbook.org一些笔记整理于此。原创 2016-04-23 11:15:54 · 10252 阅读 · 0 评论 -
《机器学习(周志华)》 习题4.3答案
问题:编程实现基于信息熵(信息增益)进行划分进行划分选择的决策树算法,并为表4.3(西瓜数据集3.0)中数据生成一棵决策树。代码生成结果与书本结果基本一致,唯有(触感=硬滑)和(触感=软粘)时我的答案分别是(坏瓜)和(好瓜),而书本答案恰好相反。这里应为书本错误,因为根据数据人肉眼判定,稍糊硬滑的数据都为否,稍糊软粘数据都为是。如果有和我结论不一致的同学,欢迎指正!感谢ICS_的指出,在周老师原创 2016-03-24 14:09:02 · 7160 阅读 · 6 评论 -
CNN 可视化结果分析
可视化结果分别从以下几个角度做分析:1 看每个卷积层经过激活函数(relu)后的输出图像第一个卷积层的结果(相对比较容易懂):为了方便人眼观察,对每一幅图的像素值都做了一个放大,做法是除以这幅图的最大像素值然后乘以255。灰度图中越亮的部分,就说明原来的值越大。注意,这样的做法导致,不同的图中比较像素点的相对亮度是没有意义的。原图:原创 2016-04-28 13:12:34 · 7343 阅读 · 5 评论 -
CNN 识别图形验证码
用卷积神经网络预测可变长的验证码,模型用的谷歌的这篇《Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks》。代码在github上:https://github.com/xingjian-f/Captcha-hacker.git原创 2016-04-13 18:34:01 · 6930 阅读 · 0 评论 -
《机器学习(周志华)》 西瓜数据集3.0
书上的一个常用数据集编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.原创 2016-03-24 14:23:40 · 31225 阅读 · 9 评论 -
PageRank算法 python单机实现
海量数据挖掘课的编程作业。实现PageRank,计算某个网页最终的rank值,数据是谷歌提供的。作业反馈结果显示,代码正确。一共进行了26次迭代,总共运行时间83s。数据链接http://snap.stanford.edu/data/web-Google.txt.gz。代码:from math import fabsfrom time import timedata =原创 2015-10-24 20:32:08 · 4981 阅读 · 4 评论 -
《机器学习(周志华)》 习题5.5答案
编程实现标准BP算法(sgd)和累积BP算法(fullbatch),在西瓜3.0上训练一个单隐层网络,并进行比较。需要先把字符串转成数字,这里用one-hot。把二分类问题看成多分类问题的特例,然后用softmax。最终模型在训练集上可达到100%准确率,并且在西瓜3.0@上也可以达到100%,与前面的逻辑回归相比,多了一个隐层的非线性变换,模型的表达能力确实强大了很多!经试验,隐层大小至原创 2016-04-05 20:24:26 · 3717 阅读 · 0 评论 -
《机器学习(周志华)》习题3.3答案
编程实现对率回归,并给出西瓜数据集3.0@上的结果。对率回归即逻辑回归,可以看做没有隐藏层的,用sigmoid做激活函数,crossentropy做cost(不加regularization)的神经网络。本题用theano实现,调参时,learning rate 设为1,更大则cost会出现震荡,迭代次数设为10000可收敛,但是,训练效果并不好,最高准确率也只有70%。简单分析,根据前面原创 2016-04-05 13:59:19 · 5236 阅读 · 1 评论 -
《机器学习(周志华)》习题10.1 答案
编程实现K邻近分类器,在西瓜数据集3.0@(属性只有密度与含糖率)上,比较其分类边界与决策树分类边界之异同。KNN决策面图如下:原创 2016-04-03 14:30:01 · 4976 阅读 · 0 评论 -
《机器学习 (周志华)》习题7.3答案
编程实现拉普拉斯修正的朴素贝叶斯,西瓜3.0训练集,“测1”样本测试。不加拉普拉斯修正跑的数据,部分和书上不一致(P(蜷缩,是)和P(凹陷,是)),经检查是书中错误。代码如下:# coding: utf-8import mathimport numpy as npfile = open('西瓜数据集3.csv'.decode('utf-8'))filedata = [line原创 2016-04-01 15:41:47 · 3783 阅读 · 0 评论 -
San Francisco Crime Classification(Kaggle)
Predict the category of crimes that occurred in the city by the bayFrom 1934 to 1963, San Francisco was infamous for housing some of the world’s most notorious criminals on the inescapable island of Al原创 2015-09-14 22:55:40 · 3737 阅读 · 2 评论 -
Bike Sharing Demand (Kaggle)
Forecast use of a city bikeshare systemBike sharing systems are a means of renting bicycles where the process of obtaining membership, rental, and bike return is automated via a network of kiosk l原创 2015-03-09 19:18:03 · 3748 阅读 · 0 评论 -
Digit Recognizer (Kaggle)
This competition is the first in a series of tutorial competitions designed to introduce people to Machine Learning.The goal in this competition is to take an image of a handwritten single digit,原创 2015-02-04 19:56:44 · 4287 阅读 · 0 评论 -
《机器学习(周志华)》 阅读笔记
1 绪论1.1 引言(什么是机器学习:让计算机通过已有的经验进行学习,做出归纳和判断。)1.2 基本术语尽管训练样本集只是样本空间的一个很小的采样,我们仍然希望它能很好的反应出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作很好。(因此,要想模型能够准确的预测未见过的样本,至少它需要见过和它很相似的样本!当然,迁移学习提供了另一种思路。) 通常假设样本空间中全体样本服从一原创 2016-06-14 14:48:52 · 4541 阅读 · 1 评论