2014年06月_人生偌只如初见

12月 11月 10月 09月 08月 07月 06月 05月

原创数据挖掘笔记-聚类-DBSCAN-原理与简单实现

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。该算法的目的在于过滤低密度区域，发现稠密度样本点，跟传统的基于层次聚类和划分聚类的凸...

2014-06-30 16:08:49 3451

原创数据挖掘笔记-聚类-KMeans-原理与简单实现

K-means（k均值）算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。基本算法：1.选择K个点作为初始质心。2.Repeat3.将每个点指派到最近的质心，形成K个簇。4.重新计算每个簇的质心。

2014-06-28 23:52:43 2027

原创数据挖掘笔记-分类-回归算法-梯度上升

基于Logistic回归和Sigmoid函数的分类，首先看下它的优缺点。优点：计算代价不高，易于理解与实现缺点：容易欠拟合，分类精度可能不高使用数据类型：数值型和标称型数据首先，我们想要的函数应该是能够接受所有的输入然后预测出类别。例如输出0或者1.或许你曾今接触过这种性质的函数，该函数称为海维塞德阶跃函数，也可以直接称为单位阶跃函数。

2014-06-23 17:18:30 4422

原创数据挖掘笔记-分类-回归算法-最小二乘法

我们在研究两个变量(x, y)之间的相互关系时，通常可以得到一系列成对的数据(x1, y1、x2, y2... xm, ym)；将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近，可以令这条直线方程如(式1-1)。Y计= a0+ a1X 　　　　　　　　　　　　　　　　(式1-1)其中：a0、a1是任意实数为建立这直线方程就要确定a0

2014-06-21 21:14:44 2958

原创 Spark学习笔记-安装部署与运行实例

首先解压scala，本次选用版本scala-2.11.1[hadoop@centos software]$ tar -xzvf scala-2.11.1.tgz[hadoop@centos software]$ su -[root@centos ~]# vi /etc/profile添加如下内容：SCALA_HOME=/home/hadoop/software/scala-2.

2014-06-13 17:11:19 4756

原创数据挖掘笔记-聚类-Canopy-并行处理分析

Canopy并行化处理在Mahout里面有很好的实现，网上有很多人都做过相关的分析，有的写的很详细，本来只想看看Mahout Canopy源码就好了，但还是觉得自己记录下也好。我看的是mahout-distribution-0.9版本。首先先看下CanopyDriver类：run(String[] args)方法里面是一些参数的设置。public static void

2014-06-13 12:45:07 3090

原创数据挖掘笔记-聚类-Canopy-原理与简单实现

Canopy聚类算法是一个将对象分组到类的简单、快速、精确地方法。每个对象用多维特征空间里的一个点来表示。这个算法使用一个快速近似距离度量和两个距离阈值 T1>T2来处理。基本的算法是，从一个点集合开始并且随机删除一个，创建一个包含这个点的Canopy，并在剩余的点集合上迭代。对于每个点，如果它的距离第一个点的距离小于T1，然后这个点就加入这个聚集中。除此之外，如果这个距离不可以再做其它Can

2014-06-12 18:02:40 6395 2

原创 Python学习笔记-简易抓取网页-1

主要是通过urllib2获取预先指定的地址的页面，通过BeautifulSoup来解析界面元素，找到href标签，并将相关的数据存入数据库，以方便后面取出继续抓取。整个抓取和解析也是基于多线程与队列来控制的。做的比较简单与粗糙，后续深入可以改进。

2014-06-11 15:00:49 876

原创 Python学习笔记-SSH连接

主要是通过paramiko库实现SSH连接功能，并实现一些远程交互功能推荐安装方式pip install paramiko

2014-06-11 14:55:23 1132

原创 Python学习笔记-数据库操作

主要是通过python的DBUtils库、MySQLdb库来实现连接池操作数据库1.import MySQLdb 2. 3.from DBUtils.PooledDB import PooledDB 4. 5.class DBHelper(object): 6. 7. __pool = None 8. 9. def __init__(

2014-06-11 14:41:08 1045

原创 Python学习笔记-清除项目下SVN文件

1.import os 2.import time 3.import stat 4. 5.def clearSVN(destPath): 6. if os.path.isdir(destPath) == False : 7. return; 8. else : 9. destFileName = os.path.basenam

2014-06-11 14:36:31 845

原创数据挖掘笔记-关联规则-FPGrowth-MapReduce实现

第二个MR的Reduce阶段过程：Reduce节点接收到从Map节点过来的数据，遍历这个频繁项对应的事务数据集，将它们构建起该频繁项的条件FP树。从条件FP树进而得到包含本频繁项的频繁项集。第二个MR的Map阶段过程：首先根据排好序的频繁一项集将事务数据排好序，然后遍历排好序的事务数据，以频繁项为键，事务数据为值传递给Reduce阶段。3、第二个MR扫描所有数据集，并根据第二步产生的排序好的频繁一项集来得出频繁项集。1、第一个MR扫描所有数据集统计数据集中的频繁一项集，即每个项的出现次数。

2014-06-05 17:31:03 3422

原创数据挖掘笔记-关联规则-FPGrowth-简单实现

FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。对于海量数据，FP-growth的时空复杂度仍然很高，可以采用的改进方法包括数据库划分，数据采样等等。Apriori和FP-Tree都是寻找频繁项集的算法，后面根据频繁项集产生关联规则都是一样的，就不再这里重复了。由于Apriori算法需要多次扫描事务数据库，需要生成候选项集，大大增加了时间与空间的代价，

2014-06-02 16:55:01 3250