数据挖掘
Aleks_
一个菜鸟的奋斗之路~~·
展开
-
python学习之win下安装记录
决定好研究大数据挖掘,选择了python作为编码语言。主要是库多不愁没裤子哈。在你安装PyQt的时候出现了点小波折。我编码环境是Python 3.4 +PyQt4+ PyCharm。 第一个是要安装好Python的解释器。ok,进入官网下载。点击这里下载。 我选择的是Python 3.4.4版本。这个安装的时候一路next就行了。没啥特殊点。 第二个要安装的是PyQt4 这里说明下,我原创 2016-02-02 10:11:35 · 632 阅读 · 0 评论 -
聚类经典算法之DBSCAN算法
这一篇主要记录下对dbscan算法的学习。下一篇将说说把此算法具体运用到热点区域分析。好了,切入正题。 第一个,什么是dbscan?全称为:Density-Based Spatial Clustering of Applications with Noise(具有噪声的基于密度的聚类方法)。这是一种基于密度的聚类算法,能够除去噪音点,并且聚类的结果是划分为多个簇,簇的形状是任意的。基于密度的聚类原创 2016-02-02 12:16:38 · 7286 阅读 · 1 评论 -
编写基于dbscan的GPS数据热点区域分析(一)
首先,谈谈这个编写任务介绍。此次是在win下开发,后续项目会在linux下结合hadoop或spark开发。这次要实现以下几点: 1. 能够将GPS数据在地图上呈现出来 2. 编写dbscan算法 3. 根据dbscan算法将GPS数据点分簇。并且在地图上用不同颜色标记各个簇。 4. 绘制地图围栏,也就是绘制每个簇形成的多边形 5. 给出一系列GPS数据,求出其经过密集区的顺序原创 2016-02-02 16:25:00 · 5121 阅读 · 3 评论 -
编写基于dbscan的GPS数据热点区域分析(二)算法的实现
这一篇主要讲讲如何在实际运用中编写dbscan算法。dbscan算法主要的目的就是找到最大密度相连点的集合。那么它必然涉及到3个子算法: 1) dbscan主流程 2) 如何确定两个GPS数据点的距离 3) 如何合并簇 我们逐一解决。首先说说GPS数据点的距离该如何确定。这个问题感觉看似简单(居然有人用勾股定理和经纬度与距离关系来计算,我只能脑洞大,但没法用)。如果要精确计算两点之间的关系原创 2016-02-04 12:01:14 · 4405 阅读 · 3 评论 -
Hadoop2.7.2版本分布式集群搭建详细记录
因为本人不熟悉linux指令,还是一个新手。在搭建的过程中遇到了或多或少的问题。所以记录下搭建过程,也方便跟我一样的初学者顺利搭建Hadoop平台。 搭建集群目标:master 一台 slaver三台 所有系统均为centos 7.0版本 搭建步骤流程: 1. 安装centos 7.0系统 完成网络配置等等 并使用xshell来控制终端 2. 安装sun公司的jdk 3. 修改原创 2016-02-18 18:51:03 · 1300 阅读 · 1 评论 -
Hadoop2.7.2版本分布式集群搭建详细记录(2)
接上上一篇《Hadoop2.7.2版本分布式集群搭建详细记录》。 Hadoop Cluster Setup 4.hadoop平台安装 hadoop下载地址附上: http://archive.apache.org/dist/hadoop/core/ 我下载的是当前最新版本 2.7.2版本。 hadoop的安装是挺简单的了。。直接把下载的压缩包解压到/usr/b原创 2016-02-21 22:06:09 · 1183 阅读 · 0 评论