2017年05月_Star-Technology

原创 HBase之伪分布式的搭建--Standlone

HBase下载地址：（本文使用的1.1.3版本） http://mirrors.koehn.com/apache/hbase/1.1.10/—–1.1.0版本Step 1：登录一台节点，执行命令： mkdir -p /opt/apps/HBase Step 2：执行命令：cd /opt/apps/HBase 使用xftp将下载的HBase文件上传到Linux中 Step 3：执

2017-05-31 18:30:42 388

原创 MapReduce之推荐算法实现

使用MapReduce实现推荐算法，进行迭代计算Step 1：（去重）第一次—Mapper static class Step1_Mapper extends Mapper<LongWritable, Text, Text, NullWritable>{ protected void map(LongWritable key, Text value, Context con

2017-05-27 11:55:39 3172

原创排序算法

Point 1：插入排序将一个记录插入到已排序好的有序表中，从而得到一个新，记录数增1的有序表。即：先将序列的第1个记录看成是一个有序的子序列，然后从第2个记录逐个进行插入，直至整个序列有序为止。要点：设立哨兵，作为临时存储和判断数组边界之用。public class InsertSort { public static void main(String[] args) {

2017-05-27 11:42:35 265

原创 MapReduce之气温计算

Step 1：导入Hadoop和Mapreduce的所有jar包Step 2：WeatherMapperpublic class WeatherMapper extends Mapper<Text, Text, MyKey, Text>{ @Override protected void map(Text key, Text value, Context c

2017-05-27 11:27:06 463

原创 MapReduce之wordcount

Step 1：导入Hadoop中MapReduce的所有jar包Step 2:WordCount 的Mapperpublic class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ IntWritable v = new IntWritable(1); @Override protected

2017-05-27 11:17:25 432

原创推荐算法

Point 1：推荐算法的应用领域电子商务网站是个性化推荐系统重要地应用的领域之一，亚马逊就是个性化推荐系统的积极应用者和推广者，亚马逊的推荐系统深入到网站的各类商品，为亚马逊带来了至少30%的销售额。不光是电商类，推荐系统无处不在。QQ，人人网的好友推荐；新浪微博的你可能感觉兴趣的人；优酷，土豆的电影推荐；豆瓣的图书推荐；大从点评的餐饮推荐；世纪佳缘的相亲推荐；天际网的职业推荐等。Poin

2017-05-26 17:12:59 750

Point1：网络爬虫的背景随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如： (1)不同领域、不同背景的用户往往具有不同的检索目的

2017-05-25 17:19:22 1305

原创数据挖掘的基础应用

数据挖掘的分析方法：· 分类（Classification） · 估计（Estimation） · 预测（Prediction） · 相关性分组或关联规则（Affinity grouping or association rules） · 聚类（Clustering） · 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)数据挖掘的方法简介：·分类（Classificat

2017-05-24 15:09:13 486

原创数据挖掘的十大算法

数据挖掘十大经典算法： 1、C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。 C4

2017-05-24 15:07:24 300

原创 Nginx的基本原理

什么是Nginx？ Nginx (“engine x”) 是一个高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/SMTP服务器。Nginx是由Igor Sysoev为俄罗斯访问量第二的Rambler.ru站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。

2017-05-23 16:25:37 305

原创机器学习的分类

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。分类基于学习策略的分类

2017-05-23 16:22:22 1868

原创 Hive的基本语法

Point 1：CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment],

2017-05-22 19:28:56 799

原创 PageRank算法实现------MapReduce

Point 1：pagerank.txt————–计算样本A B DB CC A BD B CPoint 2：Node.classprivate double pageRank = 1.0;private String[] adjacentNodeNames;public static final char fieldSeparator = '\t'; p

2017-05-20 13:17:29 446

原创 PageRank算法

Point 1：什么是pagerank？ PageRank的Page可是认为是网页，表示网页排名，PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转到该网页所指向的链接，这样无所事事、漫无目的地在网页上跳来跳去，PageRank就是估计这个悠闲的上网者

2017-05-20 13:06:27 820

原创 Hive原理

Point 1：结构化数据：有具体的列和行，并且代表什么具体的含义，相当于一张表—mysql 非结构化数据：没有具体的行和列，完全没有规律——–nosqlPoint 2：什么是Hive？ Hive：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Point 3：Hive

2017-05-19 18:43:47 2030

原创 Hive的配置

Hive的下载地址：—–1.2.2版本（没有找到1.2.1版本，不过安装方法和使用方法是一样的） http://mirrors.hust.edu.cn/apache/hive/hive-1.2.2/Hive必须借助mysql等数据库作为映射数据库Step 1：到上述链接地址下载Hive的安装包：apache-hive-1.2.1-bin.tar.gzStep 2：执行命令： mkdir

2017-05-18 19:06:53 521

原创 Hadoop之MapReduce原理

Point 1：什么是MapReduce？ Hadoop MapReduce是一个计算框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，一是软件框架，二是并行处理，三是可靠且容错，四是大规模集群，五是海量数据集。Point 2：MapReduce 分布式计算框

2017-05-17 16:40:49 377

原创 MongoDB的基本命令总结

show dbs:显示数据库列表 show collections：显示当前数据库中的集合（类似关系数据库中的表） show users：显示用户 use <db name>：切换当前数据库，这和MS-SQL里面的意思一样 db.help()：显示数据库操作命令，里面有很多的命令 db.foo.help()：显示集合操作命令，同样有很多的命令，foo指的是当前数据库下，一个叫foo

2017-05-16 17:19:26 414

原创 MongoDB基本概念

什么是MongoDB？ MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB的特点：它的特点是高性能、易部署、易使用，存储数据非常方便。 1、面向集合存储，容易存储对象类型的数据。在MongoDB 中数据被分组存储在集合中，集合类似RDBMS 中的表，一个集合中可以存储无限多的文档。 2、模式自由，采用无模式结

2017-05-16 17:03:59 402

原创 Python 基本语法

Point 1：在Python中，true为1，false为0Point 2： <>是不等号的意思Point 3： def test（）定义一个方法Point 4： ”’多行注释 #单行注释Point 5： count++是无效的可以写成-=1、*=、+=Point 6： x，y=y，x 交换Point 7： %s以字符串的形式输出Point 8： indent 格式

2017-05-15 16:54:05 325

原创机器学习常用算法

机器学习的分类： 1、有监督的机器学习：预测、分类——有Y这一列——lable标签 2、无监督的机器学习：没有Y这一列（聚类）机器学习：分类预测（线性回归算法）、聚类（K-means算法）、推荐机器学习的核心思想：迭代计算，设置Threshold（阈值）求到最优解，简而言之就是做大量的尝试和测试（试）Native—Bayes 算法：贝叶斯分类器一种算法，适合做文本的分类，判定垃圾邮件之类等等

2017-05-13 13:31:35 696

原创机器学习---基础算法简介

什么是机器学习？机器学习就是拟人，计算机使用目前已有的数据，将其代入算法，然后训练出模型，最后使用模型进行预测等等机器学习的分类： R语言、MLlib、Mahout、Python、Spark有一句话：失败是成功之母，但是不适用于机器学习领域，因为如果使用了错误的数据，那么只能产生错误的结果对于机器学习，怎样优化训练出来的模型？ 1.为了优化模型，如果算法保持不变的情况下，可以增加数据量或者提

2017-05-13 13:21:25 613

原创 Hadoop之HDFS客户端------java实现

1.HDFS—-java代码加载配置public void setup() throws Exception{ config = new Configuration(); fs = FileSystem.get(config); }2.HDFS——java实现在HDFS上创建文件夹public void mkdir() throws Exception{

2017-05-12 17:10:04 1127

原创 Hadoop之HDFS原理

什么是HDFS？ Hadoop分布式文件系统(HDFS)是一个适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取

2017-05-11 19:44:43 436

原创 Hadoop之HDFS的配置------HA（高可用版本）

Step 1：配置节点直接SSH无密钥登录http://blog.csdn.net/ymf827311945/article/details/71483220Step 2：搭建Hadoop之HDFS—-secondary版本（并不是说搭建HA必须先搭建secondary版本），首先是为了熟悉两种搭建方式，其次是因为搭建HA版本的HDFS的时候，有很多的步骤都是重复的，所以如果对于什么也没有搭建的

2017-05-10 18:32:20 980

原创 Hadoop之HDFS的配置---secondarynode版本

Hadoop URL：https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/Step 1：使用上面的URL下载Hadoop-2.6.0Step 2：分别在三个节点执行命令：mkdir -p /opt/apps/hadoop Step 3：选在任意一个节点,使用xftp将下载的hadoop文件上传到该路径 Step 4：

2017-05-09 19:49:09 2725

原创 Linux CentOS 节点之间的SSH无密钥登录配置

Step 1：分别在三个节点执行命令：cd ~ Step 2：分别在三个节点执行命令：ls -al Step 3：分别在三个节点执行命令：ssh-keygen，然后按三下回车 Step 4：分别在三个节点执行命令：ssh-copy-id -i ~/.ssh/id_rsa.pub root@node11—–输入yes和密码（123123） S

2017-05-09 18:05:55 1121

原创 ZooKeeper客户端--java实现

jar： jline-0.9.94.jar log4j-1.2.16.jar netty-3.7.0.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1.jar————将zookeeper的tar.gz包直接解压，然后到指定路径去寻找 zookeeper-3.4.8.jar 下列三个jar可以去网上下载： commons-pool2-2

2017-05-08 18:31:18 735

原创 ZooKeeper 命令列表

如果配置了Zookeeper的环境变量的话，分别在三个节点执行命令： zkServer.sh start—————启动Zookeeper zkserver.sh status————–Zookeeper状态 zkServer.sh stop—————停止Zookeeper zkServer.sh restart————-重启Zookeeper 如果没有配置Zookeeper的环境变量，

2017-05-08 11:51:20 603

原创 Zookeeper的配置

Zookeeper的下载路径：http://zookeeper.apache.org/releases.html#download 版本：zookeeper-3.4.8.tar.gzStep 1：克隆三个节点，配置好网络，全部开启三个节点 Step 2：进入node11，执行命令建立文件夹：—路径自由选择，也可以按照我的来 mkdir -p /opt/apps/zookeeper Ste

2017-05-06 14:10:08 481

原创 ZooKeeper原理

Question 1—————-什么是Zookeeper？ Zookeeper是一个分布式的，开源的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop、Hbase、Spark等的重要组件。Question 2:————–Zookeeper的功能为分布式应用提供一致性服务(协调统一)的软件。同时间接做到高可用（HA），提供的功能包括：配置维护、域名服务、分布式同步

2017-05-06 12:27:03 337

原创 Linux Shell 基本语法以及例题

1、单引号表示强引用，不可修改双引号表示弱引用，可修改 2、引用变量 $ 变量名本地变量：整个bash进程局部变量：当前代码段环境变量：当前shell和其他shell3、 $#传递到脚本的参数个数 $*传递到脚本的文件个数，可超过9个 $$脚本运行时当前进程的ID号 $!脚本运行时最后一个进程的ID号 $@使用时加引号，并在引号中返回参数个数 $-上一个命令

2017-05-04 19:28:51 872 1

原创使用Nginx显示yum源

Step 1：进入Nginx所在的文件夹执行命令： cd /opt/apps/nginx/conf Step 2：编辑Nginx的配置文件执行命令：vi nginx.conf Step 3：修改http里面的server属性 location / { root /mnt/; autoindex on;

2017-05-04 17:58:56 1039

原创 Linux安装Nginx

Nginx 下载地址：http://mirrors.sohu.com/nginx/Step 1：使用xftp将文件传输到Linux中Step 2 : tar -zxvf nginx-1.8.1.tar.gz Step 3 : 执行命令： cd nginx-1.8.1 Step 4：执行命令： –prefix 后面设置的是你想把nginx安装在哪个位置 ./configure –p

2017-05-03 19:55:18 578

原创 Linux配置阿里云镜像

配置阿里源镜像的目的是为了能够更快速度的安装一些小工具，如果本地DVD包中没有这个工具，那么就会去配置的阿里云镜像中寻找，配置其他的镜像方法一样 Step 1：执行命令： mount /dev/cdrom /mnt Step 2：执行命令——安装工具wget yum -y install wget Step 3：执行命令 wget https://mirrors.aliyun

2017-05-03 19:32:52 2970

原创 Linux中awk和sed命令

Linux中的awk和sed命令的主要应用场景是shell script，在shell script中用于处理字符串，然后得到自己想要的结果sed的常用参数 –-n 静默模式，不再默认显示模式空间中的内容 –-i 直接修改原文件 –-e -e SCRIPT:可以同时执行多个脚本 –-f /PATH/TO/SED_SCRI

2017-05-02 19:01:01 716

原创 Vmware 虚拟机快速克隆节点

Step 1：左侧：找到需要克隆的节点，鼠标右键——>管理——>克隆 Step 2：点击：下一步 Step 3：选择：虚拟机中的当前状态，点击下一步 Step 4：选择：创建完整克隆 Step 5：重新命名新节点，同时，选择虚拟机的存放位置,点击完成 Step 6：修改网卡，执行下列命令 vi /etc/sysconfig/network-scripts/ifcf

2017-05-02 18:40:39 3291

原创 Linux配置yum本地源和Java

配置yum本地源： DVD版镜像：http://www.xitongzhijia.net/linux/201603/69308.htmlStep 1：下载DVD版CentOS镜像Step 2：点击：编辑虚拟机位置 Step 3：点击左侧CD/DVD（IDE）Step 4：点击：右侧使用ISO映像文件，然后选中刚才下载的DVD镜像，点击确定 Step 5：开启虚拟机Step

2017-05-02 18:01:49 768

Python-3.5.2-AMD-64bit

Redis_Jar_For_Session

Memcachedlib_For_Session

zookeeper.tar.gz

nginx-1.8.1.tar.gz

nginx-1.8.1

nginx-1.8.0.tar.gz

zookeeper-3.4.8

Centos-6.8-minimal

空空如也