冷峰的思考-CSDN博客

转载 hive top n (order by与sort by区别)

我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字，再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce，如果表的数据量很大，那么order by就会力不从心。例如我们执行SQL：select a from ljntest01 order by a limit 10

2014-09-19 16:24:59 1704

原创 hive transform python

自己写的一个简单例子，用来做话题描述去重，表中的desc字段 “a-b-a-b-b-c”需要去重 python代码如下： #!/usr/bin/python import sys reload(sys) sys.setdefaultencoding('utf8') def quchong(desc): a=desc.split('-') return

2014-09-17 11:02:15 9766

原创 python argparse

usage: argparse_sample.py [-h] [-f FILE] [-n NUM [NUM ...]] [+g GOLD] [-x X] [-y {a,b,d}] -z {a,b,d} [-o OOOOOO] [-q WORLD] bar This is a

2014-09-16 17:30:32 1225

原创 python2.7之MySQLdb模块 for linux安装

1.下载:MySQL-pythonhttp://sourceforge.net/projects/mysql-python/files/mysql-python-test/1.2.3b1/MySQL-python-1.2.3b1.tar.gz/downloadtar -zxf MySQL-python-1.2.3b1.tar.gzcd MySQL-python-1.2.3b1pyt

2014-09-13 19:28:49 1635

转载 log4j

日志是应用软件中不可缺少的部分，Apache的开源项目Log4j是一个功能强大的日志组件，提供方便的日志记录，具体请参考Log4j文档指南。Log4j下载在apache网站，可以免费下载到Log4j最新版本的软件包Apache log4j （推荐）Apache log4j 2Log4j的包下载完成后，解压，将其中打包好的的log4j-1.x.x.jar导入你的工程LIB中

2014-07-29 18:57:40 1546

原创 maven jar

org.apache.maven.plugins maven-compiler-plugin 2.3.2 1.6 1.6 UTF-8 org.apache.maven.plugins maven-ja

2014-07-29 11:07:41 1654

原创 elasticsearch 修改 mapping

Elasticsearch的mapping一旦创建，只能增加字段，而不能修改已经mapping的字段。但现实往往并非如此啊，有时增加一个字段，就好像打了一个补丁，一个可以，但是越补越多，最后自己都觉得惨不忍睹了。怎么办？？这里有一个方法修改mapping，那就是重新建立一个index，然后创建一个新的mapping。你可能会问，这要是在生产环境，可行吗？答案是，如果你一开始就采取了合适的设计，

2014-07-28 15:11:14 17489

原创 elasticsearch analyzers

基本概念全文搜索引擎会用某种算法对要建索引的文档进行分析，从文档中提取出若干Token(词元)，这些算法称为Tokenizer(分词器)，这些Token会被进一步处理，比如转成小写等，这些处理算法被称为Token Filter(词元处理器), 被处理后的结果被称为Term(词)，文档中包含了几个这样的Term被称为Frequency(词频)。引擎会建立Term和原文档的Inver

2014-07-26 17:58:31 1634

原创 java redis 分布式（切片）非分布式（非切片）连接

import java.util.ArrayList;import java.util.List;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;import redis.clients.jedis.JedisPoolConfig;import redis.clients.jedis.JedisS

2014-07-17 19:36:17 6292

原创 redis java

import org.junit.After;import org.junit.Before;import org.junit.Test;import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;import redis.clients.jedis.JedisPoolConfig;import java

2014-07-16 18:45:13 1602

转载数据倾斜总结

数据倾斜总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的redu

2014-07-06 16:42:17 878

原创利用hadoop的partition将数据打散

1、应用场景介绍在日志统计分析的过程中，我们不仅需要对数据进行排序处理，而且还需要对数据进行打散处理。特别是在对海量url进行抓取的时候，由于海量url中同一站点下的url比较多，这样为我们抓取造成困难，因此，需要将url进行打撒处理，使得url尽量的分散开。由于map-reduce的核心就是sort，该框架会将相同的key在reduce中处理，因此，我这里利用partition对key进

2014-07-06 16:09:15 2230

在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切分上的

2014-07-05 23:08:00 937

原创 hdfs读写流程

HDFS简介HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized

2014-07-05 23:02:38 1615

原创 linux查看文件内容

最基本的是cat、more和less。1. 如果你只想看文件的前5行，可以使用head命令，如：head -5 /etc/passwd2. 如果你想查看文件的后10行，可以使用tail命令，如：tail -2 /etc/passwd 或 tail -n 2 /etc/passwdtail -f /var/log/messages参数-f使tail不停地去读最新的内容，这样有

2014-07-05 21:54:28 1865

转载 ubuntu12.04 安装配置jdk1.7

第一步：下载jdk-7-linux-i586.tar.gzwget -c http://download.oracle.com/otn-pub/java/jdk/7/jdk-7-linux-i586.tar.gz (注：如果下载不下来，建议使用迅雷下载，然后拷贝到Linux系统上。)第二步：解压安装sudo mkdir /usr/lib/jvm

2014-06-28 20:26:12 596

原创在Ubuntu-12.04.2上编译安装MySQL-5.6.10

以下安装中涉及的几点需要提前说明的问题：1. 所有下载的文件将保存在 /usr/local/src/ 目录下2. mysql 将以mysql用户运行，而且将加入 service 开机自动运行3. mysql 将被安装在 /usr/local/mysql/ 目录下4. mysql 默认安装使用 utf8 字符集5. mysql 的数据和日志文件保存在 /var

2014-06-21 19:07:23 841

原创 ubuntu12.04软件安装

安装基本库

2014-06-20 07:15:18 1054

转载 java并发

并发Table of Contents1 什么是并发问题。2 java中synchronized的用法3 Java中的锁与排队上厕所。4 何时释放锁？5 Lock的使用6 利用管道进行线程间通信7 阻塞队列8 使用Executors、Executor、ExecutorService、ThreadPoolExecutor9 并发流程控制10 并发3定律11 由并发到并行

2014-06-19 16:08:32 1747

原创 hadoop本地库

目的鉴于性能问题以及某些Java类库的缺失，对于某些组件，Hadoop提供了自己的本地实现。这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so. 本文主要介绍本地库的使用方法以及如何构建本地库。组件Hadoop现在已经有以下 compression codecs本地组件：zlibgziplzo在以上组

2014-06-16 20:34:22 772

原创 hadoop 编译生成eclipse插件

可能有时候因为eclipse版本或者操作系统版本的问题使得hadoop 提供的 eclipse plugin不太好用。可以自己生成1.修改$HADOOP_HOME/src/contrib/build-contrib.xml增加一行：上句后面的/home/gushui/eclipse由自己的$ECLIPSE_HOME代替2.修改 $HADOOP_HOME/src/contri

2014-06-16 20:23:50 1062

原创 hive的四种表

一、Table内部表二、Partition 分区表三ExternalTable 外部表Bucket Table 桶表

2014-06-03 16:53:09 1633

原创 hive是什么？

一、hive是什么

2014-06-03 16:42:24 1215

原创 ubuntu搭建xshell xftp 远程mysql访问

1 Xshell配置 1.1 下载xshell客户端 1.2 安装ssh服务 sudo apt-get install openssh-server 使用ps -e | grep ssh，如果只有ssh-agent表示还没启动，需要/etc/init.d/ssh start；有sshd说明已启动。

2014-05-31 09:29:15 1933

原创 hadoop容错

保证Hadoop中数据存储的可靠性和完整性至关重要。这就涉及云存储系统HDFS的容错机制，其中包括NameNode(元数据节点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与。山Nede之间的心跳检测机制、数据存储等。而数据处理可靠性方面，MapReduc。相对于HDFS来说，容错较简单，主要是任务出错重做机制。

2014-05-30 16:40:04 1492

原创 MapReduce读取txt文件存储至HBase，以文件名作Key，整个文件内容作Value

把已抓取好的网络舆情信息（以txt形式存放），存储到HBase中，再进行信息分析。要求：以文件名作Key，整个文件内容作Value思路：txt文件先上传到HDFS中，再使用HBase MapReduce将文件写入HBase中。（很简单的思路）问题分析：首先必须分析到的问题是，如何读取解析txt文件，TextInputFormat是默认的文件解

2014-05-29 14:35:32 3415

原创以root登录ubuntu界面

Ubuntu 12.04默认是不允许root登录的，在登录窗口只能看到普通用户和访客登录。以普通身份登陆Ubuntu后我们需要做一些修改,普通用户登录后，修改系统配置文件需要切换到超级用户模式,在终端窗口里面输入: sudo -s.然后输入普通用户登陆的密码，回车即可进入 root用户权限模式。然后执行: vi /etc/lightdm/lightdm.conf.增加 g

2014-05-28 17:22:05 1111

原创 Hadoop的安全模式----自检

在hadoop集群的时候,集群的运行会进入到安全模式(safeMode)下。在安全模式下运行一段时间后，自动退出。那么，系统在安全模式下干什么了？当集群启动的时候，会首先进入到安全模式。系统在安全模式下，会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5，那么在dataNode上就应该有5个副本存在，假设只存在3个副本，那么比率就是3/5=0.6

2014-05-27 15:02:31 1377

原创 Hadoop中的心跳机制

主节点和从节点之间的通信是通过心跳机制实现的，如NameNode与DataNode之间，JobTracker和TaskTracker之间。所谓“心跳”是一种形象化描述，指的是持续的按照一定频率在运行，类似于心脏在永无休止的跳动。图7-6指的是dataNode向NameNode发送心跳的周期是3秒。图7-6当长时间没有发送心跳时，NameNode就判断DataNode

2014-05-27 14:59:51 6080

原创 Hadoop的底层架构——RPC机制

RPC是远程过程调用(Remote Procedure Call)，即远程调用其他虚拟机中运行的java object。RPC是一种客户端/服务器模式，那么在使用时包括服务端代码和客户端代码，还有我们调用的远程过程对象。HDFS的运行就是建立在此基础之上的。本章通过分析实现一个简单的RPC程序来分析HDFS的运行机理。下面的代码是服务端代码。public class MyS

2014-05-27 14:57:34 987

原创 Hadoop中的计数器

计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。1. 内置计数器我们运行上一章中的例子，看一下计数器的输出内容，如图6-1图6-1在图6-1中，计数器有19个，分为四个组：File Output Format Counters、FileSystemCounters、File

2014-05-27 14:54:30 1170

转载 Hadoop生态系统

本文详细总结Hadoop生态系统周边框架，在进行个人总结前，先把官网的Hadoop介绍贴出来，因为它才是Hadoop之源，任何的理解、总结都是对它的模仿Hadoop生态系统图：Hadoop应用图：下面一一作简要总结：一、Hadoop HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003

2014-05-27 14:39:25 838

原创 Hadoop家族的各个成员

hadoop这个词已经流行好多年了，一提到大数据就会想到hadoop，那么hadoop的作用是什么呢？官方定义：hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台，也就是说我们有大量的数据，又有好几个电脑，我们知道应该把处理数据的任务分解到各个电脑上，但是不知道怎样分配任务，怎样回收结果，hadoop大概就帮助我们做了这件事。1、HDFS我们首先应

2014-05-26 11:57:14 1364

转载前后端分离的思考与实践----基于NodeJS的前后端分离

前言为了解决传统Web开发模式带来的各种问题，我们进行了许多尝试，但由于前/后端的物理鸿沟，尝试的方案都大同小异。痛定思痛，今天我们重新思考了“前后端”的定义，引入前端同学都熟悉的NodeJS，试图探索一条全新的前后端分离模式。随着不同终端(Pad/Mobile/PC)的兴起，对开发人员的要求越来越高，纯浏览器端的响应式已经不能满足用户体验的高要求，我们往往需要针对不同的终端开

2014-05-23 10:02:47 1343

翻译 Hadoop虽强大，但不是万能的

注：本文翻译自 http://www.cyanny.com/2013/12/05/hadoop-isnt-silver-bullet/ Hadoop是一个分布式海量数据计算的伟大框架。但是，hadoop并不是万能的。比如，以下场景就不适合用hadoop： 1、低延迟数据访问需要实时查询并在毫秒级内进行低延时访问数据就不适合用hadoop。Hadoop并不适用

2014-05-22 15:38:39 706

原创 hadoop常见错误问题及解决方法（3）

以下为本人在学习hadoop过程中遇到问题，在此做下总结方便以后查阅，同时也希望对大家有所帮助；21、从本地上传文件至HDFS文件系统，报如下错误：INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

2014-05-22 15:36:30 1170

原创 hadoop常见错误问题及解决方法（2）

以下为本人在学习hadoop过程中遇到问题，在此做下总结方便以后查阅，同时也希望对大家有所帮助；

2014-05-22 15:35:19 1345

原创 Hadoop常见错误问题及解决方法(1)

以下为本人在学习hadoop过程中遇到问题，在此zuo

2014-05-22 15:32:38 1956

原创 hadoop在linux下的安装

hadoop有3种安装模式，分别是：本地模式、伪分布模式、集群模式。本文在这里只介绍伪分布安装模式。温馨提示：有意向进一步学习hadoop的伙伴，欢迎加qq:1040195253交流。1、设置IP地址执行命令：service network restart验证：ifconfig2、关闭防火墙命令: Serv

2014-05-22 15:26:47 1057

转载 hadoop大事件

2011年12月27日--1.0.0版本释出。标志着Hadoop已经初具生产规模。2009年4月-- 赢得每分钟排序，59秒内排序500 GB（在1400个节点上）和173分钟内排序100 TB数据（在3400个节点上）。2009年3月-- 17个集群总共24 000台机器。2008年10月-- 研究集群每天装载10 TB的数据。2008年4月-- 赢得世界最快1

2014-05-22 15:17:01 919

mysql-5.6.10.tar.gz

mysql-5.6.4-m7.tar.gz

hadoop-eclipse-plugin-1.1.2.jar

Mysql千万级别数据优化方案

奶瓶使用说明书

空空如也