排序:
默认
按更新时间
按访问量

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

最近些统计程序时,使用了原生的java hadoop,以前使用streaming 模式, 用awk脚本写时,没有遇到编码问题,原生的java hadoop程序,在处理gb18030格式log时,当输出内容时,出现乱码。解决方法见下文(转自http://blog.csdn.net/zklth/art...

2017-04-14 19:49:56

阅读数:479

评论数:0

Hadoop中Combiner的使用

转自:http://blog.csdn.net/ipolaris/article/details/8723782 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本...

2017-03-14 10:23:38

阅读数:274

评论数:0

GBK与unicode转换

最近写unicode分词时,需要处理GBK输入,用到GBK与Unicode之间的转换 转自http://www.latelee.org/programming-under-linux/gbk-to-unicode-table.html -------------------------...

2017-01-12 16:22:58

阅读数:338

评论数:0

【C++】使用libxml解析XML文件

OpenCV中使用FileStorage创建和解析XML文件。但FileStorage不能处理节点为空的情况,且对属性也不友好。例子见这里。 libxml是C接口的处理xml文件的开源代码库。可以在这里下载。 对于一段如下的xml文件: [html] view plain copy ...

2016-11-09 09:31:47

阅读数:481

评论数:0

C++11:POD数据类型

啥是POD类型? POD全称Plain Old Data。通俗的讲,一个类或结构体通过二进制拷贝后还能保持其数据不变,那么它就是一个POD类型。 平凡的定义 1.有平凡的构造函数 2.有平凡的拷贝构造函数 3.有平凡的移动构造函数 4.有平凡的拷贝赋...

2016-11-03 10:48:26

阅读数:246

评论数:0

玩转Google开源C++单元测试框架Google Test系列(gtest)之六 - 运行参数

转自http://www.cnblogs.com/coderzh/archive/2009/04/10/1432789.html 一、前言 使用gtest编写的测试案例通常本身就是一个可执行文件,因此运行起来非常方便。同时,gtest也为我们提供了一系列的运行参数(环境变量、命令行参数...

2016-11-01 09:17:23

阅读数:288

评论数:0

Linux动态加载动态链接库

函数 描述 #include头文件定义如下四个函数 dlopen 使对象文件可被程序访问 dlsym   获取执行了 dlopen 函数的对象文件中的符号的地址 dlerror  返回上一次出现错误的字符串错误 dlclose 关闭目标文件     dlopen函数...

2016-10-25 15:10:06

阅读数:224

评论数:0

shell中test命令用法详解

test命令用法。功能:检查文件和比较值   1)判断表达式   if test  (表达式为真)   if test !表达式为假   test 表达式1 –a 表达式2                  两个表达式都为真   test 表达式1 –o 表达式2...

2016-10-25 09:37:19

阅读数:247

评论数:0

hadoop相关优化参数

hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些值 使作业运行效率达到最优。 程序编写规范 (1)设置Combiner 如果是一大批MR程序,如果可以设置一个Combiner,Combiner可减少Map Task中间输出结果,从而减少各个Reduc...

2016-10-10 10:41:18

阅读数:560

评论数:0

如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。      为了...

2016-09-27 12:32:33

阅读数:262

评论数:0

cgi与fastcgi的理解

当我们在谈到cgi的时候,我们在讨论什么 最早的Web服务器简单地响应浏览器发来的HTTP请求,并将存储在服务器上的HTML文件返回给浏览器,也就是静态html。事物总是不断发展,网站也越来越复杂,所以出现动态技术。但是服务器并不能直接运行php,asp这样的文件,自己不能做,外包给别人...

2016-09-22 21:17:30

阅读数:296

评论数:0

使用C++标准库sort自定义比较函数导致死循环问题

永远让比较函数对相等的值返回false(来自Effective C++) ---------------------------------------------------------------------------------------------------------...

2016-08-17 09:06:20

阅读数:1242

评论数:0

rsync error: protocol incompatibility / mismatch ?

1、问题 今日在维护集群环境的时候,遇到了一个小问题,rsync 向集群中的机器传输文件的时候报错: protocol version mismatch -- is your shell clean? (see the rsync man page for an explanation) ...

2016-08-10 09:24:44

阅读数:759

评论数:0

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 版权声明:     本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文...

2016-07-16 16:35:40

阅读数:525

评论数:0

gcc #pragma pack c++模板template

gcc4.4.7下编译如下,不知为什么对模板的对齐控制不起效果,遂搜了点对模板的对齐控制相关的 #include #pragma pack(2) template class a{ private:         id_type x;         unsigned short y; }...

2016-07-12 17:23:43

阅读数:660

评论数:0

字符串哈希函数

基本概念 所谓完美哈希函数,就是指没有冲突的哈希函数,即对任意的 key1 != key2 有h(key1) != h(key2)。 设定义域为X,值域为Y, n=|X|,m=|Y|,那么肯定有m>=n,如果对于不同的key1,key2属于X,有h(key1)!=h(key2),那么称h...

2016-06-17 13:56:22

阅读数:502

评论数:0

svn checkout单个文件(refers to a file, not a directory)

http://www.letuknowit.com/archives/svn-checkout-single-file/ 有时候需要在svn版本仓库中某个比较上层的目录中(比如根目录)checkout某一个文件,例如下面的svn版本仓库中,我们需要checkout名为readme.txt的文...

2016-02-17 13:09:42

阅读数:2328

评论数:0

svn: File has binary mime type property的解决办法

修改~/.subversion/config 找到最后一个section,在最后加上如下一行话: *.txt = svn:mime-type=text/plain;svn:eol-style=native 光这个还不够,向上搜索到这么一行 # enable-auto-props = yes 把前面...

2016-01-29 17:46:24

阅读数:840

评论数:0

unordered_map与线性结构内存占比

转自http://blog.csdn.net/acaiwlj/article/details/49781877 一、引言   当我们需要使用键值对的情况时,通常我们会使用map或者unordered_map。其中map底层是采用红黑树实现的,它的查询复杂度是O(lgn);unord...

2016-01-15 09:44:06

阅读数:1868

评论数:0

类成员函数作为pthread_create函数参数

转自http://blog.csdn.net/luo6620378xu/article/details/8521940 近日需要将线程池封装成C++类,类名为Threadpool。在类的成员函数exec_task中调用pthread_create去启动线程执行例程thread_rounter...

2016-01-14 11:30:24

阅读数:708

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭