- 博客(11)
- 资源 (20)
- 收藏
- 关注
转载 hadoop作业调优参数整理及原理
摘要:1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间
2014-04-22 11:12:12 1078
转载 客户的要求一直都很简单
如果你是一个创意人,就会知道懂得一个至理名言——客户的要求一直都是很简单! 一直以来对我的要求都是高端大气国际范,低调奢华有内涵的华夏基金客户告诉我:“这次不一样了!我们要简单、直接、粗暴地表现我们收益稳定和安全性!“ 这点要求难不倒我,分分钟就写出一个创意文案:你拿风险换回报,我用稳健获高利,好基民知道怎么做! 简单的文字却囊括了投资百态,粗暴的诉求已推送至人们心田。这个创意像
2014-04-30 15:17:37 1052
转载 python中机器学习包scikit-learn使用笔记与sign prediction简单小结
经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省若干分钟)。如果有幸此文被想用scikit-learn的你看见,也还是非常希望你去它们的主页看文档。主页中最值得关注的几个部分:User Guide几乎是machine learning的索引,各
2014-04-30 12:21:50 6085
原创 vim中使用正则表达式
一、使用正则表达式的命令使用正则表达式的命令最常见的就是 / (搜索)命令。其格式如下:/正则表达式另一个很有用的命令就是 :s(替换)命令,将第一个//之间的正则表达式替换成第二个//之间的字符串。:s/正则表达式/替换字符串/选项在学习正则表达式时可以利用 / 命令来练习。二、元字符元字符是具有特殊意义的字符。使用元字符可以表达任意字符、行首
2014-04-28 16:40:54 11132 3
转载 hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默
2014-04-28 15:01:03 867
转载 【ConfigParser模块】Python处理配置文件
1.基本的读取配置文件-read(filename) 直接读取ini文件内容-sections() 得到所有的section,并以列表的形式返回-options(section) 得到该section的所有option-items(section) 得到该section的所有键值对-get(section,option) 得到section中option的值,返回为string
2014-04-28 10:06:34 869
转载 python的threading模块中threading.RLock和threading.Lock
在threading模块中,定义两种类型的锁:threading.Lock和threading.RLock。它们之间有一点细微的区别,通过比较下面两段代码来说明:import threading lock = threading.Lock() #Lock对象 lock.acquire() lock.acquire() #产生了死锁。 lock.release() lock.re
2014-04-27 18:35:58 2582 1
转载 Linux的inode的理解
文件名 -> inode -> device block 转自:http://www.ruanyifeng.com/blog/2011/12/inode.htmlhttp://blog.s135.com/post/295/ http://hi.baidu.com/leejun_2005/blog/item/d9aa13a53b3af6e99152ee7e.html
2014-04-24 12:11:57 646
转载 基于Hadoop的一些工具的一句话介绍
Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。 Chukwa 是基于Hadoop集群中监控系统,可以用他来分析和收集系统中的数据(日志) Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作 HBase 是一个面向列的分布式数据库。
2014-04-22 11:09:01 1193
转载 python中re正则表达式模块学习
re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。 import retext = "JGood is a handsome boy, he is cool, clever, and so on..."m = re.match(r"(\w+)\s", text)if m:print m.group(0), '
2014-04-14 11:04:08 687
转载 Python 列表list去重
一.{}.fromkeys(list).keys()list2 ={}.fromkeys(list1).keys()二.setlist2 = list(set(list1))三.itertools.groubyids=[1,4,3,3,4,2,3,4,5,6,1]ids.sort()it=itertools.groupby(ids) fork,ginit:print
2014-04-04 17:47:25 1151
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人