- 博客(15)
- 资源 (20)
- 收藏
- 关注
转载 YARN或将成为Hadoop新发力点
2013年的Hadoop峰会上,YARN是一个热点话题,YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈。Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键。Yahoo!最初开发Hadoop,是为了用于搜索和索引Web网页,目前很多的搜索服务都是基于这个框架的,但是Hadoop从本质上来说还只是一个解决方案。2013年的Hadoop峰
2014-03-31 20:48:07 855
转载 Python正则表达式指南
1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语
2014-03-27 16:31:19 614
转载 详解Python正则表达式之: (?P=name) match earlier named group 匹配前面已命名的组
Python 2.7的手册中的官方解释是:(?P=name)Matches whatever text was matched by the earlier group named name.下面就简单解释解释此含义。1.首先,使用此(?P=name)之前,在正则表达式中,必须之前已经有了名为name的带命名的group了,即有了类似的(?P)了
2014-03-27 15:52:45 3958
转载 详解Python正则表达式之: (?P<name>…) named group 带命名的组
Python 2.7的手册中的解释:(?P...)Similar to regular parentheses, but the substring matched by the group is accessible within the rest of the regular expression via the symbolic group name name. Gr
2014-03-27 15:51:25 28459
转载 hadoop中hive和hbase的整合应用
hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直
2014-03-26 20:18:32 935
转载 hive cli命令行选项
Hive Command line OptionsUsage: Usage: hive [-hiveconf x=y]* []* [|] [-S] -i Initialization Sql from file (executed automatically and silently before any other commands) -e
2014-03-25 19:47:13 1000
转载 Hive Shell 基本操作——深入浅出学Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive bin下脚本介绍Hive bin下
2014-03-25 17:56:30 2135
转载 linux 的date命令及系统时间设置
Linux时钟分为系统时钟(System Clock)和硬件(Real Time Clock,简称RTC)时钟。系统时钟是指当前Linux Kernel中的时钟,而硬件时钟则是主板上由电池供电的时钟,这个硬件时钟可以在BIOS中进行设置。当Linux启动时,硬件时钟会去读取系统时钟的设置,然后系统时钟就会独立于硬件运作。Linux中的所有命令(包括函数)都是采用的系统时钟设置。在Linux
2014-03-25 13:36:34 942
转载 hadoop stream 参数详解
原文地址:streaming" style="background-color:inherit">Hadoop streaming作者:tivoli_chen1 hadoop streamingHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如,$HADOOP_H
2014-03-20 15:20:07 1137
原创 计算广告学中的GFP、GSP和VCG对比
GFP(广义一阶价格拍卖)主要特点是关键词拍卖中广告主之间进行的是重复博弈,在每一轮拍卖结束后,广告主会根据上一轮报价的情形决定下一轮的报价决策,而这场价格战会被自然而然地分为价格攀升阶段和价格崩溃阶段。只能是在搜索引擎公司了解广告商估价的前提下运作,否则因为没有均衡,波动会在极大程度上带来拍卖效率上的损失。GSP(广义二阶价格拍卖)简单来说它即是支付数=点击次
2014-03-20 14:25:57 5966 1
转载 线性判别分析(Linear Discriminant Analysis, LDA)算法分析
LDA算法入门 一. LDA算法概述:线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽
2014-03-18 19:34:36 895
转载 python解析json
一、JSON的格式:1,对象:{name:"Peggy",email:"peggy@gmail.com",homepage:"http://www.peggy.com"}{ 属性 :值 ,属性 :值 , 属性 : 值 }2,数组是有顺序的值的集合。一个数组开始于"[",结束于"]",值之间用","分隔。[{name:"Peggy",email
2014-03-11 16:35:10 4046
转载 linux python 安装 及更换python默认版本(转)
绝大多数linux distribution都内置安装了python,我们只要在liunx命令行下打入python就能看到了,但是版本有点低不是我们想要的。 1、下载python 到http://www.python.org/download/上下载python时注意可能是被和谐了该连接打不开,所以在download前多加些/////////,像http://www.pyt
2014-03-11 12:00:15 4817 1
转载 Python处理JSON
概念序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON、XML等。反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态,重新创建该对象。JSON(JavaScript Object Notation):一种轻量级数据交换格式,相对于XML而言更简单,也易于阅读和编写,机器也方便解析和生成,Json是Ja
2014-03-11 09:00:52 760
转载 2014年大数据预测分析市场的新兴方法
随着海量信息被分析和编译,对于企业而言,现在比以往任何时候都更容易的充分利用这些数据来解决他们的具体业务需求。而且,通过利用大数据预测分析说带来的好处远远超出了传统营销的应用程序。据路透社新闻报道,大数据的价值量将保持45%的年增长速度,到明年将达到250亿美元。这也就意味着,今年我们将看到数据预测分析在商业领域的广泛使用及其应用程序的快速增长。本文中,我们将为您介绍一些在今年及以后相当一
2014-03-03 18:02:23 1121
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人