自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (20)
  • 收藏
  • 关注

转载 YARN或将成为Hadoop新发力点

2013年的Hadoop峰会上,YARN是一个热点话题,YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈。Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键。Yahoo!最初开发Hadoop,是为了用于搜索和索引Web网页,目前很多的搜索服务都是基于这个框架的,但是Hadoop从本质上来说还只是一个解决方案。2013年的Hadoop峰

2014-03-31 20:48:07 855

转载 Python正则表达式指南

1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果已经在其他语

2014-03-27 16:31:19 614

转载 详解Python正则表达式之: (?P=name) match earlier named group 匹配前面已命名的组

Python 2.7的手册中的官方解释是:(?P=name)Matches whatever text was matched by the earlier group named name.下面就简单解释解释此含义。1.首先,使用此(?P=name)之前,在正则表达式中,必须之前已经有了名为name的带命名的group了,即有了类似的(?P)了

2014-03-27 15:52:45 3958

转载 详解Python正则表达式之: (?P<name>…) named group 带命名的组

Python 2.7的手册中的解释:(?P...)Similar to regular parentheses, but the substring matched by the group is accessible within the rest of the regular expression via the symbolic group name name. Gr

2014-03-27 15:51:25 28459

转载 hadoop中hive和hbase的整合应用

hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直

2014-03-26 20:18:32 935

转载 hive cli命令行选项

Hive Command line OptionsUsage: Usage: hive [-hiveconf x=y]* []* [|] [-S] -i Initialization Sql from file (executed automatically and silently before any other commands) -e

2014-03-25 19:47:13 1000

转载 Hive Shell 基本操作——深入浅出学Hive

目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive bin下脚本介绍Hive bin下

2014-03-25 17:56:30 2135

转载 linux 的date命令及系统时间设置

Linux时钟分为系统时钟(System Clock)和硬件(Real Time Clock,简称RTC)时钟。系统时钟是指当前Linux Kernel中的时钟,而硬件时钟则是主板上由电池供电的时钟,这个硬件时钟可以在BIOS中进行设置。当Linux启动时,硬件时钟会去读取系统时钟的设置,然后系统时钟就会独立于硬件运作。Linux中的所有命令(包括函数)都是采用的系统时钟设置。在Linux

2014-03-25 13:36:34 942

转载 hadoop stream 参数详解

原文地址:streaming" style="background-color:inherit">Hadoop streaming作者:tivoli_chen1 hadoop streamingHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如,$HADOOP_H

2014-03-20 15:20:07 1137

原创 计算广告学中的GFP、GSP和VCG对比

GFP(广义一阶价格拍卖)主要特点是关键词拍卖中广告主之间进行的是重复博弈,在每一轮拍卖结束后,广告主会根据上一轮报价的情形决定下一轮的报价决策,而这场价格战会被自然而然地分为价格攀升阶段和价格崩溃阶段。只能是在搜索引擎公司了解广告商估价的前提下运作,否则因为没有均衡,波动会在极大程度上带来拍卖效率上的损失。GSP(广义二阶价格拍卖)简单来说它即是支付数=点击次

2014-03-20 14:25:57 5966 1

转载 线性判别分析(Linear Discriminant Analysis, LDA)算法分析

LDA算法入门 一. LDA算法概述:线性判别式分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽

2014-03-18 19:34:36 895

转载 python解析json

一、JSON的格式:1,对象:{name:"Peggy",email:"peggy@gmail.com",homepage:"http://www.peggy.com"}{ 属性 :值 ,属性 :值 , 属性 : 值 }2,数组是有顺序的值的集合。一个数组开始于"[",结束于"]",值之间用","分隔。[{name:"Peggy",email

2014-03-11 16:35:10 4046

转载 linux python 安装 及更换python默认版本(转)

绝大多数linux distribution都内置安装了python,我们只要在liunx命令行下打入python就能看到了,但是版本有点低不是我们想要的。 1、下载python       到http://www.python.org/download/上下载python时注意可能是被和谐了该连接打不开,所以在download前多加些/////////,像http://www.pyt

2014-03-11 12:00:15 4817 1

转载 Python处理JSON

概念序列化(Serialization):将对象的状态信息转换为可以存储或可以通过网络传输的过程,传输的格式可以是JSON、XML等。反序列化就是从存储区域(JSON,XML)读取反序列化对象的状态,重新创建该对象。JSON(JavaScript Object Notation):一种轻量级数据交换格式,相对于XML而言更简单,也易于阅读和编写,机器也方便解析和生成,Json是Ja

2014-03-11 09:00:52 760

转载 2014年大数据预测分析市场的新兴方法

随着海量信息被分析和编译,对于企业而言,现在比以往任何时候都更容易的充分利用这些数据来解决他们的具体业务需求。而且,通过利用大数据预测分析说带来的好处远远超出了传统营销的应用程序。据路透社新闻报道,大数据的价值量将保持45%的年增长速度,到明年将达到250亿美元。这也就意味着,今年我们将看到数据预测分析在商业领域的广泛使用及其应用程序的快速增长。本文中,我们将为您介绍一些在今年及以后相当一

2014-03-03 18:02:23 1121

The Google file system(免积分下载)

The Google file system,一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口

2014-01-04

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

2013-12-05

HMM最佳学习范例

遇到这一篇文档之前没有碰到过能把“隐马尔科夫模型”讲的这么清晰透彻的,HMM学习最佳范例做到了

2013-11-18

集体智慧编程(源代码)

集体智慧编程书中所有章节的源代码,请注意代码为Python编写!

2013-11-03

新浪微博数据集

一个新浪新浪微博内容数据集的压缩包,进行数据挖掘分析只用。

2013-10-30

自学Matlab必备的60个程序代码

matlab自学必备利器,这些源代码看懂用自己实践一遍之后,以后上手其他的就容易多了!

2012-10-28

matlab在矩阵中的应用

matlab最强大的地方就是对矩阵的运算能力强,课件对这一强大基本的功能做了基础的介绍!

2012-10-28

matlab基础课件

对matlab的使用做了一些基础性的介绍,看完之后基本上算是入门了!

2012-10-28

《MATLAB程序设计教程》源代码

对matlab的使用做了一下入门性的介绍,并包含大部分常用的源代码!

2012-10-28

visio 2007指南

这是微软发布的官方visio指南,清新简洁,pdf的,一共37页,几个小时就能把visio搞的差不多。

2012-08-23

visio教程(pdf版)

visio教程,完整清新pdf版呈上,基本上可以在短时间内快速掌握visio基本技能!

2012-08-23

现代无线通信

西蒙 赫金的现代无线通信的中文版,经典程度就不解释了

2012-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除