spark中多表连接优化实例

环境信息: hive1.2.1 spark1.6.1 hadoop2.6.0-cdh5.4.2 memory:1918752, vCores:506表结构: 表名称 表容量 主键 hive存储类型 temp_01_pc_order 5G PC_ORDER_ID ...

2016-07-13 17:26:45

阅读数 5220

评论数 0

sed基础

sed读取数据方式: sed是流式编辑器,它先从文件的一个文本行或者从标准输入中读取数据,copy进缓冲区,然后读取命令行或者脚本的第一条命令,并使用这些命令查找模式或者定位行号进行编辑;如此重复。 sed处理的是缓冲区中的copy,并不处理源文件;所有的改动如果不重定向到一个文件,都将输出到屏...

2016-06-01 16:52:42

阅读数 362

评论数 0

awk基础

AWK程序:调用方式:1、命令行方式:awk [-F field-separator] 'commands' input-file(s) 2、将所有awk命令插入一个文件,并使其可执行,然后用awk命令解释器作为脚本首行,便于输入脚本名称来调用。#!/bin/awk -f 3、将所有awk命令...

2016-05-23 17:56:49

阅读数 342

评论数 0

hive两大表关联优化试验

呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G 原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867...

2016-05-18 10:39:38

阅读数 7183

评论数 0

grep命令

grep家族grep:标准grep命令; Egrep:扩展grep,支持基本及扩展的正则表达式; Fgrep:快速grep。允许查找字符串而不是一个模式grep的一般格式: grep[选项]基本正则表达式[文件] 常用的grep选项: -a :将 binary 文件以 text 文件的方...

2016-05-13 16:41:35

阅读数 485

评论数 0

spark sql运行出错(Container killed on request. Exit code is 143)

错误描述:SQL三张表做join运行出错;用hive执行报错如下: Diagnostic Messages for this Task: Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is...

2016-05-06 16:05:16

阅读数 27898

评论数 0

使用IPython探索和可视化数据

推荐使用 Anaconda.它是一个预编译的科学Python套件。(或者Enthougt) 下载 Anaconda-2.3.0-Linux-x86_64.sh 并copy到/usr/local/apps目录下,运行 bash Anaconda-2.3.0-Linux-x86_64.sh完成安装。 ...

2015-09-27 21:34:20

阅读数 2341

评论数 1

Spark开发环境及源码阅读环境配置

源码阅读环境配置:参考如下博文:Windows + IDEA + SBT 打造Spark源码阅读环境上面是在windows环境的配置,比较耗时,而且由于网络原因,很有可能出错;在linux环境下就比较简单了: 进入spark源代码目录下,运行以下命令:./sbt/sbt gen-idea会自动生成...

2015-09-03 19:28:46

阅读数 1937

评论数 0

数据挖掘算法——ID3(决策树)

决策树算法:决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,...

2015-08-07 16:51:48

阅读数 1769

评论数 3

Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。

2015-07-30 20:15:17

阅读数 3160

评论数 0

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优...

2015-07-29 16:02:52

阅读数 4450

评论数 0

在spark上运行独立程序(Self-Contained Applications)

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "RE...

2015-07-05 16:27:57

阅读数 1947

评论数 2

spark-shell初体验

1、复制文件至HDFS: hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoop hadoop@Mh...

2015-05-02 13:50:45

阅读数 1819

评论数 0

hadoop集群只有一个datanode启动问题

之前不懂犯了个低级错误,导致datanode只能启动一个;很是奇怪; 首先,之前多次将namenode格式化,导致namenode和datanode的clusterID不一致无法启动datanode 注:clusterID在/usr/local/hadoop/hdfs/name/current目录...

2015-05-02 12:46:00

阅读数 12297

评论数 4

我的hadoop2.4安装过程

先记录下安装dk出现的问题:

2015-05-01 16:02:57

阅读数 835

评论数 0

在hadoop2.4集群环境下安装spark

1、下载spark最新版:http://spark.apache.org/downloads.html 下载对应的Scala版本:http://www.scala-lang.org/download/

2015-05-01 15:57:37

阅读数 3130

评论数 2

Python包numpy、Matplotlib、SciPy在64位Windows上的安装

Python版本:3.4.2 64位 Matplotlib 最容易,有64位的exe文件,直接下载:http://sourceforge.net/projects/matplotlib/files/?source=navbar numpy 和 SciPy:http://www.lfd.uci.e...

2015-03-15 17:20:37

阅读数 45186

评论数 0

sublime text 2安装及使用

1、首先下载Sublime Text:http://www.sublimetext.com/ 2、基本你设置,参考此文:http://blog.jobbole.com/40660/ Preferences.sublime-settings 配置: { "auto_complete&qu...

2014-11-02 00:26:57

阅读数 3037

评论数 0

《Oracle Database 11g SQL 开发指南》学习笔记——第11章_PL/SQL编程简介

11.1、块结构     [DECLARE        declaration_statements     ]     BEGIN        executable_statements     [EXCEPTION        exception_handing _sta...

2012-09-04 16:57:57

阅读数 1597

评论数 0

《Oracle Database 11g SQL 开发指南》学习笔记——第四章_使用简单函数(二)

4.1.4 正则表达式函数。    \ 转义字符,  ^ 匹配字符串开头位置,  $ 匹配字符串结束位置,    *匹配前面字符0次或多次       + 匹配1次或多次,  ?匹配0或1次,      {n} 匹配恰好n次,    {n,m}匹配至少n至多m次        . 匹配除nu...

2012-08-29 15:12:04

阅读数 1084

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭