黄色沙琪玛-CSDN博客

原创 c++指针实现2数交换

#include #include void main(){ /*int a, *b; b = &a; int hj = 10; int *p; p = &hj; printf("%d", p);*/ int a, b; scanf("%d%d",&a, &b); printf("%d ,%d",a, b); int *p1 = &a; int *p2 = &b; i

2016-11-11 07:36:46 576 1

原创写一个函数求2个数的之和，要求在函数体内不得使用+-*/

写一个函数求2个数的之和，要求在函数体内不得使用+-*/int sum = a^b;int jinwei = (a & b) reutrn add(sum, jinwei);

2016-10-19 00:34:51 528

原创 C语言中反码和补码

unsigned char a1 = 129; char a = 129; char b = 128; char c = -1; printf("\n,%d,%d,%d,%d", a, b,c,a1 ); printf("\n"); printf("\n%x, %x, %x",&a, &b,&c); getchar();输出结果：-127， -128， -1,

2016-10-18 23:38:00 850

原创 C语言常量和变量

c语言中常量和变量在内存中存放：常量就是计算机内存中不变的数据变量就是计算机内存里需要并且经常改变的数据%x 按照16进制%d按照10进制定义常量2种：1、#define Pai 3.142、const float pai 3.14

2016-10-15 15:50:16 510

原创 day85-基于HDFS的SparkStreaming

JavaStreamingContext 类

2016-09-13 08:06:41 361

原创 day83-透彻讲解使用Java方式实战Spark Streaming开发

import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.

2016-09-11 16:11:47 6124

原创 HBase 实现二级索引

MapReduce方式创建二级索引使用整合MapReduce的方式创建hbase索引。主要的流程如下：1.1扫描输入表，使用hbase继承类TableMapper1.2获取rowkey和指定字段名称和字段值1.3创建Put实例， value=rowkey, rowkey=columnName +"_" +columnValue1.4使用IdentityTableReducer将

2016-09-06 18:08:10 1967

转载 SparkSQL-day81

SparkSQL

2016-09-01 09:49:53 259

原创 day80sparkSQL网站搜索综合实例

目的：找出搜索平台上用户明天搜索排名前五名的产品1、原始的ETL过滤数据后产生目标数据广播的原理，过滤是发生在work2、对过滤后的目标数据进行指定条件的查询，查询条件又可能非常复杂（进行广播（广播过滤条件）），进行RDD的filter的算子；3、对于商品时分为种类的，我们在得出最终结果之前，首先会基于商品UV（对于用户访问商品的PV）此时我们要对商品进行UV计算的话，必须

2016-08-30 01:06:10 607

原创 day84：StreamContext、DStream、receiver

一下内容来源于DT大数据梦工厂：StreamingContext * AJava-friendly version of[[org.apache.spark.streaming.StreamingContext]]which is the main* entry point for Spark Streaming functionality. It provides m

2016-06-10 16:54:51 892

原创 day71：Spark SQL窗口函数解密与实战

Spark SQL窗口函数解密与实战sparkSQL 窗口函数解析sparkSQL窗口函数实战package cn.db.scala.sparksqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.hive.HiveContext/** * Created by ptbx on

2016-06-05 23:35:35 576

原创 day70:Spark SQL内置函数解密与实战

Spark on hive:将hive的元数据当作一个数据源Hive on spark:（未来一个趋势）Hive 本来的计算框架是mr，换成spark 来计算目前企业及大数据spark开发的时候绝大多数情况下采用hive 作为数据仓库的；spark提供了Hive的支持功能，spark通过hiveContext 可以直接操作hive 的数据；基于HiveContextk可以使用s

2016-06-05 17:19:06 1213

原创 day65-Spark SQL下Parquet深入进阶

ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains SparkSQL 下的Parquet 序列化SparkSql 下的Parquet源码解读SparkSql下Parquet总结 Parquet下的Bolck块，Cloun

2016-05-16 06:43:43 933

原创 day64 Spark SQL下Parquet的数据切分和压缩内幕详解

ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains Parquest类的操作 ParquestRelation源码: public class ParquetOutputFormatextends FileOutputFor

2016-05-16 06:42:13 1337

原创 day63-Spark SQL下Parquet内幕深度解密

ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains一：sparkSQL 下的Parquet意义再思考存储空间包括：内存和磁盘，计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话，parquet则是整个大数据时代文件存储格式的事实标准。1、速度

2016-05-08 13:40:33 1383

原创 day62-Spark SQL下的Parquet使用最佳实践和代码实战

一下内容来源于DT大数据梦工厂：ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsSparkSQL下的Parquet的使用、实践一、 Spark SQL下的parquest最佳实践1、过去整个业界对大

2016-05-08 13:34:46 1430

原创 day61-Spark SQL数据加载和保存内幕深度解密实战

Spark SQL加载数据SparkSQl 数据输入输入输出主要是DataFrame，DataFrame提供了一些通用的load和save操作。通过load可以创建出DataFrame；通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式；直接读取文件的指定类型： SQLContext源码：load 和sa

2016-05-08 13:13:32 1708

原创使用Java实战RDD与Dataframe动态转换

import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.sp

2016-05-07 22:49:29 9476 4

原创 day56-Spark SQL和DataFrame的本质

以下内容来源于DT大数据梦工厂：SparkSQL 于DtaFrameDataFrame与RDD企业实践一、 SparkSql于DataFramesparkSql之所以是出了spark core以外最大的和最受欢迎组件原因是：1、处理各种存储介质和各种格式的数据（可以方便扩展sparkSQL的功能来支持更多类型的数据例如kudu）2、sparkSQL把数

2016-05-01 15:37:53 460

原创 day55-hive实战:

一下内容来源于：ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepains

2016-04-30 23:18:32 304

原创 day60:sparkSql

以下内容来源于DT大数据梦工厂：一：SparkSQL 与DataFrame1、 sparksql之所以是除了spark core以外最大的和最受关注的组件，原因是：a) 处理一切存储介质和各种格式的数据（同时可以方便的扩展sparksql的功能来支持更多类型的数据例如：kudu）b) spark SQL把数据仓库的设计推向了新的高度，不仅仅是无敌的计算速度（spark

2016-03-12 21:45:05 366

原创 day31：Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度

以下内容整理来源于DT大数据梦工厂：http://.blog.sina.com.cn/ilovepainsＤＴ大数据梦工厂联系方式：微信公众号：DT_SparkTEL:18610086859Email:18610086859@vip.126.com

2016-03-12 15:10:33 299

原创 day30:Master的注册机制和状态管理解密

以下内容整理来源于DT大数据梦工厂：

2016-03-09 08:05:07 789

原创 spakr 性能优化：钨丝计划内幕

以下内容整理来源于DT大数据梦工厂：

2016-03-07 21:48:44 438 1

原创 day25：Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式

以下博客整理来源于DT大数据梦工厂：一：为什么需要Sort-Based shuffle1、shuffle 一般包含2个阶段任务：第一部分，产生Shuffle数据的阶段（Map阶段，需要实现ShuffleManager 中的getWriter来写数据，可以通过blockManager将数据写入、Memory，Disk，Tachyon都可以，也可以写副本（例如想非常快的shuffle此时可以考

2016-03-06 22:43:18 653

原创 day28：Spark天堂之门解密

以下内容整理来源与DT大数据梦工厂：

2016-03-05 17:54:26 570

原创 day50:性能优化6--Shufffle

一下内容整理来源于DT大数据梦工厂：一：shuffle 性能优化1、问题： Shuffle output file lost? 真正的原因是GC导致的！！默认时间间隔5秒可以调大。spark.shuffle.file.bufferspark.shuffle.io.maxRetriesspark.shuffle.file.buffer内存管理和二进制处理：借助应用的

2016-03-03 21:15:52 427

原创 day27：Spark on Yarn彻底解密

以下内容整理来源于DT大数据梦工厂：

2016-03-02 23:17:45 533

原创 day26：Spark Runtime（Driver、Masster、Worker、Executor）内幕

以下内容整理来源于DT大数据梦工厂：新浪微博：www.weibo.com/ilovepains/ＤＴ大数据梦工厂新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsTEL:18610086859

2016-03-02 23:15:33 1012

原创 day49:性能优化5

以下内容来源于DT大数据梦工厂：1、数据本地性2、RDD自定义一、性能优化之数据本地性数据本地性是对分布式系统是一件最为重要的事情（之一），程序包含代码和数据2部分，单机版本一般情况下很少数据本地性的问题（因为数据在本地）。但是由于数据本地有PROCESS_LOCAL和NODE_LOCAL之分。所以我们还是尽量的让数据处于PROCESS_LOCAL。例如PHP 现在都

2016-03-02 20:20:50 336

原创 day24:park Hash Shuffle内幕彻底解密

一下内容和资源整理来源于DT大数据梦工厂ＤＴ大数据梦工厂联系方式：新浪微博：www.weibo.com/ilovepains/微信公众号：DT_Spark博客：http://.blog.sina.com.cn/ilovepainsTEL:18610086859Email:18610086859@vip.126.com

2016-03-01 07:45:43 494

原创 Day8：IDEA 开发spark

本内容整理来源于DT大数据梦工厂。在bin 目录下执行：./spark-submit --class cn.tan.spark.dt.WordCount --master spark://node11:7077 /home/word.jarspark jobHistory 配置：Caused by: java.lang.IllegalArgumentException:

2016-02-29 22:59:13 552

原创 day21：从Spark架构中透视Job

本文整理来源于DT大数据梦工厂：

2016-02-29 12:56:49 446

原创 day22:RDD的依赖关系彻底解密

本文整理来源于DT大数据梦工厂:

2016-02-29 12:55:43 739

原创 day23：从物理执行的角度透视Spark Job

以下内容整理来源于DT大数据梦工厂，微博地址：

2016-02-26 14:27:29 441

原创 day47：DT大数据梦工厂性能优化day47

以下内容整理来源于DT大数据梦工厂，微博地址：优化数据结构：减少内存1、java 对象是16个字节（例如指向对象的指针等元数据信息），如果对象中只有一个int的property，则此时会占据20个字节，也就是说对象的原数据占用了大部分的空间，所有在封装数据的时候尽量不要使用对象！例如说明使用JSON格式来封装数据2、Java中的基本数据类型会自动的封箱操作，例如int会

2016-02-26 14:26:08 322