自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 hive 中复杂 sql 的使用

Hql中生僻的 sql 1,一列多行转一行多列 create table dev_updated.costomer_wujb5( customer string, product string, monetary string ); truncate table costomer; insert into dev_updated.costomer_wujb5 values('Mary'...

2019-04-29 14:10:26 1500

原创 spark中的序列化器

//指定序列化处理类 sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //注册自定义类交给KryoSerializer序列化处理类进行序列化 .registerKryoClasses(Array(classOf[xxxx])) xxxx--->是要进行序列化...

2019-04-29 13:58:43 402

原创 spark优化

Spark调优 一,分配更多的资源 1,在哪里分配 在提交任务时,在这三个参数上分配(--total-executor-cores --executor-memory --driver-memory) 2,分配那些资源 CPU core 和 memory 3,怎么分配 4,分配之后有什么效果 A, 给executor分配更多的内存...

2019-04-29 13:58:04 174

原创 mr的shuffle和spark的shuffle之间的区别

mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的 时候会把文件益写到磁盘,溢出的各种小文件会合并成一...

2017-09-19 20:40:40 3856

原创 hadoop生态圈

hdfs底层存储 hbase 数据库 hive数据仓库 Zookeeper分布式锁 spark大数据分析

2017-08-29 21:13:46 207

原创 spark优化

Spark调优一,分配更多的资源1,在哪里分配 在提交任务时,在这三个参数上分配(–total-executor-cores –executor-memory –driver-memory) 2,分配那些资源 CPU core 和 memory 3,怎么分配4,分配之后有什么效果 A, 给executor分配更多的内存,能够减少executor频繁的GC,因为发生频繁的G...

2017-08-29 20:46:16 168

转载 使用spark将从hbase中读取数据

使用spark将从hbase中读取数据 val sparkConf = new SparkConf().setAppName(“xxxx”).setMaster(“local”) //从数据库中读取数据 val sparkTask = SparkTaskDao.findTaskById(sparkConf.get(GlobalConstants.RUN_TASK_ID).toLong

2017-08-18 14:57:53 245

原创 spark中的序列化器

我们在使用spark进行序列化的时候总是习惯于使用继承Java中的Serializable,但是,在spark-2.1.0-bin-hadoop2.7新增了一个比Serializable更加安全高效的序列化器

2017-08-18 14:25:19 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除