wuwang1988-CSDN博客

原创 hive 中复杂 sql 的使用

Hql中生僻的 sql 1，一列多行转一行多列 create table dev_updated.costomer_wujb5( customer string, product string, monetary string ); truncate table costomer; insert into dev_updated.costomer_wujb5 values('Mary'...

2019-04-29 14:10:26 1500

原创 spark中的序列化器

//指定序列化处理类 sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //注册自定义类交给KryoSerializer序列化处理类进行序列化 .registerKryoClasses(Array(classOf[xxxx])) xxxx--->是要进行序列化...

2019-04-29 13:58:43 402

原创 spark优化

Spark调优一，分配更多的资源 1，在哪里分配在提交任务时，在这三个参数上分配（--total-executor-cores --executor-memory --driver-memory） 2，分配那些资源 CPU core 和 memory 3，怎么分配 4，分配之后有什么效果 A, 给executor分配更多的内存...

2019-04-29 13:58:04 174

原创 mr的shuffle和spark的shuffle之间的区别

mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的，每一个块对应一个分片，maptask就是从分片中获取数据的在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区，这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的时候会把文件益写到磁盘，溢出的各种小文件会合并成一...

2017-09-19 20:40:40 3856

原创 hadoop生态圈

hdfs底层存储 hbase 数据库 hive数据仓库 Zookeeper分布式锁 spark大数据分析

2017-08-29 21:13:46 207

原创 spark优化

Spark调优一，分配更多的资源1，在哪里分配在提交任务时，在这三个参数上分配（–total-executor-cores –executor-memory –driver-memory） 2，分配那些资源 CPU core 和 memory 3，怎么分配4，分配之后有什么效果 A, 给executor分配更多的内存，能够减少executor频繁的GC，因为发生频繁的G...

2017-08-29 20:46:16 168

转载使用spark将从hbase中读取数据

使用spark将从hbase中读取数据 val sparkConf = new SparkConf().setAppName(“xxxx”).setMaster(“local”) //从数据库中读取数据 val sparkTask = SparkTaskDao.findTaskById(sparkConf.get(GlobalConstants.RUN_TASK_ID).toLong

2017-08-18 14:57:53 245

原创 spark中的序列化器

我们在使用spark进行序列化的时候总是习惯于使用继承Java中的Serializable，但是，在spark-2.1.0-bin-hadoop2.7新增了一个比Serializable更加安全高效的序列化器

2017-08-18 14:25:19 305

wuwang1988的博客

原创 hive 中复杂 sql 的使用

原创 spark中的序列化器

原创 spark优化

原创 mr的shuffle和spark的shuffle之间的区别

原创 hadoop生态圈

原创 spark优化

转载使用spark将从hbase中读取数据

原创 spark中的序列化器

空空如也

空空如也