瞌死在大数据
码龄6年
关注
提问 私信
  • 博客:11,214
    11,214
    总访问量
  • 10
    原创
  • 1,135,035
    排名
  • 2
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-12-13
博客简介:

weixin_44085938的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得28次收藏
创作历程
  • 1篇
    2023年
  • 9篇
    2021年
成就勋章
TA的专栏
  • hive
    1篇
  • hbase
    2篇
  • spark
    2篇
  • hadoop
    4篇
兴趣领域 设置
  • 大数据
    hadoop
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

maven

plugin><goals></goals><jvmArgs></jvmArgs></plugin>
原创
发布博客 2023.07.25 ·
85 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase调优

预分区一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入 HBase时,会按照region分区情况,在集群内做数据的负载均衡。知道hbase数据表的key的分布情况,就可以在建表的时候对hbase进行region的预分区。这样做的好处是防止大数据量插入的热点问题,提高数据插入的效率。步骤:首先就是要想明白数据的key是如何分布的,然后规划一下要分成多少region,每个region的startkey和endkey是多少,然后将规划的key写到一个文件中。key后面会跟
原创
发布博客 2021.12.22 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase搭建流程

1、启动hadoopstart-all.sh验证http://master:500702、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status搭建hbase1、上传解压配置环境变量tar -xvf hbase-1.4.6-bin.tar.gz2、修改hbase-env.sh文件增加java配置export JAVA_HOME=/usr/local/soft/jdk1.8.0_171关闭默认zk配置export HBA
原创
发布博客 2021.12.22 ·
258 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive的常用函数使用

时间类型date:yyyy-MM-ddtimestamp: yyyy-MM-dd HH:mm:ss日期函数时间戳转日期格式from_unixtime(bigint unixtime,格式)格式可自己指定,默认是yyyy-MM-dd HH:mm:ss格式,时间戳是bigint类型返回值:string获取当前时间的时间戳select unix_timestamp()timestamp日期时间转时间戳默认情况下:unix_timestamp(‘yyyy-MM-dd HH:mm:ss’
原创
发布博客 2021.12.22 ·
1176 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

spark搭建

standalone1、上传解压,配置环境变量 配置bin目录2、修改配置文件 confcp spark-env.sh.template spark-env.sh增加配置export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME
原创
发布博客 2021.12.22 ·
173 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark调优

代码调优避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化首选缓存策略是memory_only,如果RDD中的数据比较多,直接使用这种持久化级别,容易导致JVM的OOM内存溢出异常其次再是MEMORY_AND_DISK_SER,SER会进行序列化,对数据进行压缩尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子使用reducerByKey代替groupByKey,reducerByKey会在map端提前
原创
发布博客 2021.12.20 ·
1429 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hadoop的yarn工作流程

yarn是如何执行一个mapreduce job的:首先,Resource Manager会为每一个application在NodeManager里面申请一个container,然后在container里面启动一个application master。container在yarn中是分配资源的容器(内存、cpu、硬盘等),它启动时便会相应启动一个jvm。然后,application master便陆续为application包含的每一个task向resource manager申请一个container
原创
发布博客 2021.12.20 ·
1380 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

shuffle机制

shuffle过程:map方法之后,reduce方法之前的数据处理过程称为shuffle过程在环形缓冲区出来以后,进行分区,排序(快排,对key的索引进行排序,按照字典顺序排),然后可以有combiner过程,进行提前预聚合,再进行溢写。有多次溢写(因为环形缓冲区100M不止存储数据,还存储了像索引这些的元数据),形成多个溢写文件。再对溢写文件进行归并排序,形成一个分区的文件,写到磁盘。reduce task对拉去相同分区的数据,再对相同分区的数据进行归并、排序、分组,使得相同的key进入同一个r.
原创
发布博客 2021.12.20 ·
142 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mapreduce详细工作流程

mapreduce工作流程map任务处理1.1 框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,默认,每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个InputSplit中的每一行,解析成一个<k1,v1>。1.2 框架调用Mapper类中的map(…)函数,map函数的形参是<k1,v1>对,输出是<k2,v2
原创
发布博客 2021.12.20 ·
6036 阅读 ·
1 点赞 ·
0 评论 ·
22 收藏

mapreduce分区策略详解

本文章详细给出了mapreduce的分区策略原理
原创
发布博客 2021.12.20 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏