自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HIVE 常用命令

HIVE 连接方式1 在本地执行 hive 命令(本地模式进入到 hive客户终端)2 通过远程连接的方式1)开启元数据服务hive --service metastore & 2) 开启 hiveserver2 服务hiveserver23) 开启 beeline窗口beeline4) 可以查看端口号是否连接netstat -nltp | grep 10000 netstat -nltp | grep 90835)输入连接命令

2021-01-13 22:43:53 570

原创 启动命令(HDFS,ZOOKEEPER,HBASE,YARN)

Hadoop**start-all.sh 启动** 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 **stop-all.sh 停止** 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、Nod

2021-01-13 22:08:27 798

原创 项目-----数据采集入库报错问题总结

– 问题总结flume的agent的堆内存大小默认只有20M,在生产中是肯定不够的一般需要给到1Gvi bin/flume-ng搜索 Xmx ,并修改channel阻塞启动flume之前,积压的数据过多,所以,source读得很快,而sink写hdfs速度有限,会导致反压反压从下游传递到上游,上游的flume的运行日志中会不断报:channel已满,source重试这里就涉及到flume的运行监控 :如果通过监控,发现channel频繁处于阻塞状态,可以通过如下措施予以改善

2021-01-12 20:47:09 242

原创 RDD DataSet 和 Dataframe 的 区别

**RDD DataSet 和 Dataframe 的 区别**首先从版本产生的来看RDD(Spark1.0)—> Dataframe(Spark 1.3)—>DataSet(Spark 1.6)同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果不同的是他们的执行效率和执行方式下面我们先来了解一下这三个数据结构1 RDDRDD 是一个lazy的不可变的可以支持函数调用的并行数据集合RDD 的最大的好处就是简单, API的人性化程度高RDD 劣势是性

2021-01-07 00:00:23 131

原创 统计店铺月累计收入

sid,dt,moneyshop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop1,2019-03-05,180shop1,2019-04-05,280shop1,2019-04-06,220shop2,2019-02-10,100shop2,2019-0

2021-01-05 21:38:11 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除