- 博客(5)
- 收藏
- 关注
原创 HIVE 常用命令
HIVE 连接方式1 在本地执行 hive 命令(本地模式进入到 hive客户终端)2 通过远程连接的方式1)开启元数据服务hive --service metastore & 2) 开启 hiveserver2 服务hiveserver23) 开启 beeline窗口beeline4) 可以查看端口号是否连接netstat -nltp | grep 10000 netstat -nltp | grep 90835)输入连接命令
2021-01-13 22:43:53 570
原创 启动命令(HDFS,ZOOKEEPER,HBASE,YARN)
Hadoop**start-all.sh 启动** 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 **stop-all.sh 停止** 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、Nod
2021-01-13 22:08:27 798
原创 项目-----数据采集入库报错问题总结
– 问题总结flume的agent的堆内存大小默认只有20M,在生产中是肯定不够的一般需要给到1Gvi bin/flume-ng搜索 Xmx ,并修改channel阻塞启动flume之前,积压的数据过多,所以,source读得很快,而sink写hdfs速度有限,会导致反压反压从下游传递到上游,上游的flume的运行日志中会不断报:channel已满,source重试这里就涉及到flume的运行监控 :如果通过监控,发现channel频繁处于阻塞状态,可以通过如下措施予以改善
2021-01-12 20:47:09 242
原创 RDD DataSet 和 Dataframe 的 区别
**RDD DataSet 和 Dataframe 的 区别**首先从版本产生的来看RDD(Spark1.0)—> Dataframe(Spark 1.3)—>DataSet(Spark 1.6)同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果不同的是他们的执行效率和执行方式下面我们先来了解一下这三个数据结构1 RDDRDD 是一个lazy的不可变的可以支持函数调用的并行数据集合RDD 的最大的好处就是简单, API的人性化程度高RDD 劣势是性
2021-01-07 00:00:23 131
原创 统计店铺月累计收入
sid,dt,moneyshop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop1,2019-03-05,180shop1,2019-04-05,280shop1,2019-04-06,220shop2,2019-02-10,100shop2,2019-0
2021-01-05 21:38:11 219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人