2021年01月_weixin_52346735

03月 02月 01月

原创 HIVE 常用命令

HIVE 连接方式1 在本地执行 hive 命令（本地模式进入到 hive客户终端）2 通过远程连接的方式1）开启元数据服务hive --service metastore & 2）开启 hiveserver2 服务hiveserver23）开启 beeline窗口beeline4）可以查看端口号是否连接netstat -nltp | grep 10000 netstat -nltp | grep 90835）输入连接命令

2021-01-13 22:43:53 570

原创启动命令（HDFS，ZOOKEEPER,HBASE，YARN）

Hadoop**start-all.sh 启动** 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 **stop-all.sh 停止** 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、Nod

2021-01-13 22:08:27 798

原创项目-----数据采集入库报错问题总结

– 问题总结flume的agent的堆内存大小默认只有20M，在生产中是肯定不够的一般需要给到1Gvi bin/flume-ng搜索 Xmx ,并修改channel阻塞启动flume之前，积压的数据过多，所以，source读得很快，而sink写hdfs速度有限，会导致反压反压从下游传递到上游，上游的flume的运行日志中会不断报：channel已满，source重试这里就涉及到flume的运行监控：如果通过监控，发现channel频繁处于阻塞状态，可以通过如下措施予以改善

2021-01-12 20:47:09 242

原创 RDD DataSet 和 Dataframe 的区别

**RDD DataSet 和 Dataframe 的区别**首先从版本产生的来看RDD（Spark1.0）—> Dataframe(Spark 1.3)—>DataSet(Spark 1.6)同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果不同的是他们的执行效率和执行方式下面我们先来了解一下这三个数据结构1 RDDRDD 是一个lazy的不可变的可以支持函数调用的并行数据集合RDD 的最大的好处就是简单， API的人性化程度高RDD 劣势是性

2021-01-07 00:00:23 131

原创统计店铺月累计收入

sid,dt,moneyshop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop1,2019-03-05,180shop1,2019-04-05,280shop1,2019-04-06,220shop2,2019-02-10,100shop2,2019-0

2021-01-05 21:38:11 219

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 HIVE 常用命令

原创 启动命令（HDFS，ZOOKEEPER,HBASE，YARN）

原创 项目-----数据采集入库报错问题总结

原创 RDD DataSet 和 Dataframe 的 区别

原创 统计店铺月累计收入

空空如也

空空如也

原创启动命令（HDFS，ZOOKEEPER,HBASE，YARN）

原创项目-----数据采集入库报错问题总结

原创 RDD DataSet 和 Dataframe 的区别

原创统计店铺月累计收入