- 博客(61)
- 资源 (3)
- 收藏
- 关注
原创 hive分区
文章目录partition23partition个人理解: 分区是真实存在的,对应的是hdfs上的路径,例:create external table tb_name (id string comment 'id')partitioned (prov_id string, day_id string)对应到hdfs上的路径就是 ‘hdfs://localhost:9083/tmp...
2019-06-04 10:54:17
351
原创 hive 常用命令
内部表改成外部表alter table db_name.dwd_ptnr_netcard_xb_order_day set tblproperties('EXTERNAL'='TRUE');存储格式转换ALTER TABLE db_name.dwd_ptnr_netcard_xb_order_day SET FILEFORMAT ORC修复分区MSCK REPAIR TABLE tabl...
2019-05-30 11:14:50
220
转载 Flume+Kafka+Hdfs问题总结
文章目录数据漂移文件丢失问题描述参考文章https://www.cnblogs.com/qiaoyihang/p/9229854.html数据漂移文件丢失问题描述2019-05-07 16:48:54,878 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.hdfs.BucketW...
2019-05-24 14:19:35
452
原创 Jar运行问题
运行jar包报错./bin/hadoop jar ./myapp/HDFSExample.jarException in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes at sun.security.util.Signat...
2019-05-17 12:29:56
946
转载 Hive常用命令
1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc formatted table_name;desc table_name;3.查看分区信息show partitions table_name;4.根据分区查询数据select table_coulm from table_name where partition_name = ‘20...
2019-05-09 14:16:28
814
转载 [转载] linux shell中括号的特殊用法 if多条件判断
一. bash [ ] 单双括号基本要素:Ø [ ] 两个符号左右都要有空格分隔Ø 内部操作符与操作变量之间要有空格:如 [ “a” = “b” ]Ø 字符串比较中,> < 需要写成> < 进行转义Ø [ ] 中字符串或者${}变量尽量使用"" 双引号扩住,避免值未定义引用而出错的好办法Ø [ ] 中可以使用 –a –o 进行逻辑运算...
2019-05-06 09:14:40
663
原创 SPARK SQL 求助帖
INSERT OVERWRITE TABLE SJZL.DWD_PRD_IDRY_MONTH PARTITION(PROV_ID, MONTH_ID)SELECT LATN_ID, PRVNCE_ID AS STD_PRVNCE_CD, LATN_ID AS STD_LATN_CD, PROD_INST_ID, IDRY_APP...
2019-04-16 10:35:54
1358
2
原创 Spark sql 常见问题及优化
目录数据倾斜1.null值的处理2.持续整理中...数据倾斜1.null值的处理 INSERT OVERWRITE TABLE tf_lte_prd_pd_inst_month PARTITION (month_id) SELECT prvnce_id, std_prvnce_cd ,...FROM ( SELECT '${V_DATE}' month_id ,..., C...
2019-03-16 16:33:22
3521
1
原创 Spark Streaming
Spark Streaming基本概念Spark Streaming 与 StormDStream算子TransformationOutput OperationsSpark Streaming WC官网:http://spark.apache.org/基本概念SparkStreaming 是流式处理框架,微批次,准实时,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:K...
2018-12-27 15:59:34
126
原创 Spark 常用算子
Spark 常用算子joinleftOuterJoinunionintersectionsubtractmapPartitionsTipsforeachPartitionTipsdistinctcogroupjoinRDDa&lt;String,String&gt;(k,v).join(RDDb&lt;String,String&gt;(k,w)),相同的key join,作用在(k,v)格式...
2018-12-19 18:06:20
210
1
原创 Scala WordCount / Java WordCount
Java WordCountimport org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org....
2018-12-19 09:16:57
227
原创 Spark 之环境搭建与任务执行流程
文章目录Spark 环境搭建常用端口号TIPSStandalone环境搭建Spark On YarnSpark 环境搭建常用端口号HDFS: http://node1:50070/HBase: http://node1:60010/master-statusYarn: http://node3:8088/clusterSpark: Master :8088 Worker :8081...
2018-12-18 16:38:17
456
原创 Spark 之基本概念及常用算子
Spark基本概念运行模式SparkCoreRDD概念五大特性Q&amp;amp;amp;amp;amp;amp;ALineage概念Spark任务执行流程算子Transformation算子及代码filterflatMapscalajavamapscalajavareduceByKeyScala WordCountJava WordcountsampleAction算子takefirstcollect基本概念官网地址 http:/...
2018-12-17 17:38:34
534
原创 HBase 启动牵扯出的一点问题
文章目录File /var/hbase/.tmp/hbase.version could only be replicated to 0 nodes instead of minReplication (=1). There are 0 datanode(s) running and no node(s) are excluded in this operation.原因File /var/h...
2018-12-13 15:22:18
901
原创 HBase 基本概念及安装【持续更新中......】
文章目录Hbase基本概念数据模型HBase 架构Hbase基本概念Hadoop DataBase ,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS 做其分布式文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper做其分布式协调服务主要用来存储非结构化和半结构化的松散数据(列存NoSQL DB)...
2018-12-10 17:42:51
257
原创 Hive常用命令及其环境搭建|Hive优化
文章目录Hive基本概念架构图HIVE 搭建模式单用户模式Hive官网 http://hive.apache.org/基本概念数据仓库(历史数据,用于计算分析)解释器、编译器、优化器等(将sql转换为MR,提交给Hadoop集群)。hive运行时,元数据(表、库、字段、属性)存储在关系型数据库(在线数据,交互式)里面,数据存储在HDFS里面架构图HIVE 搭建模式loc...
2018-12-06 18:48:40
345
原创 Yarn集群常见的问题
文章目录NameNode 丢失达到一定比例,进入安全模式NameNode 丢失达到一定比例,进入安全模式 throws Exception when saving offset,offsetRanges is:[Lorg.apache.spark.streaming.kafka010.OffsetRange;@1a2616afexception is:org.apache.hadoop....
2018-12-04 09:39:17
401
原创 初识Hadoop之MapReduce【持续更新中】
文章目录MapReduce概念MapReduce概念MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的,MapReduce的优势在于处理大规模数据集。MapReduce的任务过程分为两个阶段:map 阶段和 reduce 阶段。每个阶段都以自定义类型的K-V对作为 input 和 outout ,重点是,需要我们自己实现map 和reduce 函数...
2018-11-30 08:41:49
140
原创 Hadoop 之 Yarn 及 Yarn HA的安装
YARNyarn 是Hadoop的资源调度系统yarn 通过两类长期运行的的守护进程提供自己的核心服务。管理集群上资源使用的资源管理器(ResourceManager)运行在所有节点上且能够启动和监控容器(Container)的节点管理器(node manager)容器用于执行特定应用程序的进程,每个容器都有资源限制(内存,CPU等)。...
2018-11-23 08:49:12
421
转载 CSDN Markdown编辑器 语法规则
本文转自 https://blog.csdn.net/yswhfd/article/details/84339163@[TOC](这里写自定义目录标题)# 欢迎使用Markdown编辑器你好! 这是你第一次使用 **Markdown编辑器** 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。## 新的改变...
2018-11-22 14:52:22
175
转载 CSDN Markdown编辑器语法规则
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2018-11-22 14:49:34
159
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅