- 博客(8)
- 资源 (2)
- 收藏
- 关注
转载 sqoop将mysql数据导入到hive分区
导入Hive单分区表直接用sqoop命令就可以。1)首先建立单分区表(内部表)CREATETABLE IF NOT EXISTS import.zbd_t_product_comparison (GCJT_SYB_DESC STRING COMMENT '产品线',brand STRING COMMENT...
2019-04-30 17:13:35 1460
转载 hive的各种存储类型对比
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。ClouderaImpala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。TextFile每一行都...
2019-04-29 17:56:51 1249
转载 spark sql 数据倾斜优化
场景一:大表join小表: 把小表broadcast,和cache 到内存,并且大表加了distribute by rand()然后在spark-submit中加一个conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cache table的小表,在做jo...
2019-04-28 15:38:50 3344
转载 spark dataframe schame 如何在spark数据中转换一个结构数组?
让我通过一个例子来解释我想做的事情。我们将首先创建一个dataframe,它包含一个行数组和嵌套行。我的整数还没有在dataframe中被抛出,它们是作为字符串创建的:import org.apache.spark.sql._import org.apache.spark.sql.types._val rows1 = Seq( Row("1", Row("a", "b"), "...
2019-04-24 19:21:54 868 1
转载 java调用http接口
java如何调用接口 在实际开发过程中,我们经常需要调用对方提供的接口或测试自己写的接口是否合适,所以,问题来了,java如何调用接口?很多项目都会封装规定好本身项目的接口规范,所以大多数需要去调用对方提供的接口或第三方接口(短信、天气等)。当然了,自我测试也是! 回顾上一篇 java如何调用接口方式一 介绍了其中一种方式去调用,这篇介绍另外一种!这个很重要圈起来哦,主要涉及到的...
2019-04-23 16:22:47 315
转载 spark dataframe 常用操作
Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表值(count, m...
2019-04-23 15:00:26 1269
转载 大数据常见错误解决方案
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...
2019-04-22 09:52:04 1968
转载 scala增删等操作hbase
import java.io.IOExceptionimport org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDescriptor, HTableDescriptor, TableName}import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.u...
2019-04-16 16:36:54 316
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人