自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 shell日常记录

记录: 1.split:切分文件 -b:对文件大小进行切分 -l:对文件行数进行切分 2.sed:插入数据 sed -i ‘1i添加的内容’ filename # 在第一行前添加字符串 sed -i ‘KaTeX parse error: Expected 'EOF', got '#' at position 18: …加的内容' filename #̲ 在最后一行行前添加字符串 …a添加的内容’ filename # 在最后一行行后添加字符串 ...

2020-12-07 16:52:07 48

原创 scala安装记录

1.直接双击安装包,选择安装路径,直到成功安装 2.配置环境变量: 可以直接在path变量下直接加入 也可以配置SCALA_HOME,然后在path下加:%SCALA_HOME%\bin 注意:scala安装目录不要有空格,否则会报:此时不应有 \scala\bin\scala.bat)。错误 ...

2020-12-02 22:20:18 55

原创 spark大小表join操作

spark大小表做join时为了避免数据倾斜并提高效率可以吧小表的rdd放到广播变量中,这样每个executor都会保存一份小文件的数据,避免shuffle 例子: def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("aa") val sc = new SparkContext(conf) //读小表 val rdd1 = sc.t

2020-11-20 15:06:17 1786

原创 Spark SQL建表字段超过22个(scala2.1x)

Spark SQL建表字段超过22个(scala2.1x) 办法1:case class类继承Product类;未成功 方法2:把字段处理为数组格式,根据下标来取数据,起别名;成功 坏处:无法使用scala函数,只能用sql处理,并且sql会比较长,可以先在前面把数据处理完,然后再用sql处理 测试样例: 记录:spark sql自定义udf 样例 sqc.udf.register(“str_split”,(s:String)=>s.split(",")) ...

2020-11-11 10:40:50 589

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除