月亮走，我也走-CSDN博客

原创 scala“:_*”的用法

scala“:_*”的用法“:_*”作为一个整体，一般可以用于获取一个数组的全部字段，例如在dataframe读取所有的列时val rows: Array[Row] = rawDataFrame.select(timeCol, arr: _*).collect()“:*”作为一个整体，告诉编译器你希望将某个参数当作参数序列处理！例如val s = sum(1 to 4:*)就是将1 to 5当作参数序列处理。def main(args: Array[String]): Unit = {

2021-12-16 17:02:52 1438

原创 spark机器学习pearson相关和spearman相关的scala实现

pearson相关和spearman相关在spark机器学习库中已经有实现，一共有两种API，分别是Statistics.corr()和Correlation.corr()，其本质都是调用同一个接口，但是使用Statistics.corr()接口可以直接传入dataframe进行计算，要比另一个接口转换为RDD计算快很多。Statistics.corr()实现pearson相关和spearman相关 def pearsonOrSpearman(df: DataFrame, colArray: Seq[

2021-12-16 16:55:02 584

原创 dataframe读取本地文本数据的方式

dataframe读取本地文本数据的方式val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[*]") val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() val rawDataFrame = spark.read.format("csv") .option("sep", ",")

2021-12-06 17:23:51 990

原创 flink连接hive的相关配置和Embedded metastore is not allowed. Make sure you have set a valid value for hive.me

flink连接hive的相关配置和Embedded metastore is not allowed. Make sure you have set a valid value for hive.metastore.uris报错处理1.在Maven中导入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hive_${scala.bin

2021-09-18 00:03:21 1994

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人