- 博客(4)
- 收藏
- 关注
原创 scala“:_*”的用法
scala“:_*”的用法“:_*”作为一个整体,一般可以用于获取一个数组的全部字段,例如在dataframe读取所有的列时val rows: Array[Row] = rawDataFrame.select(timeCol, arr: _*).collect()“:*”作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 4:*)就是将1 to 5当作参数序列处理。def main(args: Array[String]): Unit = {
2021-12-16 17:02:52 1438
原创 spark机器学习pearson相关和spearman相关的scala实现
pearson相关和spearman相关在spark机器学习库中已经有实现,一共有两种API,分别是Statistics.corr()和Correlation.corr(),其本质都是调用同一个接口,但是使用Statistics.corr()接口可以直接传入dataframe进行计算,要比另一个接口转换为RDD计算快很多。Statistics.corr()实现pearson相关和spearman相关 def pearsonOrSpearman(df: DataFrame, colArray: Seq[
2021-12-16 16:55:02 584
原创 dataframe读取本地文本数据的方式
dataframe读取本地文本数据的方式val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[*]") val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() val rawDataFrame = spark.read.format("csv") .option("sep", ",")
2021-12-06 17:23:51 990
原创 flink连接hive的相关配置和Embedded metastore is not allowed. Make sure you have set a valid value for hive.me
flink连接hive的相关配置和Embedded metastore is not allowed. Make sure you have set a valid value for hive.metastore.uris报错处理1.在Maven中导入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hive_${scala.bin
2021-09-18 00:03:21 1994
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人