![](https://img-blog.csdnimg.cn/20200218084652373.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
★★Scala应用
文章平均质量分 50
Scala常用package和操作,如spark.sql、与hdfs的交互
维格堂406小队
人天生都是软弱的,唯其软弱而犹能承担起苦难,才显出人的尊严。
展开
-
Scala112-scala和mysql的交互
涉及到scala读、写、改mysql的一些操作,记录代码,备查。读读mysql一般有两种操作:整张表load进来通过执行sql,load部分数据进来import java.sql.{Connection, DriverManager, PreparedStatement, Timestamp}import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}def loadMysqlAsDf(sparkSession: Sp原创 2021-10-19 17:39:19 · 240 阅读 · 0 评论 -
Scala111-map、flatten、flatMap
Intro map、flatten、flatMap是scala中常用的函数,举几个例子,简单的总结下。Mapmap操作是针对集合的变换操作,它将函数应用到集合中的每个元素,并产生一个结果集合。import scala.collection.mutable.{ListBuffer, ArrayBuffer}import scala.collection.mutable.{ListBuffer, ArrayBuffer}val arr=Array(ArrayBuffer(1),ArrayBuf原创 2021-03-11 16:30:16 · 353 阅读 · 0 评论 -
Scala110-combineByKey
Intro combineByKey应用于Key-Value数据,用来计算某一个key的一些指标。直接看具体的例子,了解下使用方法~生成数据import org.apache.spark.sql.functions._import org.apache.spark.sql.{DataFrame, Row, SparkSession}import scala.collection.mutable.{ListBuffer, ArrayBuffer}import org.apache.spark.原创 2021-03-11 11:12:58 · 172 阅读 · 0 评论 -
Scala109-跨集群读取hive
实际工作中的场景,要在A集群部署任务,读取B集群hive的数据,存在A集群对应的表中。目前调研得出以下三种方式:A集群直接读取B集群的hdfs数据(两个集群环境要通),对得到的DataFrame操作,写入A集群的hive中A集群上建sparksession时,加入B集群的参数,直接spark.sql读取数据,再写入集群A的hdfs中(此时不能再写入集群A的hive了)pyspark,通过pyhive这个库读取hive数据,转换成pyspark的dataframe,再建立tempview,通过sp原创 2021-01-27 19:52:03 · 578 阅读 · 0 评论 -
Scala108-Array常用方法总结
之前学习韩老师Scala课程中,做过一些笔记,见https://blog.csdn.net/wendaomudong_l2d4/article/details/104808712。部分用户没涉及到,重新做个整理,不定时Update~主要内容:增改删查排序增改删查Array本身不可以增删元素,ArrayBuffer可以,具体不赘述,之前的笔记里有涉及。查:可以用(index)的方式...原创 2020-03-24 17:45:30 · 317 阅读 · 0 评论 -
Scala107-Spark.sql中计算中位数
创建数据框import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spar原创 2021-01-27 09:32:24 · 3035 阅读 · 1 评论 -
Scala106-写入hive
Intro 把经过处理之后的dataframe直接写入到hive中,有几种方式,分别举例说明。普通表spark.sql 非常常见的一种方式是,通过建立临时表,写sql的方式写入 // 1、DataFrame建临时表,通过spark.sql的方式回写进去 df11.createOrReplaceTempView("temp") spark.sql("insert into tmp.test2hive select * from temp") // 删除临时表原创 2020-12-23 14:23:14 · 2386 阅读 · 0 评论 -
Scala105-Spark.sql中collect_list用法
import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.sql.原创 2020-05-28 14:37:48 · 3932 阅读 · 0 评论 -
Scala104-Spark.sql的内置日期时间函数
有些时候我们会直接用df.createOrReplaceTempView(temp)创建临时表,用sql去计算。sparkSQL有些语法和hql不一样,做个笔记。<scala.version>2.11.12</scala.version><spark.version>2.4.3</spark.version>import org.apache.spark.sql.functions._import spark.implicits._import原创 2020-05-19 00:01:23 · 1355 阅读 · 0 评论 -
Scala103-日期处理
Intro 介绍常用的日期处理方法。时间获取import org.joda.time.format.DateTimeFormatimport org.joda.time.{DateTime, Period,Duration}Intitializing Scala interpreter ...Spark Web UI available at http://DESKTOP-L...原创 2020-01-04 09:26:02 · 406 阅读 · 0 评论 -
Scala102-操作Hdfs
Info 先生成DataFrame,再把数据储存在HDFS上。import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.{Vector, Vectors...原创 2020-01-02 16:12:41 · 387 阅读 · 0 评论 -
Scala101-JupyterNoteBook环境配置win
notebook配置scala环境原创 2019-12-06 10:54:54 · 435 阅读 · 0 评论 -
Scala005-DataFrame中使用UDF
在处理spark.DataFrame时,经常会用到udf,简单做些总结和笔记。构造数据import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.{DataFrame, Row原创 2020-09-01 14:29:03 · 1044 阅读 · 0 评论 -
Scala004-DataFrame整列String转timestamp
Intro DataFrame中有一列是String格式,字符串类型为"yyyyMMdd",需要把它转换成"timestamp"。可能有很多方法,udf啦等等,这里放一个相对简单的。构造数据import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.sql.function...原创 2020-03-04 00:19:06 · 1637 阅读 · 1 评论 -
Scala003-DataFrame实现Row_number
Intro 本来打算用spark.sql()的方式做row_number,但是貌似不支持。还好DataFrame本身是支持的~话不多说,看demo数据构造import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.sql.functions._import org.apa...原创 2020-03-04 00:18:26 · 1712 阅读 · 0 评论 -
Scala002-DataFrame筛选多个列
Intro 用scala做数据清洗,需要把两份数据union,为了防止两个dataframe的字段不一致,需要先筛选出两者共有的,此为背景。版本信息:scala:2.11.12spark:2.4.4数据构造import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark....原创 2020-03-04 00:17:26 · 1313 阅读 · 0 评论 -
Scala001-split向量列
Intro 分类模型,预测训练集之后probability列是vector格式,第一个元素存放label=0的概率,第二个元素存放label=1的概率构造一个这样的数据,并且进行解析初始数据构造import org.apache.spark.sql.functions._import spark.implicits._import org.apache.spark.ml.featur...原创 2019-12-11 21:13:49 · 282 阅读 · 0 评论