spark
文章平均质量分 78
YWF331
这个作者很懒,什么都没留下…
展开
-
spark启动slave时提示 JAVA_HOME not set
解决方法: spark-config.sh 中添加jdk 路径 export JAVA_HOME=/usr/local/java/jdk1.8.0_171 如下: if [ -z "${PYSPARK_PYTHONPATH_SET}" ]; then export PYTHONPATH="${SPARK_HOME}/python:${PYTHONPATH}" export PYTH...原创 2018-05-09 17:00:18 · 1123 阅读 · 0 评论 -
Spark SQL之 Dataframe/Dataset
Dataframe 我们可以理解为 Dataframe 就是按列组织的 Dataset,在底层做了大量的优化。Dataframe 可以通过很多方式来构造:比如结构化的数据文件,Hive表,数据库,已有的 RDD,Scala,Java,Python,R 等语言都支持 Dataframe。Dataframe 提供了一种 domain-specific language 来进行结构化数据的操作,这种操...转载 2018-05-03 11:34:00 · 205 阅读 · 0 评论 -
spark2.0.2集群环境搭建 (基于apache.hadoop 2.9.0)
1.解压 root@master ~]# tar zxvf spark-2.0.2-bin-hadoop2.7.tgz mv spark-2.0.2-bin-hadoop2.7 /opt/spark 2.配置环境变量 vim .bashrc export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_...原创 2018-05-11 16:51:08 · 442 阅读 · 0 评论 -
被坑了一天 (一条sql搞定)
import org.apache.spark.sql._ import scala.util.matching.Regex import java.text.SimpleDateFormat import java.util.Date object UserProperty { def main(args: Array[String]): Unit = { val spark =...原创 2018-06-04 19:39:28 · 304 阅读 · 0 评论 -
collect_set、collect_list 、concat_ws (多行合并)
collect_set去除重复元素;collect_list不去除重复元素 +------+-----------------------------------+------------------------------------+ |gender|concat_ws(,, collect_set(children))|concat_ws(,, collect_list(children)...转载 2018-06-14 15:21:59 · 23510 阅读 · 0 评论