spark
文章平均质量分 50
普通网友
这个作者很懒,什么都没留下…
展开
-
基于hive0.13.1的spark1.6.0源码编译说明
-----maven安装到 Maven 官网 http://maven.apache.org/download.cgi 下载 Maven 软件tar -zxvf apache-maven-3.5.0-bin.tar.gz -C ../mv apache-maven-3.5.0 maven修改maven 配置vi /etc/profileexport M2=/root/mav原创 2017-08-20 20:14:20 · 571 阅读 · 0 评论 -
sparksql优化1(小表大表关联优化 & union替换or)
----原语句(运行18min)INSERT into TABLE schema.dstable SELECT bb.ip FROM (SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1WHERE date = '2017102原创 2017-11-07 18:03:15 · 6067 阅读 · 0 评论 -
spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。
转自:https://www.zhihu.com/question/33270495/answer/93424104梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark转载 2017-10-12 18:42:09 · 1641 阅读 · 0 评论 -
spark问题与排查
1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDr原创 2017-08-23 20:00:10 · 6067 阅读 · 0 评论 -
spark动态分配executor
转自:http://blog.csdn.net/u014393917/article/details/50630829动态分配executor的实例初始化部分如果spark.executor.instances配置项设置为0或者没有设置,这个默认情况下是一个未设置的值,yarn的运行模式时,这个配置通过--num-executors来得到.同时spark.dynamic转载 2017-10-18 22:35:41 · 6071 阅读 · 0 评论 -
spark 开启历史日志监控
vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://webcluster/directoryspark.eventLog.compress truevi spark-env.shexport SPARK_HISTORY_OPTS="-Dspark.history.ui.原创 2017-09-30 12:07:40 · 1163 阅读 · 0 评论 -
spark内存参数的理解
SPARK_DAEMON_MEMORY:分配给spark master/worker守护进程的内存(默认1g) SPARK_DRIVER_MEMORY: driver进程使用的内存数;使用spark-submmit提交作业后,该作业会启动一个相应的driver进程。由于部署模式(deploy-mode)不同,Driver进程可能在本地启动也可能在某个工作节点启动,driver进程本身会会占有一原创 2017-08-30 14:47:24 · 1565 阅读 · 0 评论 -
spark standalone深入学习-核心概念\启动过程\服务down掉说明
核心概念:master:在独立集群中,master就是集群的管理者,负责给worker分配资源,并实时监控worker,客户端向服务端提交作业,实际是交给master。driver: 运行application的main函数并创建sparkcontext,sparkcontext负责资源的申请,任务的分配和监控等。当executor运行结束时,driver会关闭sparkcontext.转载 2017-08-30 11:57:53 · 283 阅读 · 0 评论 -
spark standalone集群模式搭建
搭建前,必须准备好hadoop#scala environmentexport SCALA_HOME=/opt/scala-2.10.6export PATH=$PATH:$SCALA_HOME/bincentos-mastercentos-slave1centos-slave2#spark configSPARK_HOME=/opt/spark-1.6.0原创 2017-08-23 19:58:46 · 274 阅读 · 0 评论 -
sparksql读取hive数据源配置
1、将hive-site.xml内容添加到spark conf配置文件中,内容仅需要元数据连接信息即可 hive.metastore.uris thrift://master-centos:9083 Thrift URI for the remote metastore. Used by m原创 2017-08-24 21:23:45 · 1985 阅读 · 0 评论 -
基于hive0.13中的spark1.6.0 insert overwrite 不可用临时解决办法
将spark中hive-site.xml的hive.metastore.uris参数指向1.2.1版本的hive元数据服务,并重启spark server,该问题解决。原创 2017-08-21 16:41:09 · 1542 阅读 · 0 评论 -
hive/impala存储格式选型
转载自http://blog.csdn.net/mtj66/article/details/539689911、TEXTFILE 默认格式,建表时不指定默认为这个格式,存储方式:行存储 导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 磁盘开销大 数据解析开销大,压缩的text文件 hive无法进行合并和拆分转载 2018-03-14 14:24:24 · 3451 阅读 · 0 评论