![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 67
源神
天道酬勤
展开
-
hue 配置 sparksql连接报错:Missing Required Header for CSRF Vulnerability Protection
原因:ambari后台需修改spark2配置参数livy.server.csrf_protection.enabled设置为false,重启服务原创 2019-12-27 11:52:57 · 792 阅读 · 0 评论 -
Spark统计唯一值、缺失值和单值的算子(scala实现)
采用传统的Spark SQL编写sql语句循环多次按列查询来实现效率太低,如是采用基本的WordCount统计单词的思想,“columnName+value”即“列名:值”作为唯一单词,用特殊分隔符隔开,遍历一次即可计算所需的所有值。代码如下:def getStatistics(data: DataFrame): (java.util.HashMap[String, Long], java原创 2017-06-01 20:22:23 · 4783 阅读 · 1 评论 -
从HBase数据库表中读取数据动态转为DataFrame格式,方便后续用Spark SQL操作(scala实现)
个人研究后,才发现HBase存储的都是字符串类型,大部分函数都是byte[]字节类型来操作,需要用到HBaseTableCatalog类,需要导入hbase-spark-***.jar相关jar包,下载链接:http://maven.wso2.org/nexus/content/repositories/Apache/org/apache/hbase/hbase-spark/2.0.0-SNAPS原创 2017-06-01 20:39:52 · 3949 阅读 · 1 评论 -
Kafka更新offset,scala反射调用进行测试
实现的类为KafkaCluster,实现必须放在包名为org.apache.spark.streaming.kafka目录下,不然集群上会报错(当时打算采用反射来实现),打印参数发现不对,记录下原创 2017-06-01 20:50:12 · 1097 阅读 · 0 评论 -
大数据量的Spark任务,导致其中某些服务器偶现连接不上自动重启
当时一直以为内存被全部耗完导致自动启动,但操作系统不应该去进行重启,后来查看操作系统的dump文件进入/var/crash目录,查看到对应日期下的 vmcore-dmesg.txt文件后来找到类似的问题处理:http://aperise.iteye.com/blog/2326082# uname -srLinux 3.10.0-123.el7.x86_64发现此内核版本存在bug解决方案:Cent...原创 2018-04-27 18:17:28 · 826 阅读 · 0 评论