- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 Kafka更新offset,scala反射调用进行测试
实现的类为KafkaCluster,实现必须放在包名为org.apache.spark.streaming.kafka目录下,不然集群上会报错(当时打算采用反射来实现),打印参数发现不对,记录下
2017-06-01 20:50:12 1108
原创 从HBase数据库表中读取数据动态转为DataFrame格式,方便后续用Spark SQL操作(scala实现)
个人研究后,才发现HBase存储的都是字符串类型,大部分函数都是byte[]字节类型来操作,需要用到HBaseTableCatalog类,需要导入hbase-spark-***.jar相关jar包,下载链接:http://maven.wso2.org/nexus/content/repositories/Apache/org/apache/hbase/hbase-spark/2.0.0-SNAPS
2017-06-01 20:39:52 3966 1
原创 Spark统计唯一值、缺失值和单值的算子(scala实现)
采用传统的Spark SQL编写sql语句循环多次按列查询来实现效率太低,如是采用基本的WordCount统计单词的思想,“columnName+value”即“列名:值”作为唯一单词,用特殊分隔符隔开,遍历一次即可计算所需的所有值。代码如下:def getStatistics(data: DataFrame): (java.util.HashMap[String, Long], java
2017-06-01 20:22:23 4852 1
Qt+Creator快速入门
2014-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人