![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
RDD SPARK
文章平均质量分 67
xiaosongwahaha
这个作者很懒,什么都没留下…
展开
-
初始化加载spqrk遇到Caused by: java.lang.OutOfMemoryError: PermGen space
解决方法1: 在eclipse中的Run Configuration中的JRE下的VM arguments中设置: -server -Xms1g -Xmx8g -XX:PermSize=1g -XX:MaxPermSize=1g -XX:+CMSClassUnloadingEnabled -XX:+PrintGCDetails -Xloggc:%M2_HOME%/gc.log -XX:原创 2017-12-17 14:38:23 · 154 阅读 · 0 评论 -
Spark和Hbase环境变量冲突解决办法
1、在苏宁的Hbase访问中需要设置环境变量,因此在Hbase初始化的时候要写上: //初始化Hbase环境变量 static{ System.setProperty("HADOOP_USER_NAME", "sousuo"); } 2、用Spark在本地计算时需要设置: SparkConf sparkConf=new SparkCo原创 2017-12-17 14:40:24 · 461 阅读 · 0 评论 -
将java RDD结果写入Hive表中
情况一:只需插入一列 JavaRDD titleParticiple = ....; /** * 将分词结果保存到Hive表,供数据探查使用 * */ HiveContext hiveCtx = new HiveContext(jsc); SQLContext sqlCtx = new SQLContext(jsc); /**原创 2017-12-17 14:43:28 · 4680 阅读 · 0 评论 -
RDD常用操作
RDD常用操作: 1、关键词分组之后展示(将>转化为) JavaPairRDD> productMap = ones.groupByKey(); List<Tuple2<String, String>> reslist = productMap.map(new Function>, Tuple2>() { public Tuple2 call(Tup原创 2017-12-17 14:45:53 · 1331 阅读 · 0 评论 -
RDD 解析Json文件
1、JSON文件格式为: {"key1":{"产地":"南京","外形尺寸":"50*50","型号":"dddd"},"code":"101331569"} 2、程序如下: public class ExportData { public static void main(String[] args) { SparkConf conf原创 2018-03-28 16:28:22 · 3674 阅读 · 0 评论