![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
老卫带你学
专注AI,云计算
展开
-
老卫带你学---100亿数据找出最大的1000个数字(top K问题)
在大规模数据处理中,经常会遇到的一类问题:在海量数据中找出出现频率最好的前k个数,或者从海量数据中找出最大的前k个数,这类问题通常被称为top K问题。例如,在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载最高的前10首歌等。1、最容易想到的方法是将数据全部排序。该方法并不高效,因为题目的目的是寻找出最大的10000个数即可,而排序却是将所有的元素都排序了,做了很多的无用功。2、...原创 2020-03-30 19:24:20 · 1851 阅读 · 0 评论 -
老卫带你学---pyspark中SequenceFile详解
如果老卫的博客对你有帮助,记得点赞关注哈!大家的支持是老卫更新的动力!!1. SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。1.3.Seque...原创 2020-03-08 18:03:49 · 898 阅读 · 0 评论 -
老卫带你学---pyspark运行报错
最近老卫在玩spark,安装完pyspark之后(pyspark=2.3.2;python=3.7.0)可是在运行代码的时候出现了如下报错:WARNING: An illegal reflective access operation has occurredWARNING: Illegal reflective access by org.apache.hadoop.security.au...原创 2019-11-13 22:05:28 · 1390 阅读 · 0 评论 -
老卫带你学---pyspark出现Exception: Java gateway process exited before sending its port number
在研究pyspark的过程中,我遇到了这样的错误:Exception: Java gateway process exited before sending its port number原来是没有声明pyspark的jdk包,我们需要在代码中添加这样的代码:import osos.environ['JAVA_HOME']='D:\jdk11'这样就可以完美运行整体代码如下:fr...原创 2019-10-11 23:24:01 · 2132 阅读 · 0 评论 -
老卫带你学---spark修炼之路(2.IntelliJ IDEA+Maven运行apache-storm的LocalCluster例子)
创建IntelliJ IDEA项目在开始项目之前 一定要确保自己安装了 JDK+Maven选择maven填写groupId和artifactId填写项目名称和项目路径修改pom.xml文件在运行程序之前一定 要确保 我们的配置信息正确:查看 setting->Build,Execution,Deployment->Compiler->Java Compile...原创 2019-07-28 22:15:41 · 289 阅读 · 0 评论 -
老卫带你学--spark修炼之路(1.spark框架介绍)
spark框架介绍spark与hadoop是大数据中开发不可缺少的一部分。spark也是由很多的组件构成。我们可以将数据处理分为批处理(hadoop)与流处理(spark)批处理就像我们的直电梯,送完一批再送第二批;流处理就像我们的电梯,一直在运送。storm流式处理框架storm是个实时的、分布式、高容错的计算框架Storm进程常驻内存Storm数据不经过磁盘,在内存中处理s...原创 2019-07-27 21:41:46 · 199 阅读 · 0 评论 -
老卫带你学--spark修炼之路(3.spark分发策略)
spark分发策略storm中存在着多种分发策略,以便我们根据自身的需求进行选择。storm的Grouping分发策略是控制着它的数据上游的分发策略。接下来我们对每一种分发策略进行介绍:Storm Grouping – 数据流分组(即数据分发策略)ShuffleGrouping (轮询分发)随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数...原创 2019-08-01 21:21:42 · 439 阅读 · 2 评论 -
老卫带你学---Intellij IDEA maven:无法解析符号“backtype”
最近老卫在研究使用maven搭建storm环境。在搭建完环境之后,导入依赖包的时候出现了import backtype无法解析(标红)的问题,如图:后来查看了相关内容,原来maven不支持这种import backtype形式,我们需要将import backtype换为import org.apache就可以。...原创 2019-08-14 09:45:18 · 1479 阅读 · 0 评论