![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
With__Sunshine
这个作者很懒,什么都没留下…
展开
-
Spark(一): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数...转载 2018-05-18 16:52:53 · 206 阅读 · 1 评论 -
spark-pom
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...转载 2019-05-27 08:17:14 · 114 阅读 · 0 评论 -
python中使用jieba分词库编写spark中文版WordCount
配置环境的链接:spark2.3在window10当中来搭建python3的使用环境pyspark编写使用的IDE是pycharm进入WordCount.py文件写入如下代码,就是中文版WordCount,很经典的分布式程序,需要用到中文分词库jieba,去除停用词再进行计数from pyspark.context import SparkContextimport jieba# fro...转载 2019-03-29 15:18:17 · 766 阅读 · 0 评论 -
Spark安装配置04--DEA编写及调试Spark的WordCount程序
参考:https://blog.csdn.net/u012834750/article/details/81016433https://blog.csdn.net/zhumingyuan111/article/details/73521974https://blog.csdn.net/W950507PW123456789/article/details/83374954https:...转载 2019-03-18 04:35:17 · 144 阅读 · 0 评论 -
Spark Streaming流式处理
转载地址:https://www.cnblogs.com/jifengblog/p/9372266.html转载 2019-03-18 00:19:23 · 198 阅读 · 0 评论 -
Spark安装配置04--YARN模式安装
------------------------------------------------1.修改hadoop,yarn-site.xml,添加内容如下:<configuration><!-- Site specific YARN configuration properties --> <property> ...原创 2019-03-18 00:16:39 · 273 阅读 · 0 评论 -
Spark安装配置03--配置Spark Standalone HA
------------------------------------------------1.zookeeper正常安装并启动,参看:https://blog.csdn.net/With__Sunshine/article/details/88538888------------------------------------------------2.修改spark-env.s...原创 2019-03-17 23:44:37 · 142 阅读 · 0 评论 -
Spark安装配置02-JobHistoryServer配置
-------------------------------------------------------------前言:前面配置看,Spark安装配置01:https://blog.csdn.net/With__Sunshine/article/details/88622291---------------------------------------------------...转载 2019-03-17 23:19:25 · 231 阅读 · 0 评论 -
Spark Streaming性能调优详解
SparkStreaming提供了高效便捷的流式处理模式,但是在有些场景下,使用默认的配置达不到最优,甚至无法实时处理来自外部的数据,这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样,所以我们无法设置一些通用的配置(要不然SparkStreaming开发者就不会弄那么多参数,直接写死不得了),我们需要根据数据量,场景的不同设置不一样的配置,这里只是给出建议,这些调优不...转载 2019-03-17 22:52:26 · 241 阅读 · 0 评论 -
Spark安装配置01-Standalone模式安装
------------------------------------------------------------------前言1.Linux用户,centos,拥有root用户的命令操作权限2.安装之前,创建/softsudo mkdir /softchown -r centos:centos/soft-------------------------------...原创 2019-03-17 18:15:30 · 300 阅读 · 0 评论 -
Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。1.Spark是什么Spark是一个快速且通用的集群计算平台2.Spark的特点1)Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基...转载 2018-05-21 14:40:22 · 627 阅读 · 0 评论 -
Spark词频统计测试
数据:中华书局白话版24史,总计大小93M,已经存放到HDFS集群分析语言:python分析框架:Spark 1.6.0第三方包:jieba(结巴分词)可视化工具:D3.JS源代码:from pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,WordCloud,webbrowser...转载 2019-03-29 15:28:11 · 741 阅读 · 0 评论