自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 初识Kafka及实践

大数据学习笔记05初识Kafka及实践Kafka是一种高吞吐量的分布式订阅消息系统,这里我们将Kafka作为数据源,让Kafka产生数据发送给Spark Streaming应用程序,Spark Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。实验步骤如下:第一个终端启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties第二个终端启动kafkabin/kafka-

2022-05-12 15:48:24 387

原创 Spark Streaming编程实践

大数据学习笔记04Spark Streaming编程实践在pyspark中创建文件流首先在系统中打开第一个终端(记作数据源终端),命令如下:$ cd /usr/local/spark/mycode$ mkdir streaming$ cd streaming$ mkdir logfile$ cd logfile其次在系统中打开第二个终端(记作流计算终端)启动进入pyspark后,输入如下命令:>>> from pyspark import SparkContext

2022-05-12 15:44:19 637

原创 Spark SQL基本操作

大数据学习笔记03Spark SQL基本操作将下列json数据复制到你的ubuntu系统/usr/local/spark下,并保存命名为employee.json{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"name":"Bob","age":29 }{ "id":3 ,"name":"Jack","age":29 }{ "id":4 ,"name":"Jim","age":28 }{ "id":5 ,"name":"Damon" }{ "id

2022-05-09 20:59:11 2879

原创 Pyspark交互式编程

大数据学习笔记02Pyspark交互式编程有该数据集Data01.txt 该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Jim,DataBase,90Jim,Algorithm,60......根据给定的数据集,在pyspark中通过编程来完成以下内容:该系总共有多少学生; (提前启动好pyspark)lines = sc.textFile("file:///usr/local/spark/sparksqld

2022-05-09 20:25:50 4025 2

原创 HDFS常用操作

大数据学习笔记01学习林子雨大数据教材的一些笔记HDFS常用操作启动Hadoop,在HDFS中创建用户目录“/user/hadoop”;$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh$ jps在Linux系统的本地文件系统的“/usr/local/spark/mycode”目录下新建一个文本文件Word.txt$ cd /usr/local/spark$ mkdir mycode$ touch Word.txt || $vim Word.t

2022-05-09 20:24:21 5811 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除