Ashigogo-CSDN博客

原创初识Kafka及实践

大数据学习笔记05初识Kafka及实践Kafka是一种高吞吐量的分布式订阅消息系统,这里我们将Kafka作为数据源,让Kafka产生数据发送给Spark Streaming应用程序,Spark Streaming应用程序再对接收到的数据进行实时处理,从而完成一个典型的流计算过程。实验步骤如下:第一个终端启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties第二个终端启动kafkabin/kafka-

2022-05-12 15:48:24 393

原创 Spark Streaming编程实践

大数据学习笔记04Spark Streaming编程实践在pyspark中创建文件流首先在系统中打开第一个终端(记作数据源终端),命令如下:$ cd /usr/local/spark/mycode$ mkdir streaming$ cd streaming$ mkdir logfile$ cd logfile其次在系统中打开第二个终端(记作流计算终端)启动进入pyspark后,输入如下命令:>>> from pyspark import SparkContext

2022-05-12 15:44:19 658

原创 Spark SQL基本操作

大数据学习笔记03Spark SQL基本操作将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"name":"Bob","age":29 }{ "id":3 ,"name":"Jack","age":29 }{ "id":4 ,"name":"Jim","age":28 }{ "id":5 ,"name":"Damon" }{ "id

2022-05-09 20:59:11 2923

原创 Pyspark交互式编程

大数据学习笔记02Pyspark交互式编程有该数据集Data01.txt 该数据集包含了某大学计算机系的成绩，数据格式如下所示：Tom,DataBase,80Tom,Algorithm,50Jim,DataBase,90Jim,Algorithm,60......根据给定的数据集，在pyspark中通过编程来完成以下内容：该系总共有多少学生； (提前启动好pyspark)lines = sc.textFile("file:///usr/local/spark/sparksqld

2022-05-09 20:25:50 4118 2

原创 HDFS常用操作

大数据学习笔记01学习林子雨大数据教材的一些笔记HDFS常用操作启动Hadoop，在HDFS中创建用户目录“/user/hadoop”；$ cd /usr/local/hadoop$ ./sbin/start-dfs.sh$ jps在Linux系统的本地文件系统的“/usr/local/spark/mycode”目录下新建一个文本文件Word.txt$ cd /usr/local/spark$ mkdir mycode$ touch Word.txt || $vim Word.t

2022-05-09 20:24:21 5931 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 初识Kafka及实践

原创 Spark Streaming编程实践

原创 Spark SQL基本操作

原创 Pyspark交互式编程

原创 HDFS常用操作

空空如也

空空如也

原创初识Kafka及实践