![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark数据分析
文章平均质量分 61
spark入门实战
侬本多情。
数据科学与大数据技术专业在读生,请大家多指教。
展开
-
关于SparkStrategies$InMemoryScans$的一个线程问题分析,网上资料比较少,发出来供参考,待解决
就是在写spark数据分析这个栏目的内容,我的内容是从虚拟机中安装idea进行运行程序,但是最后我倒回去运行spark sql时很奇怪地发现以下几个问题Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/sql/execution/SparkStrategiesInMemoryScansInMemoryScansInMemoryScansCaused by: java.lang.ClassNotFound原创 2022-03-22 09:54:58 · 2437 阅读 · 0 评论 -
Hbase shell操作
1、创建表2、插入操作3、扫描操作4、查看操作5、更新操作6、获取指定字段7、统计操作8、删除操作删除全部清空表原创 2022-03-08 15:11:42 · 2084 阅读 · 0 评论 -
Spark Streaming整合Kafka实现词频统计
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or.原创 2022-02-09 14:16:38 · 2134 阅读 · 0 评论 -
网站热词排序项目
创建MySQL表来存放数据。pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/原创 2022-02-09 10:50:02 · 182 阅读 · 0 评论 -
Spark Streaming的核心DStream案例
1、transform()方法2、updateStateByKey()方法3、window()方法4、reduceByKeyAndWindow()方法5、SaveAsTextFilesTest()方法原创 2022-02-09 01:14:46 · 434 阅读 · 0 评论 -
Kafka Streams开发单词计数应用
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or.原创 2022-02-08 11:37:25 · 1188 阅读 · 0 评论 -
kafka java api编写消费者客户端和生产者客户端
1、生产者客户端案例2、生产者客户端案例原创 2022-02-08 11:03:42 · 1322 阅读 · 0 评论 -
kafka生产者与消费者案例
1、创建主题2、创建生产者3、创建消费者4、数据的生产与消费原创 2022-02-07 23:15:26 · 697 阅读 · 0 评论 -
kafka集群的部署
1、kafka.apache.org网址中下载所需的kafka包2、修改配置文件server.properties3、修改环境变量4、分发到各节点5、开启zookeeper集群6、开启kafka集群原创 2022-02-07 15:50:43 · 1279 阅读 · 0 评论 -
spark sql操作数据
1、创建Dataset2、实现反射机制推断schema3、编程方式定义Schema4、spark操作mysql数据库5、spark操作Hive数据出现bug1bug2mysql表的创建、插入等操作hive1、创建表2、设置personRDD的Schema3、创建Row对象,每一个Row对象都是rowRDD的一行4、建立rowRDD与Schema对应关系,创建DataFrame5、注册临时表6、将数据插入Hive表7、查询表数据原创 2022-02-07 01:05:36 · 2009 阅读 · 0 评论 -
spark DataFrame操作
先创建测试数据:在hdfs中创建spark文件夹,再将本地文件上传过去[root@hadoop01 data]# hdfs dfs -mkdir /spark[root@hadoop01 data]# hdfs dfs -put /export/data/person.txt /spark在读取时会出现两个bug,解决如下:1、需要将hive中conf目录的配置文件hive-site.xml传到spark的conf目录中2、mysql作为元数据数据库,需要在spark-shell启动时添加驱原创 2022-02-02 23:06:42 · 1333 阅读 · 0 评论 -
sparkRDD算子数据处理实践
RDD包括了两种算子的操作,一种为Transformation,一种为Action。Transformation算子是一种过程,记载了数据处理的逻辑操作,不会马上返回结果给你,就像是项目业务分析的框架搭建。Action算子就是一个触发算子,Transformation所有的逻辑记录就为等待Action的指令。Transformation:map() filter() union() distinct()等Action:collect() count() foreach()原创 2022-02-02 14:09:01 · 1773 阅读 · 0 评论 -
本地模式和集群模式运行spark程序
一、本地模式运行spark程序二、集群模式运行spark程序原创 2022-02-02 00:47:43 · 2623 阅读 · 0 评论 -
spark-shell使用
文章目录使用SparkPi提交任务bug(待解决):spark-shell进行词频统计使用SparkPi提交任务先开启spark集群[root@hadoop01 bin]# ./spark-submit --class org.apache.spark.examples.SparkPi /--master spark://hadoop01:7077 /--executor-memory 1G /--total-executor-cores 1 examples/jars/spark-exampl原创 2022-01-30 00:32:12 · 1060 阅读 · 0 评论 -
spark部署测试
spark的基本部署,包括了1、下载并解压spark包,注意要和hadoop版本适配。2、修改配置文件。3、测试服务。4、配置高可用spark。5、测试高可用spark。6、测试hadoop01的单点故障 等的操作原创 2022-01-24 00:47:18 · 1488 阅读 · 0 评论