莫尼莫尼-CSDN博客

原创 2021年安徽省大数据与人工智能应用竞赛大数据-本科组赛题第五部分spark mllib

spark mllib

2022-09-18 19:10:42 2089

原创 azkaban安装与使用

azkaban安装与使用azkaban安装azkaban基本使用写好的文件需要压缩到同一个压缩包内，进行上传azkaban安装解压unzip azkaban-solo-server.zip修改配置文件vim conf/azkaban.properties修改时区default.timezone.id=Asia/Shanghai3、启动azkabancd /usr/local/soft/azkaban-solo-server启动./bin/start-solo.sh 4

2022-01-14 15:53:06 1765

原创 Spark数据倾斜

Spark数据倾斜数据倾斜产生的两个条件解决数据倾斜1. 使用Hive ETL预处理数据2. 过滤少数导致倾斜的key3. 提高shuffle操作的并行度4. 双重聚合（解决Key分布不均的问题）5. 将reduce join转为map join6. 采样倾斜key并分拆join操作(双重join)7. 使用随机前缀和扩容RDD进行join(X 会导致数据膨胀)数据倾斜产生的两个条件1.key分布不均2.产生了shuffle解决数据倾斜1. 使用Hive ETL预处理数据将数据倾斜提前到H

2022-01-09 09:13:56 523

原创 Spark调优—参数调优

spark调优—参数调优

2022-01-08 22:24:39 3375

原创 Spark调优在—代码调优

spark调优—代码优化

2022-01-08 21:36:31 1335

原创 SparkStreaming滑动窗口reduceByKeyAndWindow

需求代码实现 package sparkstreamingimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Durations, StreamingContext}import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDS

2022-01-06 23:05:01 628

原创 spark中Dstream、RDD、DataFrame之间的转换

SparkStreamingspark中Dstream、RDD、DataFrame之间的转换实现Dstream中updateStateByKey的功能spark中Dstream、RDD、DataFrame之间的转换package sparkstreamingimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.streaming.ds

2022-01-06 22:43:03 2998 7

原创 SparkStreaming有状态算子updateStateByKey

updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKey虚拟机端：nc -lk 8888 用于测试代码在IDEA中运行，从虚拟机nc -lk 8888指令的命令行中接收数据package sparkstreamingimport org.apache.spark.{SparkConf, SparkContext}impo

2022-01-06 21:29:38 1135

原创离线计算/实时计算/SparkStreaming

离线计算/实时计算离线计算与实时计算的区别离线计算实时计算SparkStreamingSparkStreaming与flinkSparkStreaming会出现的问题编写简单的SparkStreaming代码离线计算与实时计算的区别离线计算实时计算mysql数据库是实时查询，不是实时计算SparkStreamingSparkStreaming与flinkSparkStreaming会出现的问题编写简单的SparkStreaming代码在虚拟机端：nc -lk 8888用于

2022-01-06 20:35:44 2051

原创 SparkStreaming稽查布控/动态广播变量(处理电信数据)

@TOC需求：在mysql中建表CREATE TABLE `list` ( `id` int(11) NOT NULL AUTO_INCREMENT, `mdn` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=latin1;== 具体数据放在文章最后==在虚拟机中使用指令：nc -lk 8888nc -lk 8888用于测试，888

2022-01-06 20:09:32 1316

原创启动Hive时报错：ls: 无法访问/usr/local/soft/spark-2.4.5/lib/jars/*.jar: 没有那个文件或目录

启动Hive时报错：ls: 无法访问/usr/local/soft/spark-2.4.5/lib/jars/*.jar: 没有那个文件或目录解决办法：1.进入Hive的安装目录：进到/usr/local/soft/hive-1.2.1/bin2.修改bin目录下的hive文件3. 进入hive文件中，将这里改成再次启动hive就可以啦！...

2022-01-05 15:55:46 1361

原创 Spark - JDBC

Spark - JDBC1. 启动hive元数据服务2. 开启spark jdbc 服务3. 启动命令行将表缓存小表广播(hint)，实现MapJoinREPARTITION用法,产生/合并小文件1. 启动hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &2>&1将标准错误2重定向到标准输出&12. 开启spark jdbc 服务进入spark的sbin目录下

2022-01-05 11:09:13 1025

原创 PageRank算法

PageRank1. PageRank概念2. PageRank算法原理3. 网络上各个页面的连接图4. 用代码实现PageRank图存储方式一：存边方式二：存顶点计算过程代码实现一：无孤立网页修正PageRank计算公式代码实现二：有孤立网页1. PageRank概念PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。PageRank实现了将链接价值概念作为排名因素。2.

2022-01-04 22:06:57 2011

原创 RDD基本概念与算子

RDD1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根

2022-01-04 16:26:07 574

原创 SparkSQL比MapReduce快的原因

1.spark可以将数据缓存在内存中进行计算（cache）2.spark是粗粒度资源调度，MR是细粒度资源调度。粗粒度资源调度：一次性申请所有的资源细粒度资源调度：每个Task执行时才会申请资源3.DAG有向无环图spark两个shuffle的中间结果不需要落地MR两个shuffle的中间结果需要落地到HDFS，第二个shuffle的map端要重新读取HDFS上面的文件。...

2022-01-04 13:03:57 527

原创 Spark SQL整合hive

Spark SQLSpark SQL整合Hive1. 修改Hive配置文件hive-site.xml2. 将hive-site.xml 复制到spark conf目录下3. 启动hive元数据服务4.将mysql 驱动包复制到saprk jars目录下5. 启动Spark SQL案例Spark SQL整合Hive1. 修改Hive配置文件hive-site.xml在Hive的conf目录下在hive-site.xml中添加以下内容<property><name>hi

2022-01-04 12:54:07 1344

原创 idea中生成变量后，自动勾选（specify type）

2021-12-25 21:45:24 543

原创爬虫—scrapy

scrapyscrapy概念scrapy的安装1.scrapy项目的创建以及运行scrapy概念Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。scrapy的安装在C:\Users\I‘m a good boy下放进去一个文件，更改一下scrapy的下载路径pip文件夹中包含 pip.ini文件文件内容为[global]index-url = http://mirrors.aliyun.com/

2021-12-19 15:35:05 731

原创 pandas数据清洗

pandas1、预备知识-python核心用法常用数据分析库概述实验环境任务一：环境安装与配置【实验目标】【实验步骤】任务二：Pandas数据分析实战【任务目标】【任务步骤】2、预备知识-python核心用法常用数据分析库（下）实验环境任务二：Pandas数据分析实战-1【任务目标】【任务步骤】分析数据问题任务三：Pandas数据分析实战-2【任务目标】【任务步骤】处理问题一处理问题二处理问题三四所需数据以及代码gitee地址：https://gitee.com/yu-min-guo/python13

2021-12-18 17:49:55 1221

原创 python爬虫—Urllib

python爬虫爬虫简介1. 爬虫核心2. 反爬手段？Urllib库的使用请求对象的定制编解码1.get请求方式：urllib.parse.quote（）2.get请求方式：urllib.parse.urlencode（）3.post请求方式4. 总结：post和get区别？ajax的post请求URLError\HTTPErrorcookie登录Handler处理器代理服务器所需要的数据以及代码：gitee地址：https://gitee.com/yu-min-guo/python13/tree/m

2021-12-18 17:30:19 1130

原创 flume

flumeflume简介flume架构Flume数据流Flume可靠性Flume的安装及使用Flume的安装1、上传至虚拟机，并解压2、重命名目录，并配置环境变量3、查看flume版本4、测试flume5、flume的使用spoolingToHDFS.confhbaseLogToHDFShbaselogToHBasehttpToLoggerflume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进

2021-12-09 21:54:18 3266

原创数据集成工具—FlinkX

FlinkXFlinkX的安装与简单使用FlinkX的安装FlinkX的简单使用读取mysql中student表中数据FlinkX本地运行MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQLFlinkX的安装与简单使用文章目录FlinkX的安装与简单使用FlinkX的安装FlinkX的简单使用读取mysql中student表中数据FlinkX本地运行MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQLFlinkX的安装

2021-12-08 15:37:50 707

原创数据集成工具—DataX

DataXDataXDataX的安装及使用DataX的使用stream2stream编写配置文件stream2stream.json执行同步任务62执行结果mysql2mysql编写配置文件mysql2mysql.json执行同步任务mysql2hdfs编写配置文件mysql2hdfs.jsonhbase2mysqlmysql2hbasemysql2Phoenix在Phoenix中创建STUDENT表编写配置文件MySQLToPhoenix.jsonHDFSToHBaseDataXDataX 是阿里巴

2021-12-08 11:10:53 1711

原创 HBase读写过程

HBase笔记HBase的特点HBase的特点大：一个表可以有上亿行，上百万列。面向列：面向列族（簇）的存储和权限控制，列（簇）独立检索。稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计的非常稀疏。无模式（no Schema）：每一行都有一个可以排序的主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的列。数据多版本：每个单元中的数据可以有多个版本，默认情况下，版本号自动分配，版本号就是单元格插入时的时间戳。数据类型单一：H

2021-12-06 22:20:35 126

原创 Hbase过滤器

hbasehbase过滤器过滤器的参数操作符六大比较过滤器插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入hbase过滤器过滤器可以根据列簇、列、版本等更多条件进行过滤。hbase三维有序（行键、列、版本有序）过滤器的参数使用过滤至少需要需要两类参数：一类是抽象的操作符，一类是比较

2021-12-06 22:15:15 768

原创数据集成工具—Sqoop

数据集成/采集/同步工具数据集成工具—Sqoop数据集成/采集/同步工具Sqoop简介Sqoop安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本，保存为MySQLToHDFS.conf运行方式一: 执行脚本运行方式二：直接在shell运行注意事项：MySQ

2021-12-06 21:30:59 1359

azkaban-solo-server.zip

大数据所需要的组件部分一

空空如也