- 博客(40)
- 资源 (2)
- 收藏
- 关注
原创 azkaban安装与使用
azkaban安装与使用azkaban安装azkaban基本使用写好的文件需要压缩到同一个压缩包内,进行上传azkaban安装解压unzip azkaban-solo-server.zip修改配置文件vim conf/azkaban.properties修改时区default.timezone.id=Asia/Shanghai3、启动azkabancd /usr/local/soft/azkaban-solo-server启动./bin/start-solo.sh 4
2022-01-14 15:53:06 1706
原创 Spark数据倾斜
Spark数据倾斜数据倾斜产生的两个条件解决数据倾斜1. 使用Hive ETL预处理数据2. 过滤少数导致倾斜的key3. 提高shuffle操作的并行度4. 双重聚合 (解决Key分布不均的问题)5. 将reduce join转为map join6. 采样倾斜key并分拆join操作(双重join)7. 使用随机前缀和扩容RDD进行join(X 会导致数据膨胀)数据倾斜产生的两个条件1.key分布不均2.产生了shuffle解决数据倾斜1. 使用Hive ETL预处理数据将数据倾斜提前到H
2022-01-09 09:13:56 475
原创 SparkStreaming滑动窗口reduceByKeyAndWindow
需求代码实现 package sparkstreamingimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Durations, StreamingContext}import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDS
2022-01-06 23:05:01 590
原创 spark中Dstream、RDD、DataFrame之间的转换
SparkStreamingspark中Dstream、RDD、DataFrame之间的转换实现Dstream中updateStateByKey的功能spark中Dstream、RDD、DataFrame之间的转换package sparkstreamingimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.streaming.ds
2022-01-06 22:43:03 2833 7
原创 SparkStreaming有状态算子updateStateByKey
updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKeyupdateStateByKey与reduceByKey代码实现updateStateByKey虚拟机端:nc -lk 8888 用于测试代码在IDEA中运行,从虚拟机nc -lk 8888指令的命令行中接收数据package sparkstreamingimport org.apache.spark.{SparkConf, SparkContext}impo
2022-01-06 21:29:38 1087
原创 离线计算/实时计算/SparkStreaming
离线计算/实时计算离线计算与实时计算的区别离线计算实时计算SparkStreamingSparkStreaming与flinkSparkStreaming会出现的问题编写简单的SparkStreaming代码离线计算与实时计算的区别离线计算实时计算mysql数据库是实时查询,不是实时计算SparkStreamingSparkStreaming与flinkSparkStreaming会出现的问题编写简单的SparkStreaming代码在虚拟机端:nc -lk 8888用于
2022-01-06 20:35:44 1964
原创 SparkStreaming稽查布控/动态广播变量(处理电信数据)
@TOC需求:在mysql中建表CREATE TABLE `list` ( `id` int(11) NOT NULL AUTO_INCREMENT, `mdn` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=latin1;== 具体数据放在文章最后==在虚拟机中使用指令:nc -lk 8888nc -lk 8888用于测试,888
2022-01-06 20:09:32 1273
原创 启动Hive时报错:ls: 无法访问/usr/local/soft/spark-2.4.5/lib/jars/*.jar: 没有那个文件或目录
启动Hive时报错:ls: 无法访问/usr/local/soft/spark-2.4.5/lib/jars/*.jar: 没有那个文件或目录解决办法:1.进入Hive的安装目录:进到/usr/local/soft/hive-1.2.1/bin2.修改bin目录下的hive文件3. 进入hive文件中,将这里改成再次启动hive就可以啦!...
2022-01-05 15:55:46 1253
原创 Spark - JDBC
Spark - JDBC1. 启动hive元数据服务2. 开启spark jdbc 服务3. 启动命令行将表缓存小表广播(hint),实现MapJoinREPARTITION用法,产生/合并小文件1. 启动hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &2>&1将标准错误2重定向到标准输出&12. 开启spark jdbc 服务进入spark的sbin目录下
2022-01-05 11:09:13 971
原创 PageRank算法
PageRank1. PageRank概念2. PageRank算法原理3. 网络上各个页面的连接图4. 用代码实现PageRank图存储方式一:存边方式二:存顶点计算过程代码实现一:无孤立网页修正PageRank计算公式代码实现二:有孤立网页1. PageRank概念PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。PageRank实现了将 链接价值概念 作为排名因素。2.
2022-01-04 22:06:57 1924
原创 RDD基本概念与算子
RDD1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根
2022-01-04 16:26:07 516
原创 SparkSQL比MapReduce快的原因
1.spark可以将数据缓存在内存中进行计算(cache)2.spark是粗粒度资源调度,MR是细粒度资源调度。粗粒度资源调度:一次性申请所有的资源细粒度资源调度:每个Task执行时才会申请资源3.DAG有向无环图spark两个shuffle的中间结果不需要落地MR两个shuffle的中间结果需要落地到HDFS,第二个shuffle的map端要重新读取HDFS上面的文件。...
2022-01-04 13:03:57 496
原创 Spark SQL整合hive
Spark SQLSpark SQL整合Hive1. 修改Hive配置文件hive-site.xml2. 将hive-site.xml 复制到spark conf目录下3. 启动hive元数据服务4.将mysql 驱动包复制到saprk jars目录下5. 启动Spark SQL案例Spark SQL整合Hive1. 修改Hive配置文件hive-site.xml在Hive的conf目录下在hive-site.xml中添加以下内容<property><name>hi
2022-01-04 12:54:07 1285
原创 爬虫—scrapy
scrapyscrapy概念scrapy的安装1.scrapy项目的创建以及运行scrapy概念Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理 或存储历史数据等一系列的程序中。scrapy的安装在C:\Users\I‘m a good boy下放进去一个文件,更改一下scrapy的下载路径pip文件夹中包含 pip.ini文件文件内容为[global]index-url = http://mirrors.aliyun.com/
2021-12-19 15:35:05 689
原创 pandas数据清洗
pandas1、预备知识-python核心用法常用数据分析库概述实验环境任务一:环境安装与配置【实验目标】【实验步骤】任务二:Pandas数据分析实战【任务目标】【任务步骤】2、预备知识-python核心用法常用数据分析库(下)实验环境任务二:Pandas数据分析实战-1【任务目标】【任务步骤】分析数据问题任务三:Pandas数据分析实战-2【任务目标】【任务步骤】处理问题一处理问题二处理问题三四所需数据以及代码gitee地址:https://gitee.com/yu-min-guo/python13
2021-12-18 17:49:55 1128
原创 python爬虫—Urllib
python爬虫爬虫简介1. 爬虫核心2. 反爬手段?Urllib库的使用请求对象的定制编解码1.get请求方式:urllib.parse.quote()2.get请求方式:urllib.parse.urlencode()3.post请求方式4. 总结:post和get区别?ajax的post请求URLError\HTTPErrorcookie登录Handler处理器代理服务器所需要的数据以及代码:gitee地址:https://gitee.com/yu-min-guo/python13/tree/m
2021-12-18 17:30:19 1071
原创 flume
flumeflume简介flume架构Flume数据流Flume可靠性Flume的安装及使用Flume的安装1、上传至虚拟机,并解压2、重命名目录,并配置环境变量3、查看flume版本4、测试flume5、flume的使用spoolingToHDFS.confhbaseLogToHDFShbaselogToHBasehttpToLoggerflume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进
2021-12-09 21:54:18 3092
原创 数据集成工具—FlinkX
FlinkXFlinkX的安装与简单使用FlinkX的安装FlinkX的简单使用读取mysql中student表中数据FlinkX本地运行MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQLFlinkX的安装与简单使用文章目录FlinkX的安装与简单使用FlinkX的安装FlinkX的简单使用读取mysql中student表中数据FlinkX本地运行MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQLFlinkX的安装
2021-12-08 15:37:50 629
原创 数据集成工具—DataX
DataXDataXDataX的安装及使用DataX的使用stream2stream编写配置文件stream2stream.json执行同步任务62执行结果mysql2mysql编写配置文件mysql2mysql.json执行同步任务mysql2hdfs编写配置文件mysql2hdfs.jsonhbase2mysqlmysql2hbasemysql2Phoenix在Phoenix中创建STUDENT表编写配置文件MySQLToPhoenix.jsonHDFSToHBaseDataXDataX 是阿里巴
2021-12-08 11:10:53 1596
原创 HBase读写过程
HBase笔记HBase的特点HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列族(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。无模式(no Schema):每一行都有一个可以排序的主键和任意多的列,列可以根据需要动态增 加,同一张表中不同的行可以有截然不同的列。数据多版本:每个单元中的数据可以有多个版本,默认情况下,版本号自动分配, 版本号就是单元格插入时的时间戳。数据类型单一:H
2021-12-06 22:20:35 82
原创 Hbase过滤器
hbasehbase过滤器过滤器的参数操作符六大比较过滤器插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入hbase过滤器过滤器可以根据列簇、列、版本等更多条件进行过滤。hbase三维有序(行键、列、版本有序)过滤器的参数使用过滤至少需要需要两类参数:一类是抽象的操作符,一类是比较
2021-12-06 22:15:15 710
原创 数据集成工具—Sqoop
数据集成/采集/同步工具数据集成工具—Sqoop数据集成/采集/同步工具Sqoop简介Sqoop安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本,保存为MySQLToHDFS.conf运行方式一: 执行脚本运行方式二:直接在shell运行注意事项:MySQ
2021-12-06 21:30:59 1248
原创 Phoenix二级索引
PhoenixHbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。文章目录Phoenix1、Phoenix
2021-12-05 21:04:04 106
原创 hbase参数调优
HBase参数调优hbase.regionserver.handler.count该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。hbase.hregion.max.filesize配置region大小,默认是10G,region大小一般控制在几个G比较合适,可以在建表时规划好region数量
2021-12-05 15:37:07 2885
原创 Hbase调优—phoenix调优
hbase调优phoenix调优1.建立索引超时,查询超时2.预分区如何改变文本的样式如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入phoenix调优1.建立索引超时,查询超时修改配置文件,hbase-site.xml两个位置/usr/local/soft/phoenix-4.15.0/bin/usr/loc
2021-12-05 14:45:26 764
原创 hbase简介以及安装
HBaseHBase简介hbase数据模型hbase基本架构hbase安装环境依赖修改配置文件HBase简介hbase是高可靠性、高性能、面行列、可伸缩、实时读写的NoSql分布式数据库。hbase主要存储非结构化/半结构化的松散数据hbase数据模型1.NameSpace 命名空间,每个命名空间下有多个表。hbase自带两个命名空间,分别为hbase与default。hbase中存放的是hbase内置的表,default表是用户默认使用的命名空间。2. Region hbase自动把
2021-12-02 11:22:14 2015
原创 计算机基础知识以及JDK、JRE
计算机计算机(Computer)全称:电子计算机,是一种能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成,没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。计算机的应用主要在以下几个方面:科学计算科学计算:也称数值计算。数据处理自动控制计算机辅助设计人工智能多媒体应用计算机网络计算机硬件计算机硬件(Computer Hardware)是指计算机系统中由电子,机械和光电元件等组成的各种物理装置的总称。这些物理装置按系统结
2021-09-14 10:01:06 438
原创 电脑终端查询java命令乱码
解决办法:在终端中输入命令:regedit 打开注册表找到对应目录:计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Command Processor新建一个字符串值就OK啦~
2021-09-13 18:15:08 98
原创 hadoop3.1.3单机版安装
hadoop3.1.3单机安装安装jdk进入/usr/local/目录下,创建soft目录,之后作为hadoop的安装目录,在soft中新建Java目录,用于存放jdk(命令:mkdir java)将jdk进行解压: tar -zxvf ./jdk1.8.0_202.tar.gz修改文件:vim /etc/profile添加:export JAVA_HOME=/usr/java/jdk1.8.0_202用java -version进行验证安装SSH、配置SSH无密码登陆ssh l
2021-07-08 11:43:46 764
原创 Hadoop3.1.1单机搭建问题总结
启动start-dfs.sh时出错// HDFS格式化后启动dfs出现以下错误:[root@localhost hadoop]# ./sbin/start-dfs.shStarting namenodes on [localhost]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Startin
2021-07-08 10:29:03 820
原创 解决ifconfig command not found的问题
安装完最小化的虚拟机后,查看ifconfig -a显示ifconfig command not found第一步:没有vim编译器的可以首先安装vim编译器centos系统:yum -y install vim*也可以直接用vivim /etc/profile在文档中加入:export PATH=$PATH:/sbin:wq进行保存第二步:来到cd / etc/sysconfig/network-scriptsvim ifcfg-ens33:wq进行保存第三步:重启reboot执行:
2021-07-06 16:40:37 857 1
原创 下载vim编译器
centosshell环境输入命令:yum -y install vim*ubuntu:sudo apt-get install vim-gtk
2021-07-06 16:23:38 195
原创 scala第一个程序,HelloWorld
cd /你的scala安装目录/scalamkdir colorboss(我创建的文件名)cd /你的scala安装目录/scala/colorbossvi test.scalascalac test.scala //编译scala -classpath . HelloWorld
2021-03-14 14:38:19 110
原创 改错scala配置文件,导致命令全都显示未找到
改错scala的配置文件,并且保存了导致后来的vi vim一系列命令全都不能用了解决办法:利用xftp(因为我们用的是xshell)将/etc/profile下载到本地,进行修改,修改完之后在上传到/etc目录下。
2021-03-09 12:43:43 1039
原创 ssh不能登录
搭建hadoop第二步:配置ssh时出现Permission denied, please try again可以先用cat查看是否有PermitRootLogin在终端修改(用vi或者vim等,按i进行编辑) vi /etc/ssh/sshd_config找到PermitRootLogin情况一:#PermitRootLogin yes要把前面的#号去掉。PermitRootLogin yes情况二:permitrootlogin prohibit-password将这一行注释掉(#
2021-01-26 15:14:24 2225
大数据所需要的组件部分一
2021-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人