非淡泊无以明志,非宁静无以致远—孔明
码龄4年
关注
提问 私信
  • 博客:18,697
    社区:1
    18,698
    总访问量
  • 46
    原创
  • 1,891,243
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-12-20
博客简介:

weixin_53788274的博客

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得15次评论
  • 获得39次收藏
创作历程
  • 40篇
    2021年
  • 6篇
    2020年
成就勋章
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SparkStreaming

1.SparkStreaming实时流处理2.应用2.1 SparkStreaming监听某个端口依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.4.7</version> </dependency
原创
发布博客 2021.06.22 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

azkaban安装

1.azkaban:工作流调度器:一个分析工作需要用到多个任务,azkaban可以用将这些任务建立先后顺序和依赖执行;2. azkaban安装:2.1 下载压缩包azkaban-3.84.10.tar.gzgradle-5.6.3-all.zip2.2 解压unzip gradle-5.6.3-all.ziptar azkaban-3.84.10.tar.gz2.3 yun安装gityum install -y git2.4 gradle编译打包(gradle可以编译程序和自动下载依赖
原创
发布博客 2021.06.22 ·
872 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

flume

将文件用flume写入hdfs上:开启hdfs–编写conf文件—新建文件夹(源文件文件夹,checkpoint文件夹,data文件夹,hdfs上的目标文件夹)—将源文件导入文件夹内–执行<!--定义flume的三个组件:source,channel,sink-->locale.sources=localeSourcelocale.channels=localeChannellocale.sinks=localeSink<!--设置source的属性:类型,地址,姓名匹配,序
原创
发布博客 2021.05.26 ·
276 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

求最短距离--pregel

飞机航班信息字段如下:求随机一个机场到其它所有机场的最短航线:(要点:得到需要的graph即可,其余初始化,pregel为固定格式固定代码)月中第几天,周中第几天,航空公司,飞机注册号,航班号,起飞机场编号,------起飞机场,-------到达机场编号,-------到达机场,--------预计起飞时间,起飞时间,起飞延迟,预计到达时间,到达时间,到达延迟,预计飞行时间,飞行距离---------package graph.etlimport org.apac
原创
发布博客 2021.05.19 ·
135 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据库连接mysql和java,scala,spark以及hive和spark连接(配置文件取数据)

Java和Scala连接mysql数据库,可以写sql语句,操作数据库里的表,实现增删改查;Spark可以从mysql里读取mysql数据表,或者将数据表写入mysql数据库中;代码如下:scala:要点:加载驱动和获得连接,执行增,查语句,参数传入写一个主类import lianxi3.lianxi4 //lianxi4是lianxi3的object对象中的一个隐式类,其形参为lianxi2类型class lianxi2(){}object lianxi2{ def main (a.
原创
发布博客 2021.05.19 ·
421 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark项目1

需求:处理文件test.log数据,得到用户每日留存率环境:idea,mven,scala.spark,mysql文件:2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540& actionClient =Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like
原创
发布博客 2021.05.18 ·
3147 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

DataFrame sql 50题

Dataframe算子:1.连接:join(df2,"col")2.子查询连接:df1 join(df2.算子,"")3.取值(类型转换):filter(x=>x.get(1).toString.toInt>10) filter($"col"<10) where("列判断条件") where(col("col_name")>60)4.比价:equals === < > <= >=5.聚合:groupBy("","") avg("col") sum(
原创
发布博客 2021.05.26 ·
352 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

scala数组函数

object ceshi1 { def main(args: Array[String]): Unit = { var a0=Array(Arraay(1,2,3),Array(3,4,5)) def seqno(m:(Int,Int),n:(Int,Int)):(Int,Int)={ (m._1+n.sum,m._2+n.size) } def combine(m:(Int,Int),n:(Int,Int)):(Int,Int)={ (m._1+n._1,m.
原创
发布博客 2021.04.30 ·
193 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓

数据仓库:Data Warehouse,简写成DW。数据库和数据仓库的区别:数据库:传统关系型数据库的应用主要是OLTP(On-Line Transaction Processing),主要是基本的、日常的事务处理,如银行交易。数据仓库:数据仓库的主要应用是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。功能数据库数据仓库数据范围当前状态数据存储历史、完整、反映历史变化数据数据变化
原创
发布博客 2021.04.28 ·
239 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

DBeaver安装

下载dbeaver-ce-6.0.0-win32.win32.x86_64.zip解压文件双击dbeaver.exe打开删除左侧两个栏目,点击左上角蓝色的加号选择Apache Hive,下一步输入虚拟机的ip和端口号3306,输入mysql的用户名和密码,点击编辑驱动添加文件hive-jdbc-1.1.0-cdh5.14.2-standalone.jar ,将其他文件都删除,选中该文件,点击确定可以正常打开...
原创
发布博客 2021.04.01 ·
460 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive加载数据方式,导入导出

hive加载数据方式建表时加载数据(1)location方式,需要提前将本地文件put到hdfs上,而且必须是外部表,否则容易把源文件给删了;create table aa(列名 数据类型) row format delimited fields terminated by ‘;’ location ‘hdfds文件路径’;(2)导入已有表的数据(不用写字段了)create table bb as selecte * from aa;建空表后,加载数据(1)load添加数据(如果原表已
原创
发布博客 2021.03.31 ·
326 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop高可用集群搭建

1.时区同步(三台虚拟机都要进行)安装–修改ip–启动等待同步yum search ntpyum install -y ntpvi /etc/ntp.conf进入文件内修改对hadoop9/hadoop11/hadoop12分别更改如下:启动ntp: /bin/systemctl start ntpd.service开始同步: ntpstat等待十几分钟,完成同步三台设备都出现如下链接成功的界面,则同步完成,三台虚拟机的时间都相同了2.Zookeeper安装–配置(要添加的几
原创
发布博客 2021.03.22 ·
298 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mapreduce(Java程序编写)

Mapreduce:Map阶段Reduce阶段
原创
发布博客 2021.03.23 ·
2141 阅读 ·
3 点赞 ·
0 评论 ·
12 收藏

2021-03-16

EKL安装es安装–打开es-head安装–打开kibana安装–打开es安装解压:tar -zxf elasticsearch-6.2.2.tar.gzmv elasticsearch-6.2.2 es增加用户:useradd espasswd es把es目录及其内容修改为es用户和所属的组:chown es:es -R escd es修改:vi config/elasticsearch.yml最后添加http.cors.enabled: truehtt
原创
发布博客 2021.03.17 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ELK

ELK是什么?是一个实施日志分享平台,管理log的ELK组成:Elasticsearch:搜索和分析引擎Logstash:服务器端数据处理管道(负责log数据采集)Kibana:负责图形和图标的可视化ELK日志系统数据流程图:应用服务器(n个)—Broker(如redis,kafka)—Logstash indexer(数据采集)—Elasticsearch(集群分析搜索)—Kabana(可视化)ElasticSearch介绍:一个开源的近实时的分布式的存储、搜索、分析引擎关键:ELK搭建
原创
发布博客 2021.03.17 ·
173 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell脚本(变量-流程控制-定时任务)

1.什么是shell脚本:shell处于linux内核与用户之间,是命令编译器;用户写shell命令,交给shell编译成二进制,再传递给内核执行;内核执行完后,返回的二进制结果交给shell,shell翻译成用户可以识别的语言,交给用户;shell脚本是shell命令组成的文本文件。2.shell注释:单行注释:#多行注释::<3.知乎连接:添加链接描述4.变量局部变量(只在当前shell脚本中可用)环境变量(所有shell脚本都可用)shell变量(shell程序设置的特殊变
原创
发布博客 2021.03.14 ·
450 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Hadoop安装(伪分布式)

三台虚拟机互信创建3台虚拟机,例如IP地址分别为192.168.236.8,192.168.236.9,192.168.236.10分别更改各自的hostname,拿192.168.236.100(老师的虚拟机)为例,输入hostname,查看自己的hostname,一般是自己的外网地址;输入hostnamectl set-hostname hadoop100,将hostname改成hadoop1003. 将其它虚拟机和自己的hostname添加到hosts文件里(每台虚拟机都要做);输入vi
原创
发布博客 2021.03.13 ·
1164 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

版本管理系统--SVN(subversion)的安装

在linux系统里,在root/software下输入yum install -y subversion回车在root/software下创建文件mkdir /svnData回车输入mkdir /svnData/projects输入svnadmin create /svnData/projects/testSvn查看create命令创建的文件cd /svnData/projects/testSvn/输入ll,查看内容进入conf目录,改三个配置:cd conf/输入ll,出现authz,pa.
原创
发布博客 2021.03.11 ·
247 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

maven(idea配置)

maven软件的作用:1.1管理jar和依赖给idea自动导入需要的jar包,而省去了手动一个个jar包去寻找下载导入的过程。管理依赖:比如两个jar包之间的依赖,对数据库驱动的依赖将java编译为class,测试代码是否有问题1.2项目的构建(POM.xml文件)清理(以前编译的东西)编译(编译多个java文件为class文件)测试(同时测试多个程序)报告(生成测试报告)打包(将class,配置文件等放入一个压缩文件中jar或者var)安装(把生成的压缩文件安装到本地库中)maven服务器.
原创
发布博客 2021.03.11 ·
189 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux命令

目录操作命令目录间跳转~:查看当前目录的根目录;cd:切换目录cd /:退回系统总目录cd .:代表当前目录cd …:退回上级目录查看目录内容pwd:查看当前目录ls:列出当前目录里的内容ls -a:列出当前目录里的全部文件/文件夹ls -d:列出当前目录里的全部文件ls -l:列出当前目录里的全部文件的详细信息ls -R:递归列出当前目录下的所有文件创建目录mkdir:创建目录mkdir -p:递归创建目录转移目录/文件mv 旧路径 新路径删除目录
原创
发布博客 2021.03.15 ·
472 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多