大数据那些事
文章平均质量分 75
南潇如梦
编程小白
展开
-
数据开发的习惯
大数据开发工作总结原创 2022-10-15 01:00:37 · 511 阅读 · 0 评论 -
DataX导数据从mysql到hive回顾
注意:一定要先开启meta,再开启hive!太久没碰datax了,没想到真的忘记了。mysql可以确定一下表。原创 2022-09-27 22:55:11 · 1227 阅读 · 0 评论 -
Sparksql读取hive回顾
创建一个工程,添加scala的环境,然后把hive-site.xml添加到resource里面。hive的date是2021-08-08,至于datestime是有小时分钟秒的。mysql的date是 ‘2021-08-08’,就是date就是要带单引号。原创 2022-08-02 23:53:04 · 447 阅读 · 0 评论 -
StarRocks理论介绍
Doris一样原理的StarRocks原创 2022-07-18 00:16:25 · 1681 阅读 · 0 评论 -
canal实操(一)之安装+mysql初始化+修改binlog日志
2、修改binlog日志查看一下日志(主要是看mysql-bin.00000X mysql-bin.index)我们可以再通过在mysql中插入一条数据,去查看binlog日志原创 2022-07-13 20:21:57 · 853 阅读 · 0 评论 -
maxwell理论知识
mysql的二进制日志记录mysql的和以及发生的时间戳(查询是没有被记录的),MySQL 的二进制日志是事务安全型的。一般来说开启二进制日志大概会有 1%的性能损耗。二进制有两个最重要的使用场景:其一:MySQL Replication 在 Master 端开启 binlog,Master 把它的二进制日志传递给 slaves 来达到 master-slave 数据一致的目的。其二:自然就是数据恢复了,通过使用 mysqlbinlog 工具来使恢复数据。二进制日志包括两类文件:二进制日志索引文件(文件名后原创 2022-07-10 11:04:46 · 1719 阅读 · 0 评论 -
数据采集工具之maxwell
网站https://maxwells-daemon.io/changelog/选择v1.29.2(v130.0以后的全是jdk11 ,就不是jdk8了)选择maxwell-1.29.2.tar.gz点一下就下载了安装就是把安装包扔到虚拟机的指定位置我没配置环境变量,其实也可去配置环境变量1)修改mysql的配置binlog-do-db就是监听的数据库查看真实的binlog2)初始化元数据库3、Maxwell的启动方式3.1第一种启动方式启动一下maxwell,但是maxwell和mysq原创 2022-07-10 11:06:42 · 1649 阅读 · 1 评论 -
phoenix的安装与使用(Hbase的客户端)
一、phoenix的简介与特点1.1 简介2.1 特点phoenix虽然是构建在hbase层之上,但是由于以下特点,不会影响查询性能,反而会提高性能phoenix还提供了一些增强优化性能phoenix不能做的事情二、phoenix安装2.1 环境需求:2.2 搭建步骤1)上传,解压,更名,配置环境变量,生效,验证2)拷贝phoenix的两个jar包(core和client)到hbase的所有服务端的相关目录下(hbase的lib目录)3)配置三台hbase的hbase-site.原创 2022-07-01 21:31:07 · 4127 阅读 · 0 评论 -
Doris安装(一)之docker编译+fe和be的配置与启动
2、使用docker镜像编译(使用一台机器就可以)官网地址https://doris.apache.org/downloads/downloads.html#apache-doris我的安装包:链接:https://pan.baidu.com/s/1oH3b1oTTJjoGejP9cYl1nA?pwd=283g提取码:283g–来自百度网盘超级会员V2的分享把安装包扔到服务器啦编译成功的截图(编译了一个小时三十六分钟之后的成果)3、安装集群部署打开文件数(可以使用 ulimit -a查看软原创 2022-06-26 15:17:36 · 2816 阅读 · 0 评论 -
dolphinscheduler2.X的安装(亲测有效)
安装1、环境2、初始化元数据库(打开mysql)下面在mysql中创建数据库,新增用户,授权注意3、设置小海豚的配置安装包链接:https://pan.baidu.com/s/1VLvMzOl-1c2e4VxNDxkkIQ?pwd=mzrh提取码:mzrh–来自百度网盘超级会员V2的分享把安装包和mysql驱动扔到服务器上注意:最重要的步骤4、初始化数据库初始化之前,mysql的驱动包一定要放在lib目录下!!!三台机器的zookeeper一定要打开(如果只打开一台不会原创 2022-06-25 16:14:31 · 857 阅读 · 0 评论 -
JDBC入门学习(一)之DML操作
JDBC操作(重点)回顾之前连接数据库的方式DOS指令方式,图形化方式缺点:只能是简单地SQL语句的测试,无法在项目中操作数据库引出通过java代码方式连接数据库—JDBC概述:JDBC是一套连接数据库的标准;具体的实现是由不同的数据库提供的JDBC核心思想:JDBC操作步骤:安装5.7的数据库,驱动包选择5.X的驱动包导入驱动包:常见的异常问题:ClassNotFoundException 驱动加载失败MySQLSyntaxErrorException: 数据库或SQL语句异常原创 2022-06-19 11:12:18 · 417 阅读 · 0 评论 -
Mysql入门学习(三)之视图
优点:1.简单化,从多张表抽取后,只需要管理虚拟表即可2.安全性,能看到的只是抽取到虚拟表的字段3.逻辑独立性缺点:1.性能没有提升,简单表会变得复杂2.修改不方便,有多种情况不能修改虚拟表的创建视图:修改视图:方式1:创建或修改方式2:修改视图删除视图视图的不可更改性:2.综合练习先导入数据,然后完成下面练习:1.查询所有用户的订单2.查询用户id为 1 的所有订单详情3.查看用户为张三的订单4.查询出订单的价格大于800的所有用户信息。5.查询所有订单信息,每页显示5原创 2022-06-18 21:40:43 · 361 阅读 · 0 评论 -
Mysql入门学习(二)之子查询+关联
2.查询工资大于 Bruce 的员工信息3.组合 (子查询)子查询-----------多行单列的情况SELECT 列名 FROM 表名 Where 列名 in (子查询结果);案例1:查询与名为’King’同一部门的员工信息再查询80、90号部门的员工信息组合案例2:工资高于60部门所有人的信息1.查询 60 部门所有人的工资(多行单列)2.查询高于 60 部门所有人的工资的员工信息(高于所有)查询高于 60 部门的工资的员工信息(高于部分)[注意:当子查询结果集形式为多原创 2022-06-18 21:35:25 · 1476 阅读 · 0 评论 -
Mysql入门学习(一)之语法
1.MySQL介绍数据的存储问题:变量,数组,对象,集合弊端:临时存储,存储数据的量级太小IO流弊端:存储的数据没有类型区分,没有安全措施,没有备份与恢复引出数据库概念:存储和管理数据仓库数据库分类:1.关系型数据库:Oracle、DB2、MySQL(重点)、SQL Server,特点:表与表建立关联关系2. 非关系型数据库:ElastecSearch、MongoDB、Redis,一般使用哈希表,通过键值对存数据数据库的安装----文本界面安装方式SQL语言概述结构化的查询语言,简单的原创 2022-06-18 21:28:43 · 265 阅读 · 0 评论 -
数据仓库理论知识
通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是 Oracle、MySQL、SQL Server 等关系数据库里的结构化数据,可能是文本、CSV 等平面文件或 Word、Excel 文档中的数据,还可能是 HTML、XML 等自描 述的半结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。数据仓库里的数据作为分析用的数据源,提供给后面的即席查询、 分析系统、数据集市、报表系统、数据挖掘系统等。这时我们就想了,为什么不能把业务系统的数据直接原创 2022-06-06 12:54:11 · 3650 阅读 · 1 评论 -
SparkStreaming知识总结
零基础学Sparkstreaming原创 2022-06-06 12:09:47 · 2330 阅读 · 0 评论 -
StructuredStreaming知识总结
零基础学SparkStructuredStreaming原创 2022-06-06 12:01:49 · 1118 阅读 · 0 评论 -
SparkSQL知识点总结
零基础学sparksql原创 2022-06-06 11:52:35 · 3975 阅读 · 1 评论 -
Mysql高频面试题(后端大数据面试必备)
个人在面试中被问到以及收集网上的高频Mysql面试题,希望可以帮助到备战求职的同学。原创 2022-06-05 12:38:11 · 5684 阅读 · 0 评论 -
Superset知识总结
Superset是由Python语言编写的Web应用,要求Python3.6的环境conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python此处,我们不需要如此多的工具包,故选择MiniConda下载地址:https://repo.anaconda.com/miniconda/原创 2022-06-04 09:52:56 · 1717 阅读 · 0 评论 -
Nginx入门方面知识点
1.2 应用场景的应用二、Nginx的安装和常用命令介绍2.1 Nginx的安装1)环境准备工作2)上传、解压、更名3)设置配置路径3)编译并安装4)配置环境变量,并校验2.2 常用命令的介绍注意:配置文件里默认监听的端口号是80,主机名为localhost2.3 配置文件的介绍三、Nginx的应用案例配置(重点)3.1 HTTP服务参考配置:3.2 虚拟主机的应用步骤1) 配置linux的多个ip地址步骤2)修改nginx的配置文件步骤3)完善配置文件中的各原创 2022-06-04 09:38:16 · 765 阅读 · 0 评论 -
Kylin知识点总结
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。的出现就是为了解决大数据系统中级别数据的数据分析需求,它提供之上的查询接口及多维分析()能力以支持超大规模数据,它能在亚秒内查询巨大的表。其核心是预计算,计算结果存在中。作为大数据分析神器,它也需要站在巨人的肩膀上,依赖、、、等服务。的主要优势为以下几点:的核心思想是预计算。理论基原创 2022-06-04 09:31:53 · 1909 阅读 · 0 评论 -
Azkaban知识点入门
任务流程图:官网:https://azkaban.github.io/1.2 azkaban的特点1.3 常见调度系统1.4 azkaban和oozie的比较azkaban和oozie相对来说是市面上最流行的两种调度器。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。具体对比如下:工作流定义工作流传参定时执行资源管理工作流执行工原创 2022-06-04 08:59:43 · 1321 阅读 · 0 评论 -
Hbase入门到实操
Nosql中列式存储之Hbase知识讲解。原创 2022-06-03 23:58:12 · 1452 阅读 · 0 评论 -
大数据学习路线总结
这是一篇大数据学习路线和相关面试总结,可以符合当下主流组件的使用。原创 2022-06-03 23:49:36 · 20273 阅读 · 17 评论 -
有趣好玩的Linux之代码雨效果
傻瓜式搞代码雨效果原创 2022-05-06 00:18:13 · 1145 阅读 · 0 评论 -
Mapreduce复习日记
Mapreduce的API编程原创 2022-05-05 21:13:04 · 1175 阅读 · 0 评论 -
四种Linux系统版本号的查看方式
简单易上手的版本查询Linux指令原创 2022-05-05 15:32:59 · 29943 阅读 · 0 评论 -
懒人必学常用的Shell脚本(运维之光)
偷懒小能手,shell脚本学会就不怕重新搭组件啦。原创 2022-05-04 13:50:13 · 7732 阅读 · 4 评论 -
Nginx服务器面试相关
目录1 什么是Nginx?2为什么要用Nginx?3 为什么Nginx性能这么高?4 Nginx是如何实现高并发的5为什么不使用多线程?6 Nginx是如何处理一个请求的呢?7正向代理8 反向代理9 动态资源、静态资源分离10 为什么要做动、静分离?11 负载均衡1 什么是Nginx?Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮...原创 2022-05-03 22:18:28 · 148 阅读 · 0 评论 -
项目四推荐系统源码(十二万字)
目录背景指路0 pom.xml大概的项目框架1.0 资源1.1 sparkml2pmml.properties1.2 core-site.xml1.3 hdfs-site.xml1.4 hive-site.xml1.5 yarn-site.xml2 scala部分的架构2.1 conf2.2 Action2.3 Constant2.4 transformer2.4.1 com.qf.bigata.transformer.ItemBaseFe..原创 2022-05-02 17:54:54 · 4773 阅读 · 0 评论 -
编程学习渠道推荐
目录1 浏览器简约风1.1 谷歌浏览器1.2 火狐浏览器(把infinity设置为主页面)https://inftab.com/1.3 微软浏览器 2 刷题网站推荐2.1 力扣2.2 牛客网2.3 Lintcode3 学习篇3.1 B站3.2 网易云课堂3.3 慕课网(学长强推)3.4 实验楼3.5 虎课网3.6 我要自学网3.7 其他的平台3.8 线上资源4 编程猫(真的太良心的网站)5 前端学习5....原创 2022-05-01 13:42:17 · 1646 阅读 · 0 评论 -
hsql场景题刷题
start-all.shhive --service metastore &hive --service hiveserver2 &beeline -u 'jdbc:hive2://qianfeng01:10000'上面是开启hive,打开的是beeline模式。好久没用过,我都忘记了。1就是涉及到聚合函数的内容,就把聚合函数这边作为虚表的子查询,虚表千万别少表别名!group的双维度,就是在子查询里面先group。userid,month,visits A,2015-0原创 2022-05-01 00:01:34 · 447 阅读 · 0 评论 -
列转行函数的万能模板
就是如果我们要求这种情况uid course socre1 Chinese 901 Math 902 Chinese 1002 Math 110通过sql查询成这样uid ChineseSocre MthScore1 90 902 100...原创 2022-04-30 23:16:38 · 114 阅读 · 0 评论 -
hive复习之窗口函数的整理
hive复习篇:窗口函数(刷sql要一直使用!)文章目录1、排名函数2 SUM(), MIN(),MAX(),AVG()等聚合函数3.ntile(n)+over4、lag(col,n)和lead(col,n)5、min函数和max函数 +over()6 first_value和last_value+over窗口函数功能sum(col) over() : 分组对col累计求和count(col) over() : 分组对col累计min(col) over() : 分组对col求最小值max(co原创 2022-04-30 21:01:41 · 701 阅读 · 0 评论 -
数据采集之测试数据的造数
目录0 环境准备:1 软件环境的搭建1.1 jdk的安装1.2 scala的安装1.3 hadoop的安装0 环境准备:新建虚拟机->设置静态网络->修改映射配置新建虚拟机 参考面向大数据开发的集群之虚拟机搭建(一)_林柚晞的博客-CSDN博客设置静态网+修改映射配置 参考项目0单节点的虚拟机做大数据开发(四万字全)_林柚晞的博客-CSDN博客创建项目路径mkdir -p /opt/appsmkdir -p /opt/...原创 2022-04-24 13:22:38 · 3262 阅读 · 0 评论 -
Flink的api入门案例
超级简单的flink入门案例,一看就会。对初学者友好!原创 2022-04-21 06:36:39 · 802 阅读 · 0 评论 -
“spark三剑客”之SparkStreaming流式计算框架
搞定sparkstreaming原创 2022-04-15 12:14:35 · 2815 阅读 · 0 评论 -
写给大忙人的笔记:一文梳理流式处理框架Flink
一篇通俗易懂的Flink入门理论基础原创 2022-04-13 23:28:47 · 703 阅读 · 0 评论 -
SparkCore文件OLAP数据清洗
文章目录案例1. 统计广告ID2. 基站停留时间TopN3. ip所属区域的访问量3.1 批注3.2 代码案例1. 统计广告ID数据源Advert.txt因为有些数据太多了,我就只把第一行的数据搞下来1516609143867 6 7 64 16数据格式:timestamp province city userid adid时间点 省份 城市 用户 广告用户ID范围:0-99省份,城市,ID相同:0-9adid:0-19需求:1.统计每一个原创 2022-04-13 21:39:51 · 389 阅读 · 0 评论