Bigdata技术
文章平均质量分 89
内涵大数据组件 以及操作方式
Alienware^
喜欢专研Java,Scala,Python,数据库,以及大数据框架系列知识。希望通过不断的学习,记录自己的点点滴滴。
展开
-
Airflow从入门到实战(万字长文)
Airflow 是一个以编程方式编写,安排和监视工作流的平台。使用 Airflow 将工作流编写任务的有向无环图(DAG)。Airflow 计划程序在遵循指定的依赖项,同时在一组工作线程上执行任务。丰富的命令实用程序使在 DAG 上执行复杂的调度变的轻而易举。丰富的用户界面使查看生产中正在运行的管道,监视进度以及需要时对问题进行故障排除变的容易。原创 2023-01-19 22:55:10 · 16441 阅读 · 6 评论 -
Filebeat从入门到实战
Filebeat是一种轻量型日志采集器,内置有多种模块(auditd、Apache、NGINX、System、MySQL 等等),可针对常见格式的日志大大简化收集、解析和可视化过程,只需一条命令即可。之所以能实现这一点,是因为它将自动默认路径(因操作系统而异)与 Elasticsearch 采集节点管道的定义和 Kibana 仪表板组合在一起。不仅如此,数个 Filebeat 模块还包括预配置的 Machine Learning 任务。原创 2023-01-12 07:46:40 · 4300 阅读 · 0 评论 -
Hadoop 与 Hive 兼容性问题(一)部署Hadoop与Hive
1)把 apache-hive-3.1.3-bin.tar.gz上传到 linux 的/opt/software 目录下。2)解压 apache-hive-3.1.3-bin.tar.gz 到/opt/module目录下面。5)解决日志 Jar 包冲突,进入/opt/module/hive/lib 目录(有冲突再做)3)修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive。在$HIVE_HOME/conf 目录下新建 hive-site.xml 文件。会报如下异常:暂且搁置。原创 2022-10-12 14:23:38 · 3053 阅读 · 0 评论 -
Natapp内网穿透
natapp 基于ngrok的反向代理软件,通过在公网和本地运行的 Web 服务器之间建立一个安全的通道。natapp 可捕获和分析所有通道上的流量,便于后期分析和重放。原创 2022-09-10 09:48:24 · 645 阅读 · 0 评论 -
StreamX 部署 Flink Stream 应用
在streamx平台部署应用的时候要求代码最好部署在git平台,比如github或gitee。作为国内用户我们选择比较稳定的gitee。如果不会git/gitee的小伙伴,可以从基础学习一下,时间不长,一天足够。在弹出的界面里点击TaskManagers,然后点击正在运行的任务。4)启动应用(注意先启动socketnc-lk9999)第一次编译需要的时间比较久,因为需要下载许多的依赖。笔者工程名叫Flink-StreamX。......原创 2022-07-20 18:22:59 · 827 阅读 · 0 评论 -
StreamX的介绍与安装
初衷----让Flink开发更简单,后期也会对Spark做一个支持,它提供了一系列开箱即用的连接器(connectors)标准化了配置,开发,测试,部署,监控,运维的整个过程。**原创 2022-07-19 14:40:30 · 1468 阅读 · 0 评论 -
大数据框架命令
文章目录Linux(vi/vim)一般模式编辑模式指令模式压缩和解压gzip/gunzip 压缩zip/unzip 压缩tar 打包RPMShell输入/输出重定向脚本编辑Hadoop启动类命令hadoop fs/hdfs dfs 命令yarn命令Zookeeper启动命令基本操作四字母命令Kafka查看当前服务器中的所有topic创建topic删除topic生产者消费者查看某个Topic的详情修改分区数查看某个消费者组信息删除消费者组重置offsetleader重新选举查询kafka版本信息增删改配置持续原创 2021-11-24 21:45:55 · 244 阅读 · 0 评论 -
Hive 整合 Spark 全教程 (Hive on Spark)
文章目录Hive 引擎简介环境配置 (ssh已经搭好)JDK准备Hadoop准备部署配置集群配置历史服务器配置日志的聚集启动集群LZO压缩配置Hadoop 3.x 端口号 总结MySQL准备Hive 准备Spark 准备Hive on Spark 配置Hive on Spark测试Hive 引擎简介Hive 引擎包括:默认 MR、tez、spark最底层的引擎就是MR (Mapreduce)无需配置,Hive运行自带Hive on Tez 配置:https://blog.csdn.net/we原创 2021-03-27 18:10:29 · 14215 阅读 · 9 评论 -
Hive 集成引擎 Tez
文章目录安装包准备集成 Tez测试注意事项安装包准备1)下载 tez 的依赖包:http://tez.apache.org 2)拷贝 apache-tez-0.9.1-bin.tar.gz 到 Bigdata00 的/opt/software 目录[luanhao@Bigdata00 software]$ ls apache-tez-0.9.1-bin.tar.gz 3)解压缩 apache-tez-0.9.1-bin.tar.gz[luanhao@Bigdata00 software]$ t原创 2021-03-24 23:02:32 · 707 阅读 · 0 评论