
大数据平台二次开发
文章平均质量分 59
大数据平台二次开发技术总结
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
快乐骑行^_^
全栈技术博主,博主会持续更新专栏文章,欢迎关注和订阅博主,欢迎私信与博主交流技术。
展开
-
Kafka系列之:Java代码实现查看查看Kafka Topic的分区信息,最大偏移量、消费者能消费的起始偏移量和最大偏移量
import org.apache.kafka.clients.admin.*;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache.kafka.common.KafkaFuture;import org.apache.kafka.common.PartitionInfo;import org.apache.kafka.common.TopicPartition;import java.util.Hash原创 2022-03-29 18:54:09 · 1742 阅读 · 0 评论 -
Zookeeper系列之:读取配置文件把配置写入zookeeper节点,查看zookeeper节点数据
Zookeeper系列之:读取配置文件把配置写入zookeeper节点,查看zookeeper节点数据一、连接zookeeper创建节点二、读取配置文件输出文件内容三、操作Zookeeper节点1.判断zookeeper节点是否存在2.创建、删除zookeeper节点3.读取zookeeper节点数据四、读取配置文件并把文件内容写到zookeeper节点五、读取配置文件把配置写入zookeeper节点,并读取zookeeper节点完整代码Zookeeper入门系列文章:Zookeeper入门之五:Ja原创 2022-03-17 23:01:15 · 1189 阅读 · 0 评论 -
flume系列之:学会flume开发调试,查看flume event数据格式,并根据flume event数据格式开发拦截器
flume系列之:学会flume开发调试,查看flume event数据格式,并根据flume event数据格式开发拦截器一、声明source、channel、sink二、配置source三、配置source拦截器四、配置channel五、配置sink六、查看终端输出七、代码实现打印flume event数据格式到日志根据不同的需求,flume可能需要采用不同类型的source、channel、sink,flume配置采取热部署,配置更新即可生效。在开发flume新功能时,直接使用source、chan原创 2022-02-21 14:26:20 · 1503 阅读 · 0 评论 -
python系列之:基于paramiko和socks使用keytab登陆kerberos认证的HDFS
python系列之:登陆kerberos认证的HDFS一、基于paramiko使用私钥和代理登陆服务器二、kerberos认证命令详解三、实现kerberos认证四、认证完执行hdfs相关操作五、完整详细的代码如下所示一、基于paramiko使用私钥和代理登陆服务器#参数是私钥用户名和密钥def exec_ssh_command(user, privateKeyPath,hostName): #需要设置代理的话添加下面代码,如果本地已经开启代理,注视这两行代码 socks.set_defau原创 2022-02-16 11:27:40 · 998 阅读 · 0 评论 -
Java系列:登陆Kerberos认证的HDFS集群,并实现往hdfs指定目录写入文件
Java系列:登陆Kerberos认证的HDFS集群,并实现往hdfs指定目录写入文件一、application.properties中指定登陆Kerberos认证的HDFS集群所需的信息二、配置Hadoop集群配置信息和kerberos用户认证信息1.读取application.properties获取配置文件2.设置Kerberos登陆信息3.设置hadoop集群信息三、写文件到HDFS指定目录四、详细注释登陆Kerberos认证的HDFS集群并写文件到HDFS特定目录的完整代码Hadoop集群采用了原创 2022-01-22 10:30:15 · 877 阅读 · 0 评论 -
IDEA和Maven打Jar包方法详细汇总
IDEA和Maven打Jar包方法详细汇总命令行执行打好的jar包java -jar first_java_project.jar原创 2021-03-10 11:48:44 · 454 阅读 · 0 评论 -
基于Flink SQL CDC的实时数据同步方案
基于Flink SQL CDC的实时数据同步方案本文总结于阿里巴巴Flink技术专家的视频分享,主要围绕以下4个方面展开:传统数据同步方案基于Flink SQL CDC的数据同步方案Flink SQL CDC的更多应用场景Flink SQL CDC的未来规划目前个人主要在研究基于CDC的实时数据同步方案,后续会围绕这个主题,研究总结出一系列主题文章。一、传统数据同步方案典型问题:面临的主要问题:多写业务逻辑复杂延时增加数据一致性问题二、CDC数据同步方案优化方案:原创 2021-03-26 08:19:20 · 790 阅读 · 0 评论 -
IDEA搭建Scala、Flink开发环境,使用Scala语言开发Flink程序
搭建Scala、Flink开发环境,使用IDEA开发Scala程序一、基于IDEA安装scalaFile——Settings——Plugins搜索Scala安装,安装后重启IDEA使Scala插件生效二、配置Flink开发环境 <dependencies> <!--配置flink客户端--> <!--flink-clients --> <dependency> <groupId>or原创 2020-10-26 14:56:58 · 1522 阅读 · 1 评论 -
CentOS7搭建Kafka2.7分布式集群
CentOS7搭建Kafka分布式集群Kafka下载地址:http://kafka.apache.org/downloadsKafka分布式集群依赖于Zookeeper才能正常工作,因此搭建Kafka集群前要先配置ZooKeeper集群。可以参考下面这篇博客安装ZooKeeper3.6.2集群:https://blog.csdn.net/zhengzaifeidelushang/article/details/109501121一、解压kafka_2.13-2.6.0.tgztar -zxv原创 2020-11-22 18:31:15 · 682 阅读 · 0 评论 -
java通过Apache Kafka API AdminClient创建kafka topic
java通过Apache Kafka API AdminClient创建kafka topic一、AdminClient创建kafka topic的KafkaClient二、mian函数调用创建kafka topic的KafkaClientKafkaClient运行程序能够往kafka集群创建指定名称的kafka topic一、AdminClient创建kafka topic的KafkaClientimport org.apache.kafka.clients.admin.AdminClient;原创 2021-12-10 21:30:02 · 1021 阅读 · 0 评论 -
软考高级系统架构设计师系列之:设计模式
一、设计模式的原则设计模式六大原则:单一职责原则里氏代换原则依赖倒置原则接口隔离原则迪米特原则开闭原则二、创建型模式创建型模式:对对象实例化过程的抽象通过采用抽象类所定义的接口,封装了系统中对像如何创建、组合等信息。包括以下几种设计模式:抽象工厂模式构建器模式工厂方法模式原型模式单例模式1.抽象工厂模式抽象工厂模式:提供创建一组或者一系列相关的或相互依赖对象的接口。优点:分离了具体类更容易在产品系列中进行转换提高了产品间一致性缺点:难原创 2021-10-16 23:56:45 · 567 阅读 · 0 评论 -
软考高级系统架构设计师:五大类安全服务
软考高级系统架构设计师:五大类安全服务一、五大类安全服务二、认证服务三、访问控制服务四、数据机密性服务五、数据完整性服务六、抗抵赖服务一、五大类安全服务认证服务访问控制服务数据机密性服务数据完整性服务抗抵赖性服务二、认证服务认证服务的基本目的是防止其他实体占用和独立操作被认证实体的身份。认证服务的主要实现方式包括以下五种:已有的信息,如认证口令拥有的信息,如IC卡、令牌等不可改变的特性,如指纹、虹膜等生物特征相信可靠的第三方建立的认证环境,如主机地址等三、访问控制服务原创 2021-10-16 23:03:19 · 3825 阅读 · 0 评论 -
gitlab撤销已经合并到master的提交
gitlab撤销已经合并到master的提交一、Commits页面选择已经提交的合并请求二、选择Revert三、提交撤销合并请求四、同意撤销合并请求一、Commits页面选择已经提交的合并请求二、选择Revert三、提交撤销合并请求四、同意撤销合并请求至此master回退到上一个版本。...原创 2021-10-14 11:06:33 · 5119 阅读 · 0 评论 -
SpringBoot学习路线:SpringBoot从入门到精通
SpringBoot学习路线:SpringBoot从入门到精通SpringBoot从入门到精通系列一:SpringBoot入门SpringBoot从入门到精通系列二:应用配置与自动配置SpringBoot从入门到精通系列三:WebSocketSpringBoot从入门到精通系列四:RESTful服务支持SpringBoot从入门到精通系列五:访问SQL数据库Mybatis和MyBatis-plusSpringBoot从入门到精通系列六:消息组件RabbitMQSpringBoot从入门到精通原创 2021-10-05 23:52:40 · 622 阅读 · 0 评论 -
fastAPI响应模型:response_model
fastAPI响应模型:response model一、输出数据转化为模型格式数据fastAPI响应模型response model作用:将输出数据转化为模型的数据一、输出数据转化为模型格式数据from fastapi import FastAPI,APIRouterfrom pydantic import BaseModel,Fieldfrom typing import Optional,Union,Listimport uvicornclass Stuinfo(BaseMode原创 2021-09-30 12:31:36 · 531 阅读 · 0 评论 -
fastapi和uvicorn用法
fastapi入门from fastapi import FastAPI,APIRouterimport uvicornrouter= APIRouter(prefix="/school")@router.get("/stuinfo/",tags=["users"])def get_stuinfo(): return {"stuname":"刘备"}@router.get("/subject/grade/",tags=["stugrade"])def get_stugrade()原创 2021-09-30 11:22:58 · 7857 阅读 · 0 评论 -
gitlab添加成员开通项目访问权限
gitlab添加成员开通项目访问权限项目下寻找Settings按钮,选择Members选择Members后可以看到下面图片页面,输入用户,赋予用户权限权限分为4种:GuestReporterDeveloperMaintainer最后点击Add to project,完成添加,用户就具有访问项目的权限了...原创 2021-09-30 15:54:59 · 5588 阅读 · 0 评论 -
Maven直接从maven中央仓库安装jar包到本地仓库
Maven直接从maven中央仓库安装jar包到本地仓库Mavne中央仓库地址mvn org.apache.maven.plugins:maven-dependency-plugin:2.10:get -DremoteRepositories=https://mvnrepository.com/artifact/org.apache.maven.plugins/maven-surefire-plugin -DgroupId=org.apache.maven.plugins -DartifactI原创 2021-09-28 20:04:08 · 443 阅读 · 0 评论 -
Python开发常用知识点总结二
一、日志管理模块logurufrom loguru import loggerlogger.add( sink = 'test.log', level='INFO', retention='14 days', # rotation='500 MB', rotation='1 days', enqueue=True, backtrace=True, format="{time:YYYY-MM-DD HH:mm:ss} | {level} |原创 2021-09-26 11:59:20 · 187 阅读 · 0 评论 -
Python开发常用知识点总结一
Python开发常用知识点总结一一、os.getenv()二、yaml.safe_load()三、os.getenv()与yaml.safe_load()结合使用示例四、python对称加密算法模块fernet五、数据接口schema定义与检查的库pydantic六、shortuuid.uuid()七、pathlib.Path()八、json.dumps()九、eval()十、subprocess一、os.getenv()获取系统环境变量import osos.getenv("/flask/co原创 2021-09-24 20:38:30 · 215 阅读 · 0 评论 -
flume系列之:使用通配符批量消费kafka的Topic
flume使用通配符批量消费kafka的Topic#指定kafka topic使用注释的这个#kafka_topics: "optics-production-data"#flume使用通配符kafka_topics_regex: "optics-(.*)"原创 2021-09-18 12:00:46 · 1587 阅读 · 0 评论 -
Maven从中央仓库下载jar包,安装到本地指定Maven仓库
Maven从中央仓库下载jar包,安装到指定仓库Maven中央仓库地址mvn install:install-file -Dfile=/Users/data/MavenRepository/zeppelin-server-0.10.0.jar -DgroupId=org.apache.zeppelin -DartifactId=zeppelin-server -Dversion=0.10.0 -Dpackaging=jar -Dmaven.repo.local=/Users/data/Ma原创 2021-09-15 19:15:25 · 536 阅读 · 0 评论 -
ansible为服务器集群装python包
ansible为服务器集群装python包一、ansible.cfg二、ssh.cfg三、roles之main.yml四、inventories之main.yml五、inventories之hosts六、deploy.yml七、一条命令为服务器集群装python包一、ansible.cfg[defaults]inventory = inventories/python3.7.9remote_user = 用户名private_key_file = /Users/用户名/用户名.private_k原创 2021-09-10 00:48:24 · 256 阅读 · 0 评论 -
ansible一条命令自动化部署python3
ansible一条命令自动化部署python3一、ansible.cfg二、ssh.cfg三、roles之main.yml四、inventories之main.yml五、inventories之hosts六、conf_python3.7.9之python37.sh.j2七、deploy.yml八、一条命令实现在服务器集群安装python3.7.9一、ansible.cfg[defaults]inventory = inventories/python3.7.9remote_user = 用户名p原创 2021-09-09 23:30:21 · 435 阅读 · 0 评论 -
海豚调度集群安装详细步骤
海豚调度集群安装详细步骤1.基础软件安装(必装项)2.创建部署用户和hosts映射3.下载DolphinScheduler二进制tar.gz包4.配置hosts映射5.集群服务器免密登陆6.数据库初始化7.修改运行参数8.一键部署9.查看bigdata1、bigdata2、bigdata3上的海豚调度进程10.登录系统11.海豚调度一键启动命令12.海豚调度启停命令汇总13.启停 Master14.启停 Worker15.启停 Api16.启停 Logger17.启停 Alert1.基础软件安装(必装项)原创 2021-09-09 18:04:28 · 1748 阅读 · 0 评论 -
Zeppelin查询提示:Output is truncated to 102400 bytes. Learn more about ZEPPELIN_INTERPRETER_OUTPUT_LIMIT
Zeppelin查询提示:ZEPPELIN_INTERPRETER_OUTPUT_LIMITzeppelin输出数据量可以通过以下两个方式调整:方法一:zeppelin-env.shZEPPELIN_INTERPRETER_OUTPUT_LIMITexport ZEPPELIN_INTERPRETER_OUTPUT_LIMIT=2500000方法二:zeppelin-site.xmlzeppelin.interpreter.output.limit<property>原创 2021-08-30 18:52:41 · 1572 阅读 · 0 评论 -
java.lang.ClassNotFoundException:zeppelin.interpreter.remote.RemoteInterpreterServer
Zeppelin启动Spark报错:-Uncaught exception: java.lang.ClassNotFoundException:org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer报错原因:缺少zeppelin自身jar包解决方法:添加缺少的jar包到启动环境中在解决过程中报错缺少啥就添加啥,一步步解决遇到的问题下面是添加了zeppelin自身的jar包和spark的jar包export SPAR原创 2021-08-30 12:24:04 · 861 阅读 · 0 评论 -
Zeppelin导入额外jar包方法
Zeppelin导入额外jar包方法方法一:为特定用户导入特定jar包方法二:永久导入jar包方法三:临时导入jar包方法一:为特定用户导入特定jar包方法参考这篇博客:zeppelin为特定用户添加额外jar包方法二:永久导入jar包在zeppelin启动的环境变量中永远导入jar包export SPARK_SUBMIT_OPTIONS="--jars /moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar"方法三:原创 2021-08-30 12:10:13 · 880 阅读 · 0 评论 -
zeppelin运行spark程序读写s3报错解决方法详细汇总:java.lang.NoSuchMethodError
zeppelin运行spark程序读写s3报错解决方法:java.lang.NoSuchMethodError在解决spark程序读写s3问题的过程中遇到的报错汇总如下:错误一:Could not initialize class org.apache.hadoop.fs.s3a.S3AFileSystem错误二:java.lang.NoSuchMethodError: com.amazonaws.services.s3.transfer.TransferManager.(Lcom/amaz原创 2021-08-30 11:36:33 · 1105 阅读 · 0 评论 -
Springboot web开发系列二:模版引擎Thymeleaf
Springboot web开发系列二:Thymeleaf语法一、pom.xml导入Thymeleaf依赖二、完整目录结构与前端页面输出效果三、Controller之IndexController四、index.html五、完整的pom.xml六、主程序SpringbootWebApplication一、pom.xml导入Thymeleaf依赖<dependency> <groupId>org.springframework.boot</groupId> <原创 2021-08-19 15:19:29 · 195 阅读 · 0 评论 -
Springboot web开发系列一:搭建项目基础框架实现前后端交互
Springboot web开发系列一:搭建项目基础框架实现前后端交互一、创建Springboot Web项目框架二、Springboot Web项目的目录结构三、pom.xml四、主程序SpringbootWebApplication五、controller之IndexController六、Index.html七、运行程序前端页面输出一、创建Springboot Web项目框架按照下列步骤搭建项目框架:步骤一:步骤二:步骤三:步骤四:完成项目框架搭建二、Springboot Web原创 2021-08-19 14:21:32 · 385 阅读 · 0 评论 -
Hive创建外部表详细步骤
Hive创建外部表详细步骤一、创建外部表二、hdfs建立文件夹存放数据三、准备数据四、上传数据到HDFS目录五、Hive表关联文件得到数据六、查询数据一、创建外部表create external table grainfo(id int COMMENT '',name string COMMENT '',score1 int COMMENT '') PARTITIONED BY (dt int)row format delimited fields terminated by ','loca原创 2021-08-18 15:09:03 · 3358 阅读 · 0 评论 -
Java基础知识面试题系列九:91~100题
Java基础知识面试题系列九:91~100题91.什么是守护线程92.什么是设计模式93.什么是单例模式94.什么是工厂模式91.什么是守护线程Java提供了两种线程:守护线程用户线程守护线程:守护线程又被称为服务进程或后台线程,是指在程序运行时在后台提供一种通用服务的线程,这种线程并不属于程序中不可或缺的部分。任何一个守护线程都是整个JVM中所有非守护线程的保姆。用户线程:用户线程和守护线程几乎一样,唯一不同之处就在于如果用户线程已经全部退出运行,只剩下守护线程存在了,JVM也原创 2021-08-16 15:07:33 · 216 阅读 · 0 评论 -
Java基础知识面试题系列七:71~80题
Java基础知识面试题系列七:71~80题71.JVM加载class文件的原理机制是什么72.什么是GC73.Java中是否存在内存泄漏问题71.JVM加载class文件的原理机制是什么Java语言是一种具有动态性的解释型语言,类(class)只有被加载到JVM中后才能运行。当运行指定程序时,JVM会将编译生成的.class文件按照需求和一定的规则加载到内存中,并组织成为一个完整的Java应用程序。这个加载过程是由类加载器来完成的,具体来说,就是由ClassLoader和它的子类来实现的。类加载原创 2021-08-15 17:40:33 · 203 阅读 · 0 评论 -
Hive中文乱码解决方法
Hive中文乱码解决方法一、错误原因:hive的元数据是由mysql管理的,mysql默认编码是latin1,中文存储进去容易乱码,所以最好把mysql的编码改成utf-8二、解决方法需要把相应注释的地方的字符集由 latin1 改成 utf-8,用到注释的就三个地方,表、分区、视图修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TAB原创 2021-08-13 22:11:53 · 5961 阅读 · 0 评论 -
Spark集成HIVE
Spark集成HIVE一、安装Hadoop、Spark、Hive二、hive-site.xml文件拷贝到spark的conf目录下三、spark-env.sh中添加hive配置四、spark添加mysql驱动五、启动spark-sql一、安装Hadoop、Spark、HiveHive-3.1.2安装部署Spark3 on Yarn分布式集群安装部署(YARN模式)Hadoop3高可用(HA)分布式集群搭建Spark SQL报错:The specified datastore driver (“c原创 2021-08-13 21:14:30 · 666 阅读 · 0 评论 -
Spark SQL报错:The specified datastore driver (“com.mysql.jdbc.Driver“) was not found in the CLASSPATH.
Spark SQL报错:The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH.启动Spark SQL报错:./spark-sqlCaused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONECP" plugin to create a ConnectionPool gave原创 2021-08-13 20:37:37 · 907 阅读 · 0 评论 -
Unexpected character ‘=‘; expected a semi-colon after the reference for entity ‘characterEncoding‘
Unexpected character ‘=’; expected a semi-colon after the reference for entity ‘characterEncoding’hive-site.xml文件配置mysql数据库地址<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.216.130:3306/h原创 2021-08-13 20:13:35 · 1095 阅读 · 0 评论 -
Iterm把多个窗口放在一个界面
Iterm把多个窗口放在一个界面Command+D:横向扩展一个窗口Command+Shirt+D:纵向扩展一个窗口Command+Shirt+i:平铺的窗口,统一命令管理。原创 2021-08-13 14:51:27 · 2231 阅读 · 0 评论 -
ansible一条命令完成Zeppelin部署
ansible一条命令完成Zeppelin部署一、deploy.yml二、roles之remove_zeppelin三、roles之zeppelin四、inventories之zeppelin_test的all.yml五、inventories之zeppelin_test的hosts六、conf_zeppelin_test存放zeppelin配置文件七、ssh.cfg设置代理八、ansible.cfg配置密钥、仓库名称九、package存放编译好的zeppelin安装包十.一条命令完成zeppelin部署原创 2021-08-10 21:54:52 · 231 阅读 · 0 评论