2021年08月_最笨的羊羊

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Zeppelin设置返回的最大结果行数zeppelin.spark.maxResult

Zeppelin设置返回的最大结果行数方法：interpreter页面设置最大行树：zeppelin.spark.maxResult：10000查询数据超过10万行就会出现下面的提示：

2021-08-30 19:10:38 709

原创 Zeppelin查询提示：Output is truncated to 102400 bytes. Learn more about ZEPPELIN_INTERPRETER_OUTPUT_LIMIT

Zeppelin查询提示：ZEPPELIN_INTERPRETER_OUTPUT_LIMITzeppelin输出数据量可以通过以下两个方式调整：方法一：zeppelin-env.shZEPPELIN_INTERPRETER_OUTPUT_LIMITexport ZEPPELIN_INTERPRETER_OUTPUT_LIMIT=2500000方法二：zeppelin-site.xmlzeppelin.interpreter.output.limit<property>

2021-08-30 18:52:41 1426

原创 java.lang.ClassNotFoundException:zeppelin.interpreter.remote.RemoteInterpreterServer

Zeppelin启动Spark报错：-Uncaught exception: java.lang.ClassNotFoundException:org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer报错原因：缺少zeppelin自身jar包解决方法：添加缺少的jar包到启动环境中在解决过程中报错缺少啥就添加啥，一步步解决遇到的问题下面是添加了zeppelin自身的jar包和spark的jar包export SPAR

2021-08-30 12:24:04 691

原创 Zeppelin导入额外jar包方法

Zeppelin导入额外jar包方法方法一：为特定用户导入特定jar包方法二：永久导入jar包方法三：临时导入jar包方法一：为特定用户导入特定jar包方法参考这篇博客：zeppelin为特定用户添加额外jar包方法二：永久导入jar包在zeppelin启动的环境变量中永远导入jar包export SPARK_SUBMIT_OPTIONS="--jars /moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar"方法三：

2021-08-30 12:10:13 775

原创 zeppelin设置spark的启动参数

zeppelin设置spark的启动参数vim zeppelin-env.shexport SPARK_SUBMIT_OPTIONS="--driver-memory 4G --executor-memory 4G --driver-cores 2 --executor-cores 2 --num-executors 10 --conf spark.sql.shuffle.partitions=1000 --conf spark.default.parallelism=300".

2021-08-30 12:02:01 539

原创 Zeppelin起Spark任务报错：RECEIVED SIGNAL TERM

Zeppelin起Spark任务报错：RECEIVED SIGNAL TERM解决方法如下所示：调大spark任务资源export SPARK_SUBMIT_OPTIONS="--driver-memory 4G --executor-memory 4G --driver-cores 2 --executor-cores 2--num-executors 20 --conf spark.sql.shuffle.partitions=1000 --conf spark.default.

2021-08-30 11:59:32 2310

原创 Zeppelin打开定时调度

Zeppelin打开定时调度如下图所示：zeppelin可以开启定时调度，定时运行notebook修改conf/zeppelin-site.xml,添加开启定时调度配置<property> <name>zeppelin.notebook.cron.enable</name> <value>true</value> <description>Notebook enable cron schedul

2021-08-30 11:46:52 1026 6

原创 zeppelin运行spark程序读写s3报错解决方法详细汇总：java.lang.NoSuchMethodError

zeppelin运行spark程序读写s3报错解决方法：java.lang.NoSuchMethodError在解决spark程序读写s3问题的过程中遇到的报错汇总如下：错误一：Could not initialize class org.apache.hadoop.fs.s3a.S3AFileSystem错误二：java.lang.NoSuchMethodError: com.amazonaws.services.s3.transfer.TransferManager.(Lcom/amaz

2021-08-30 11:36:33 966

原创 git 本地master分支合并其他分支

一、切换到主分支git checkout master二、主分支合并其他分支git merge yf_dev三、切换到其他分支git checkout yf_dev四、推送到远程分支git push -u origin yf_dev

2021-08-26 12:12:51 662

原创 Spark3读S3上文件

Spark3读S3上文件一、启动Spark-shell本地启动spark-shell./spark-shell二、读文件val rdd =spark.sparkContext.textFile(“s3a://opticsprod/dwh/ods_prod/software_1h/datetime=2020070919/test.parquet”);Welcome to ____ __ / __/__ ___ _____/ /__ _

2021-08-24 11:43:11 870

原创 hdfs批量上传下载文件和删除指定目录下文件

hdfs批量上传下载文件和删除指定目录下文件一、hdfs批量下载文件hdfs dfs -get s3a://com-nio-insight-stg/infrastructure/zeppelin/notebook/

2021-08-20 17:58:39 2661 2

原创 Python3查看包的版本，并升级包的版本

Python3查看包的版本，并升级包的版本一、查看特定包的版本./python3Python 3.6.4 (default, Nov 27 2018, 19:35:31)[GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linuxType "help", "copyright", "credits" or "license" for more information.>>> import pyarrow;>>> pyarr

2021-08-20 15:49:26 438

原创 Springboot web开发系列二：模版引擎Thymeleaf

Springboot web开发系列二：Thymeleaf语法一、pom.xml导入Thymeleaf依赖二、完整目录结构与前端页面输出效果三、Controller之IndexController四、index.html五、完整的pom.xml六、主程序SpringbootWebApplication一、pom.xml导入Thymeleaf依赖<dependency> <groupId>org.springframework.boot</groupId> <

2021-08-19 15:19:29 141

原创 Springboot web开发系列一：搭建项目基础框架实现前后端交互

Springboot web开发系列一：搭建项目基础框架实现前后端交互一、创建Springboot Web项目框架二、Springboot Web项目的目录结构三、pom.xml四、主程序SpringbootWebApplication五、controller之IndexController六、Index.html七、运行程序前端页面输出一、创建Springboot Web项目框架按照下列步骤搭建项目框架：步骤一：步骤二：步骤三：步骤四：完成项目框架搭建二、Springboot Web

2021-08-19 14:21:32 300

原创 Hive创建外部表详细步骤

Hive创建外部表详细步骤一、创建外部表二、hdfs建立文件夹存放数据三、准备数据四、上传数据到HDFS目录五、Hive表关联文件得到数据六、查询数据一、创建外部表create external table grainfo(id int COMMENT '',name string COMMENT '',score1 int COMMENT '') PARTITIONED BY (dt int)row format delimited fields terminated by ','loca

2021-08-18 15:09:03 3163

原创 Java笔试题系列之：如何找出数组中唯一的重复元素

Java笔试题一：如何找出数组中唯一的重复元素问题描述：数组a[N]，1～N-1这N-1个数存放在a[N]中，其中某个数重复1次。写一个函数，找出被重复的数字。要求每个数组元素只能访问1次，并且不用辅助存储空间。方法一：由于题目要求每个数组元素只能访问1次，且不用辅助存储空间，因此可以从原理上入手，采用数学求和法，因为只有一个数字重复1次，而又是连续的，根据累加和原理，对数组的所有项求和，然后减去1～N-1的和，即为所求的重复数。public class DuplicateElement {

2021-08-17 10:40:21 329

原创 Java基础知识面试题系列九：91～100题

Java基础知识面试题系列九：91～100题91.什么是守护线程92.什么是设计模式93.什么是单例模式94.什么是工厂模式91.什么是守护线程Java提供了两种线程：守护线程用户线程守护线程：守护线程又被称为服务进程或后台线程，是指在程序运行时在后台提供一种通用服务的线程，这种线程并不属于程序中不可或缺的部分。任何一个守护线程都是整个JVM中所有非守护线程的保姆。用户线程：用户线程和守护线程几乎一样，唯一不同之处就在于如果用户线程已经全部退出运行，只剩下守护线程存在了，JVM也

2021-08-16 15:07:33 171

原创 Java基础知识面试题系列八：81～90题

Java基础知识面试题系列七：81～90题81.Java Collections框架是什么82.什么是迭代器83.Iterator与ListIterator有什么区别84.ArrayList、Vector和LinkedList有什么区别85.ArrayList、Vector和LinkedList容器使用场景选择86.HashMap、Hashtable、TreeMap和WeakHashMap有哪些区别81.Java Collections框架是什么Java Collections框架中包含了大量集合接口

2021-08-16 12:01:51 136

原创 Java基础知识面试题系列七：71～80题

Java基础知识面试题系列七：71～80题71.JVM加载class文件的原理机制是什么72.什么是GC73.Java中是否存在内存泄漏问题71.JVM加载class文件的原理机制是什么Java语言是一种具有动态性的解释型语言，类（class）只有被加载到JVM中后才能运行。当运行指定程序时，JVM会将编译生成的.class文件按照需求和一定的规则加载到内存中，并组织成为一个完整的Java应用程序。这个加载过程是由类加载器来完成的，具体来说，就是由ClassLoader和它的子类来实现的。类加载

2021-08-15 17:40:33 162

原创 Java基础知识面试题系列七：61～70题

Java基础知识面试题系列七：61～70题一、Java IO流的实现机制是什么一、Java IO流的实现机制是什么在Java语言中，输入和输出都被称为抽象的流，流可以被看作一组有序的字节集合，即数据中两设备之间的传输。流可以分为两大类：字节流和字符流。字节流以字节（8bit）为单位，包含两个抽象类：InputStream(输入流)和OutputStream(输出流)。字符流以字符（16bit为单位），根据编码映射字符，一次可以读多个字节，包含两个抽象类，Reader(输入流)和Writer(输出

2021-08-15 11:45:24 168

原创 Java基础知识面试题系列六：51～60题

Java基础知识面试题系列六：51～60题51."=="、equals和hashCode有什么区别52.String、StringBuffer、StringBuilder和StringTokenizer有什么区别51."=="、equals和hashCode有什么区别==：运算符用来比较两个变量的值是否相等。也就是说，该运算符用于比较变量对应的内存中所存储的数值是否相同，要比较两个基本类型的数据或两个引用变量是否相等，只能使用“==”运算符。如果一个变量指向的数据是对象(引用类型)，涉及了两块内存

2021-08-14 12:05:16 205

原创 Hive中文乱码解决方法

Hive中文乱码解决方法一、错误原因：hive的元数据是由mysql管理的，mysql默认编码是latin1，中文存储进去容易乱码，所以最好把mysql的编码改成utf-8二、解决方法需要把相应注释的地方的字符集由 latin1 改成 utf-8，用到注释的就三个地方，表、分区、视图修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TAB

2021-08-13 22:11:53 5396

原创 Spark集成HIVE

Spark集成HIVE一、安装Hadoop、Spark、Hive二、hive-site.xml文件拷贝到spark的conf目录下三、spark-env.sh中添加hive配置四、spark添加mysql驱动五、启动spark-sql一、安装Hadoop、Spark、HiveHive-3.1.2安装部署Spark3 on Yarn分布式集群安装部署(YARN模式)Hadoop3高可用(HA)分布式集群搭建Spark SQL报错：The specified datastore driver (“c

2021-08-13 21:14:30 563

原创 Spark SQL报错：The specified datastore driver (“com.mysql.jdbc.Driver“) was not found in the CLASSPATH.

Spark SQL报错：The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH.启动Spark SQL报错：./spark-sqlCaused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BONECP" plugin to create a ConnectionPool gave

2021-08-13 20:37:37 765

原创 Unexpected character ‘=‘； expected a semi-colon after the reference for entity ‘characterEncoding‘

Unexpected character ‘=’; expected a semi-colon after the reference for entity ‘characterEncoding’hive-site.xml文件配置mysql数据库地址<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.216.130:3306/h

2021-08-13 20:13:35 912

原创 Iterm把多个窗口放在一个界面

Iterm把多个窗口放在一个界面Command+D：横向扩展一个窗口Command+Shirt+D：纵向扩展一个窗口Command+Shirt+i：平铺的窗口，统一命令管理。

2021-08-13 14:51:27 1564

原创从本地上传文件到HDFS目录

从本地上传文件到HDFS目录hdfs dfs -put 本地目录 hdfs目录

2021-08-13 14:29:03 2656

原创 Hive表分区查询show partitions tablename

Hive表分区查询show partitions tablenameSpark Sql：%sqlshow partitions grainfo;

2021-08-13 14:24:53 5353

原创 could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 1 node

flume往HDFS写入数据报错如下所示：could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 1 node错误原因是：没有可用的datanode了，hdfs空间满了错误解决方法是：HDFS磁盘扩容清理HDFS上冗余文件...

2021-08-13 14:21:11 1599

原创 Apache DolphinScheduler：分布式易扩展的可视化工作流任务调度平台

Apache DolphinScheduler：分布式易扩展的可视化工作流任务调度平台一、认识Apache DolphinScheduler二、DolphinScheduler特性三、Apache DolphinScheduler集群部署Apache DolphinScheduler技术文档地址Apache DolphinScheduler下载地址一、认识Apache DolphinSchedulerApache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调

2021-08-12 18:49:49 4597

原创 Apache DolphinScheduler集群安装详细步骤

Apache DolphinScheduler集群安装流程1.基础软件安装(必装项)2.创建部署用户和hosts映射3.下载DolphinScheduler二进制tar.gz包4.配置hosts映射5.集群服务器免密登陆6.数据库初始化7.修改运行参数8.一键部署9.登录系统10.启停服务1.基础软件安装(必装项)PostgreSQL (8.2.15+) or MySQL (5.7系列)：两者任选其一即可，如 MySQL 则需要 JDBC Driver 5.1.47+。MySQL 5.7.32 C

2021-08-12 18:47:56 394

原创 Java基础知识面试题系列五：41～50题

Java基础知识面试题系列三：41～50题41.值传递与引用传递有哪些区别41.值传递与引用传递有哪些区别方法调用是编程语言中非常重要的一个特性，在方法调用时，通常需要传递一些参数来完成特定的功能。Java语言提供了两种参数传递的方式：值传递引用传递值传递：在方法调用中，实参会把它的值传递给形参，形参只是用实参的值初始化一个临时的存储单元，因此形参与实参虽然有着相同的值，但是却有着不同的存储单元，因此对形参的改变不会影响实参的值。引用传递：在方法调用中，传递的是对象（也可以看作是

2021-08-12 10:49:45 131

原创 git 从指定分支拉取代码

git 从指定分支拉取代码一、不指定分支拉取代码git clone [email protected]:bigdata/zeppelin.git二、从指定分支拉取代码git clone -b optics_dev [email protected]:bigdata/zeppelin.gitCloning into 'zeppelin'...remote: Enumerating objects: 91051, done.remote: Counting objects: 100% (91051/9

2021-08-11 14:07:35 2867

原创 Java基础知识面试题系列四：31～40题

Java基础知识面试题系列三：31～40题31.static与final结合使用表示什么意思32.使用switch时有哪些注意事项31.static与final结合使用表示什么意思在Java语言中，static关键字常与final关键字结合使用，用来修饰成员变量与成员方法，有点类似于C/C++语言中的“全局变量”。对于变量，若使用static final修饰，则表示一旦赋值，就不可修改，并且通过类名可以访问。对于方法，若使用static final修饰，则表示该方法不可覆盖，并且可以通过类名直接访

2021-08-11 10:40:18 215

原创 ansible一条命令完成Zeppelin部署

ansible一条命令完成Zeppelin部署一、deploy.yml二、roles之remove_zeppelin三、roles之zeppelin四、inventories之zeppelin_test的all.yml五、inventories之zeppelin_test的hosts六、conf_zeppelin_test存放zeppelin配置文件七、ssh.cfg设置代理八、ansible.cfg配置密钥、仓库名称九、package存放编译好的zeppelin安装包十.一条命令完成zeppelin部署

2021-08-10 21:54:52 159

原创生产环境Python脚本消费kafka Topic数据

生产环境Python脚本消费kafka Topic数据一、消费kafka Topic数据完整代码二、Kafka consumer 设置offset一、消费kafka Topic数据完整代码#!coding=utf-8import jsonfrom kafka import TopicPartition, KafkaConsumerif __name__ == '__main__': TOPIC = "debezium-pgsql-optics-prod.public.nt_product

2021-08-09 18:45:51 440

原创大数据权限管理组件Apache Ranger简介和原理

大数据权限管理组件Apache Ranger简介和原理一、什么是Ranger二、Ranger的管理页面和Ranger支持的框架三、Ranger的目标四、Ranger架构五.Ranger的工作原理一、什么是RangerApache Ranger是一个用来在Hadoop平台上进行监控、启用服务，以及全方位数据安全访问管理的安全框架。Ranger的愿景是在Apache Hadoop生态系统中提供全面的安全管理。随着企业业务的拓展，企业可能在多用户环境中运行多个工作任务，这就要求Hadoop内的数据安全性需要

2021-08-08 11:03:07 2351

原创 ansible上传多个文件到服务器集群

完整的目录结构如下所示：一、ansible.cfg[defaults]inventory = inventories/uploadremote_user = f.y4private_key_file = /Users/f.y4/f.y4.private_keyhost_key_checking = False[ssh_connection]ssh_args = -F ssh.cfg二、ssh.cfgHost * ProxyCommand /usr/local/bin/ncat

2021-08-06 11:44:52 824

原创 flume系列之：拦截器和自定义flume拦截器

Flume中的拦截器(interceptor)，用户Source读取events发送到Sink的时候，在Event header中加入一些有用的信息，或者对Event的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常有用，例如通过拦截器可以把数据库名称、表名、Event生成的时间放入Event的header中，用于生成hdfs的文件存放目录。如下所示是文件sink到hdfs的目录：其中optics_prod是数据库名称，sale_order是表名，这些都是通过flume拦截器获取到的。/raw/

2021-08-05 14:41:16 570

原创 Java基础知识面试题系列三：21～30题

Java基础知识面试题系列三：21～30题21.抽象类(abstract class)与接口(interface)有什么异同21.抽象类(abstract class)与接口(interface)有什么异同一个类中包含抽象方法，这个类就是抽象类。在Java语言中，可以通过把类或者类中的某些方法声明为abstract(abstract只能用来修饰类或者方法，不能用来修饰属性)来表示一个类是抽象类。接口就是指一个方法的集合，接口中的所有方法都没有方法体，在Java语言中通过关键字interface来实

2021-08-03 22:12:44 314

Debezium Server offset编辑器

Debezium Server offset编辑器，已经编译好了，可以直接编辑debezium server使用的offset.dat文件，用于设置数据库的位点信息，实现从指定位点处拉取历史数据。更多详细内容以及具体使用方式，请见下面这篇博客： https://blog.csdn.net/zhengzaifeidelushang/article/details/132509073

2023-10-19