自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据面试题题集-java基础篇

构造方法当新对象被创建的时候,构造方法会被调用。每一个类都有构造方法。在程序员没有给类提供构造方法的情况下,Java 编译器会为这个类创建一个默认的构造方法。构造方法重载Java 中构造方法重载和方法重载很相似。可以为一个类创建多个构造方法。每一个构造方法必须有它自己唯一的参数列表。拷贝构造方法Java 不支持像 C++ 中那样的拷贝构造方法,这个不同点是因为如果你不自己写构造方法的情况下,Java 不会创建默认的拷贝构造方法。

2024-06-28 09:18:48 10

原创 es 中keword 长度异常

报错用spark 往es写入数据,总是丢失几条数据,进入日志详细查看后发现一个报错{"index":"*****","type":"_doc","id":"1267565827","cause":{"type":"exception","reason":"Elasticsearch exception [type=illegal_argument_exception, reason=Document contains at least one immense term in field=\"medica

2022-02-15 14:27:27 966

原创 web uploader实现文件的上传和下载功能

原因近日,自己的服务器每次上传文件都感觉比较麻烦,所以想着自己动手搞一个文件上传和下载的服务.实现的功能大文件分片上传文件下载显示目录新建文件夹项目前的准备技术采用了uploader 和spring的技术uploader 相关包的下载 如下:maven 相关依赖<build> <!--声明并引入子项目共有的插件--> <!-- <pluginManagement>-->

2022-02-09 18:08:38 910 1

原创 java 操作elasticsearch 之rest API

构建maven 工程<properties> <elasticsearch.version>7.1.1</elasticsearch.version></properties><dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId&gt

2022-01-28 15:04:37 2360

原创 SrpingBoot-data-elasticsearch

添加依赖 <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.2.3.RELEASE</version> <relativePath/> <!-- lookup p

2022-01-20 09:13:56 1488

原创 Flink 解决作业资源随着需求的变化而动态调整的

Flink 作业资源管理目前,Flink是无法做到Job在运行时动态调整并行度的,不经历重启直接拉起新的Task实列进行运行,目前都是基于重启恢复机制来实现的,因为涉及到状态管理Flnk 在资源管理中,资源的获取方式包含两种模式:Active 模式:主动式,Flink 可以主动的申请、释放资源(通过与资源管理框架集成,如:Yarn、Mesos)Reactive 模式:被动响应式,该模式由外部系统来进行分配,释放资源,Flink只是简单地对可用资源进行响应。(这种模式对于基于容器环境相当有意义,如K

2022-01-19 16:16:28 2576

原创 maven 解决依赖冲突

依赖冲突的表现ClassNotFound// class 名字会随着冲突的不同而不同Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.tracing.SpanReceiverHost at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) a

2022-01-18 14:32:17 2489

原创 mysql jsonArray应用

mysql 的 jsonArray应用1.本次项目用到了mysqljsonArray 用法但是出了一些问题,记录一下,以备日后查看2. JSON ARRAY 相关函数2.1JSON_ARRAY函数生成json数组SELECT JSON_ARRAY(1, "abc", NULL);+---------------------------------------------+| JSON_ARRAY(1, "abc", NULL) |+------------------------------

2022-01-14 11:01:41 7187 1

原创 presto原理

presto 背景  MapReduce不能满足大数据快速实时adhoc查询计算的性能要求,Facebook2012年开发,2013年开源  基于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎 多个节点管道式执行支持任意数据源 数据规模GB~PB 是一种Massively parallel processing(mpp)(大规模并行处理)模型数据规模PB 不是把PB数据放到内存,只是在计算中拿出一部分放在内存、计算、抛出、再拿presto 的应用场景ETL: Presto 支持

2021-10-05 16:27:09 1191

原创 canal原理

Canal的介绍  Canal是基于Mysql二进制的高性能数据同步系统,Canal在阿里巴巴集团中被广泛使用,以提供可靠的低延迟增量数据管道(白话文:其实就是根据mysql的biglog日志,进行增量同步数据)Canal的背景  早期,阿里巴巴B2B公司需要在美国和中国杭州之间同步服务器的数据。先前的数据库同步机制是基于trigger以获得增量更新的。从2010年开始,阿里巴巴集团开始使用数据集二进制日志获取增量更新并跨服务器同步数据,这催生了我们的增量订阅和使用服务(现已在阿里云中提供)并开始了一

2021-09-04 20:10:29 597

原创 kafka知识点

kafka是什么?kafka比较官方的定义是一种高吞吐量的分布式发布订阅消息系统,主要用来做消息的异步处理、系统解耦、削峰控流处理,是不是这几个词都看的懂,但是组合到一起看的比较懵,别急,一个一个解释:系统解耦:快递员跟收件人来打比方的话,快递员送货如果都送到每个人手里的话,那么快递员要一个个打电话,收件人收到电话之后,要在家等着快递。快递员跟收件人是紧密耦合在一起的。如果门口保安可以代收快递的话,快递员跟收件人就解耦了,快递员放在门口保安处,收件人去门口保安处领,就可以了,不用必须等着或者必须送到

2021-09-04 19:54:06 448

原创 canal安装和client读取数据

canal 的安装1.linux上安装mysqlCentos7 安装mysql详细步骤0 yum list 1 yum -y install wget2 wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm3 yum -y install mysql57-community-release-el7-10.noarch.rpm 4 yum -y install mysql-communit

2021-08-29 10:46:06 865

原创 org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

记录一下自己搞的莫名的bughbase(main):001:0> list_namespaceNAMESPACE ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apa

2020-11-20 20:32:02 131

原创 sql中的left join多表关联

1.多表关联的执行条件 这里有三张表 A B C A B C+----+ +----+ +----+| id | | id | | id |+----+ +----+ +----+| 1 | | 1 | | 10 || 2 | | 2 | | 20 || 3 | | 3 | | 3 || 4 | | 4 | | 4 || 5 | +----+ +----+| 10 | +----+三张表执行left join

2020-11-10 22:37:13 4028

原创 mysql的B+树,mysql引擎的事务锁定

为了提高mysql的查询效率,通常是建立索引机制来提高数据库的查询效率,但是不同的索引结构使索引的查询到的速度也不一样,mysql的索引机制是采用了树形结构中的B+数,为了mysql的B+ 树的更好的理解 从二叉树到平衡树到B树再到一个B+树的一个理解笔记二叉树二叉树(Binary tree)是树形结构的一个重要类型。许多实际问题抽象出来的数据结构往往是二叉树形式,即使是一般的树也能简单地转换为二叉树,而且二叉树的存储结构及其算法都较为简单,因此二叉树显得特别重要。二叉树特点是每个结点最多只..

2020-11-05 22:54:16 221

原创 Flink之Table

@EnvironmentSettings类分析 这个类是初始化表环境参数的,这些参数仅在创建的时候设置,实例化之后无法改变成员变量 //流模型 public static final String STREAMING_MODE = "streaming-mode"; //类的名称 public static final String CLASS_NAME = "class-name"; //默认的目录 public static final Strin...

2020-10-29 09:47:11 1096

原创 CentOS虚拟机机断电或强制关机报错

CentOS虚拟机机断电或强制关机报错CentOS虚拟机CentOS虚拟机断电或强制关机,再开机出现问题找出问题出现在哪:这里的 journalctl 是查看系统的日志信息;直接输入此命令查看,日志内容可能很多,快速翻页或者直接定位到最新的日志信息,发现有标红的,说明此处出现错误。错误原因:failed to mount /sysroot.Dependency failed for Initrd root File System.Dependency failed for Relo

2020-10-28 19:39:30 1094 1

原创 MapReduce 分布式运算程序 数据处理流程

《MapReduce 程序在yarn上分布式运行的流程》1.MR客户端请求Resource Manager2.Resource Manage 响应客户端回应 给与了jobid的资源提交路径3.客户端发起请求查看目录下的信息,根据信息计算切片任务4.上传自身的jar包文件5.job对象序列化6.向Resource Manage 请求一个容器7.Resource Manage 的容器分配队列 领取任务,并在其他NodeManage上创建了一个MRAppMaster8.MRAppMaster 下载

2020-09-10 08:57:29 816

原创 日志采集系统

编写日志采集系统逻辑分析1.找到服务器上日志存在的目录,因为日志可能正在编写,防止读取文件的时候,日志文件名的改变,所以将编写完成的日志移动到某一个临时的文件夹下2.在临时文件夹下将文件上传至hdfs系统中3.将读取的文件移动到某种备份文件中,设置为24小时后自动删除采集日志代码public class CollectTask { public static void main(String[] args) throws IOException { //加载配置文件

2020-09-05 17:17:06 798

原创 Java 用Socket 编写BS服务器

Java 用Socket 编写BS服务器用Socket编写服务器第一步 将HTML的网页放到项目下 列如接下来用Socket 编写代码public class BSsocket { public static void main(String[] args) throws IOException { //定义服务器端的Socket ServerSocket serverSocket = new ServerSocket(8888); //开

2020-08-22 20:09:00 381

spring 连接es代码

spring 连接es代码

2022-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除