自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 07-仿京东搜索

京东搜索:项目搭建1、new springboot 导入依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.61</version> </dependency> <dependency> <groupId>org.spr

2021-11-15 11:56:12 1730

原创 06-springboot集成ES详解

springboot集成ES详解1、new springboot项目 (看项目记得配环境,如jdk)问题:一定要保证我们导入的依赖和我们es版本一致编写config配置类package com.kuang.config;import org.apache.http.HttpHost;import org.elasticsearch.client.RestClient;import org.elasticsearch.client.RestHighLevelClient;import or

2021-11-15 11:55:06 3897

原创 05-关于文档的基本操作(重点)

关于文档的基本操作(重点)基本操作回顾基本操作1、添加数据PUT /kuangshen/user/1{ "name":"狂神说", "age":23, "desc":"一顿操作猛如虎", "tags":["技术宅","温暖","直男"]}PUT /kuangshen/user/2{ "name":"张三", "age":23, "desc":"法外狂徒", "tags":["交友","旅游","渣男"]}PUT /kuangshen/user/2{

2021-11-15 11:53:50 576

原创 04-Rest风格操作

Rest风格操作一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。测试1、创建一个索引PUT /索引名/~类型名~/文档id{请求体}2、完成了自动添加了索引!数据也成功的添加了,把它当成数据库来学习4、指定字段的类型5、获得规则! 可以通过GET 请求获取具体的信息!6、查看默认的信息~ 如果自己的文档字段没有指定,那么es就会给我们默认配置字段类型!

2021-11-15 11:52:07 275

原创 03-ES核心概念理解&IK分词器详解

ES核心概念理解1.索引2.字段类型(mapping)3.文档(documents)4.分片(倒排索引!)elasticsearch是面向文档 关系型数据库和elasticsearch客观的对比 一切都是JSON!elasticsearch(集群)中可以包含多个索引(数据库),每个索引中可以包含多个类型(表),每个类型下又包含多个文档(行),每个文档中又包含多个字段(列)。物理设计:elasticsearch在后台把每个索引划分成多个分片,每分分片可以在集群中的不同服务器间迁移一个人

2021-11-15 11:49:26 1095

原创 02- ES安装及head插件安装&Kibana的安装

ES安装及head插件安装声明:JDK1.8 ,最低要求! ElasticSearch客户端,界面工具!Java开发,ElasticSearch 的版本和我们之后对应的Java的核心jar包!版本对应!JDK环境是正常!下载官网:https://www.elastic.co/cn/下载地址:https://www.elastic.co/cn/downloads/elasticsearch官网下载巨慢,翻墙ELK三剑客,解压即用!window下安装1.解压2.熟悉目录!bin

2021-11-15 11:45:05 1701

原创 01-ElasticSerach简介

ElasticSerach简介本笔记 由b站狂神说java 视频 获取SQL : like %狂神说%,如果是的大数据,就十分慢!索引!ElasticSearch :搜索!(百度、github、淘宝电商 !)以后你只要需要用到搜索,就可以用ES!(基于大数据量的情况下使用!)聊聊Doug Cuttinghadoop也是他创的1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。无独有偶,一位名叫Doug Cutting的美国工程师,也迷上了搜

2021-11-15 11:40:24 342

原创 Sqoop学习

Sqoop的简介产生背景基于传统关系型数据库的稳定性,还是有很多企业将数据存储在关系型数据库中;早期由于工具的缺乏,Hadoop与传统数据库之间的数据传输非常困滩。基于前两个方面的考虑,需要一个在传统关系型数据库和Hadoop之间进行数据传输的项目,Sqoop应运而生。Sqoop是什么Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库)之间进行高效传输大批量数据的工具。它包括以下两个方面;可以使用Sqoop将数据从关系型数据库管理系统(如MySQL)导入到Hadoop系

2021-11-13 16:37:20 1890

原创 04-系统内置拦截器使用&自定义拦截器

系统内置拦截器使用在Flume运行过程中,Flume有能力在运行阶段修改/删除Event,这是通过拦截器((Interceptors)来实现的。拦截器有下面几个特点:拦截器需要实现org.apache.flume.interceptor.Interceptor接口。拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件。拦截器采用了责任链模式,多个拦截器可以按指定顺序拦截。一个拦截器返回的事件列表被传递给链中的下一个拦截器。如果一个拦截器需要删除事件,它只需要在返回的事件集中不包含要删除的

2021-11-13 13:01:14 580

原创 03-Flume的配置说明及案例演示

Flume的配置说明定义组件名称要定义单个代理中的流,您需要通过通道链接源和接收器。您需要列出给定代理的源,接收器和通道,然后将源和接收器指向一个通道。一个源实例可以指定多个通道,但是一个接收器实例只能指定一个通道。格式如下:# list the sources,sinks and channels for the agent<Agent>.sources = <Source><Agent>.sinks = <Sink><Agent>.

2021-11-13 12:41:37 2092

原创 02-Flume的安装

Flume的安装安装和配置环境变量准备软件包将apache-flume-1.8.0-bin.tar.gz 上传到linux系统中的/root/soft目录中解压软件包[root@tianqinglong01 soft]# pwd/root/soft[root@tianqinglong01 soft]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local更名操作[root@tianqinglong01 soft]# cd /usr/

2021-11-13 12:36:53 213

原创 01-Flume的简介

Flume的简介大数据的处理流程1.数据采集2数据存储3.数据清洗4.数据分析5.数据展示Flume的简介Fume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据横型,允许在线分析应用程序。fume 最开始是由cloudera开发的实时日志收集系统,受到了业界的认可与广泛应用。但随着fume功能的扩展,fum

2021-11-13 12:35:02 542

原创 11-hive的存储格式&索引&视图&数据压缩

hive的存储格式案例测试案例一:textfile案例二:sequencefile案例三:parquetrcfile 和 orcfile跟上述一样stored as rcfilestored as orcfilehive的索引概要索引的创建2 )创建索引create index index_rate2on table rate2(uid)as 'compact' -- 索引文件的存储格式with deferred rebuild -- 索引能够重建;

2021-11-10 09:32:09 463

原创 10-hive中序列化和反序列化简介

hive中序列化和反序列化简介serde简介hive的常用serdeLazySimpleSerDeCSVjson serde

2021-11-09 15:41:05 376

原创 09-hive中的分区表

hive中的分区表为什么分区Hive的Select查询时,一般会扫描整个表内容。随着系统运行的时间越来越长,表的数据量越来越大,而hive查询做全表扫描,会消耗很多时间,降低效率。而有时候,我们需求的数据只需要扫描表中的一部分数据即可。这样,hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询效率。如何分区根据业务需求而定,不过通常以年、月、日、小

2021-11-09 15:37:58 2920

原创 08-hive中的函数

hive内置函数在Hive中,函数主要分两大类型,一种是内置函数,一种是用户自定义函数。函数查看show functions;desc function functionName;日期函数1)当前系统时间函数: current_date(). current_timestamp()、unix_timestamp()-- 函数1:current_date();当前系统日期 格式:"yyyy-MM-dd"-- 函数2:current_timestomp();当前系统时问戳:格式:"yyy

2021-11-09 15:35:49 1159

原创 06-hive的shell技巧

hive的shell技巧只执行一次Hive命令通过shell的参数-e可以执行一次就运行完的命令[root@tianqinglong01 hive]# hive -e "select * from qfdb.t_user"[root@tianqinglong01 hive]# hive --database qfdb -e "select * from t_user"单独执行一个sql文件[root@tianqinglong01 ~]# vim query.hqlselect * from

2021-11-09 15:28:33 626

原创 05-Hive内部表和外部表

Hive内部表和外部表在hive中,表数据主要分为两种,第一种:内部表- 也叫管理表- 表目录会创建在集群上的{hive .metastore.warehouse.dir}下的相应的库对应的目录中。- 默认创建的表就是内部表第二种:外部表- 外部表需要使用关键字"external",- 外部表会根据创建表时LOCATION指定的路径来创建目录,- 如果没有指定LOCATION,则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。- 建表语法:必须指定关键字external.c

2021-11-09 15:27:13 798

原创 04-Hive表数据导入和导出

Hive表数据导入[root@tianqinglong01 hive]# mkdir /hivedata[root@tianqinglong01 hive]# cd hivedata[root@tianqinglong01 hivedata]# vi user.txt1,张三2,李四3,王五hive>create database if not exists t_user(id int,name string)row format delimitedfields termin

2021-11-09 15:26:01 473

原创 03-hive的数据库操作

hive的数据库操作规则语法大小写规则:1. hive的数据库名、表名都不区分大小写2. 建议关键字大写命名规则:1.名字不能使用数字开头2.不能使用关键字3.尽量不使用特殊符号库操作语法hive> create database test;hive> create database if not exist test;hive> create database if not exist test comment "this is a comment";

2021-11-09 15:23:36 801

原创 02-Hive的安装

Hive的安装内嵌模式使用hive自带默认元数据库derby来进行存储,通常用于测试1.优点:使用简单,不用进行配置2.缺点:只支持单session。安装步骤(tianqinglong02)[root@tianqinglong02 ~]# tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local[root@tianqinglong02 ~]# cd /usr/local[root@tianqinglong02 local]# mv apach

2021-11-09 15:22:25 1008

原创 01-Hive简介

Hive简介什么是hivehive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类sql的方式来对这样的数据文件进行读,写以及管理(包括元数据)。这套HIVE SQL简称HQL。hive的执行引擎可以是MR。spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。用户可以使用命令行工具或JDBC驱动程序来连接到hive。为什么要使用hive- 人员学习成本高- 项目周期要求太短- Map

2021-11-09 15:18:54 261 2

原创 YARN学习

文章目录YARN的概述MapReduce 1.x的简介yarn的设计思想YARN的架构及组件YARN的配置历史服务YARN的job提交流程YARN的案例提交YARN的概述MapReduce 1.x的简介了解一下 因为已经过时了~第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和

2021-11-06 23:59:57 593

原创 Zookeeper学习

文章目录zookeeper概述zookeeper是什么zookeeper的特点zookeeper的数据模型zookeeper的应用场景Zookeeper安装zookeeper的shell操作zookeeper概述zookeeper是什么1. zookeper是一个为分布式应用程序提供的一个分布式开源协调服务框架。是Google的Chuby的一个开源实现。是Hadoop和Hbase的重要组件。主要用于解决分布式集群中应用系统的一致性问题。2.提供了基于类似Unix系统的目录节点树方式的数据存储。3.

2021-11-06 23:56:52 95

原创 Hadoop学习

为什么要用Hadoop现在的我们,生活在数据大爆炸的年代。2020年,全球的数据总量达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。扩展:数据大小单位,从小到大分别是:byte,kb、mb、Gb、Tb、PB、EB、ZB、DB、NB…单位之间的转换都是满足1024为了解决大数据的处理问题,为了解决大数据的存储问题Hadoop的简要介绍Hadoop是Apache基金会旗下一个开源的分布式存储和分析计算平台,使用jvai语言开发,具有很好的跨平台性

2021-11-06 23:52:45 357

原创 Nginx入门

Nginx简介本笔记 由b站狂神说java 视频 获取什么是NginxNginx (engine x)是一个高性能的HTTP和反向代理web般务器,同时也提供了IMAP/POP3/SMTP服务。其特点是占有内存少,并发能力强,事实上ngino的并发能力在同类型的网页股务器中表现较好,中国大陆使用nginx网钻用户有:百度、京东、新浪、网易、腾讯、淘宝等。在全球活跃的网站中有12.18关的使用比率,大约为2220万个网站。Nginx是一个安装非常的简单、配置文件非常简洁(还能够支持perl

2021-11-02 11:49:26 1844

原创 08-Config学习

Config:Git环境搭建自己话理解:把配置放在码云上,然后去引用,这样就不用一个一个改配置了,就在码云上改就行~1.gitee 创建一个仓库2.git clone3.写一个application.yml4.提交git add .git commit -m “信息”git push origin masterspring: profiles: active: dev---spring: profiles: dev application: nam

2021-11-01 17:40:37 119

原创 07-Zuul:路由网关

Zuul:路由网关概述Zuul包含了对请求的路由和过滤两个最主要的功能:其中路由功能负责将外部请求转发到具体的微服务实例上,是实现外部访问统一入口的基础,而过滤器功能则负责对请求的处理过程进行干预,是实现请求校验,服务聚合等功能的基础。Zuul和Eureka进行整合,将Zuul自身注册为Eureka服务治理下的应用,同时从Eureka中获得其他微服务的消息,也即以后的访问微服务都是通过Zuul跳转后获得。注意:Zuul服务最终还是会注册进Eureka提供:代理+路由+过滤三大功能!第一步、n

2021-11-01 17:39:32 100

原创 06-Hystrix:服务垄断&服务降级&Dashboard流监控

Hystrix:服务垄断分布式系统面临的问题复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免的失败!服务雪崩多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的“扇出"、如果扇出的链路上某个微服务的调用响应时间过长或者不可用,对微服务A的调用就会占用越来越多的系统资源。进而引起系统崩溃,所谓的“雪崩效应"。对于高流量的应用来说,单一的后端依赖可能会导致所有服务器上的所有资源都在几秒中内饱和。比失败更糟糕

2021-11-01 17:38:57 247

原创 05-Feign负载均衡

Feign负载均衡feign是声明式的web service客户端,它让微服务之间的调用变得更简单了,类似controller调用service。SpringCloud集成了Ribbon和Eureka,可在使用Feign时提供负载均衡的http客户端,只需要创建一个接口,然后添加注解即可!1.微服务名字【ribbon]2.接口和注解【feign ]feign 能干什么在Feign的实现下,我们只需要创建一个接口并使用注解的方式来配置它(类似于以前Dao接口上标注Mapper注解,现在是一个微

2021-11-01 17:35:28 420

原创 04-负载均衡及Ribbon&自定义负载均衡算法

负载均衡及Ribbonribbon是什么?Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端负载均衡的工具。ribbon能干吗?LB,即负载均衡(Load Balance),在微服务或分布式集群中经常用的一种应用。负载均衡简单的说就是将用户的请求平摊的分配到多个服务上,从而达到系统的HA(高可用)。常见的负载均衡软件有Nginx, Lvs等等dubbo、SpringCloud中均给我们提供了负载均衡,SpringCloud的负载均衡算法可以自定义

2021-11-01 17:33:46 161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除