2021年11月_xixihaha_coder

原创 07-仿京东搜索

京东搜索：项目搭建1、new springboot 导入依赖 <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.61</version> </dependency> <dependency> <groupId>org.spr

2021-11-15 11:56:12 1730

springboot集成ES详解1、new springboot项目（看项目记得配环境，如jdk）问题：一定要保证我们导入的依赖和我们es版本一致编写config配置类package com.kuang.config;import org.apache.http.HttpHost;import org.elasticsearch.client.RestClient;import org.elasticsearch.client.RestHighLevelClient;import or

2021-11-15 11:55:06 3897

原创 05-关于文档的基本操作(重点)

关于文档的基本操作(重点)基本操作回顾基本操作1、添加数据PUT /kuangshen/user/1{ "name":"狂神说", "age":23, "desc":"一顿操作猛如虎", "tags":["技术宅","温暖","直男"]}PUT /kuangshen/user/2{ "name":"张三", "age":23, "desc":"法外狂徒", "tags":["交友","旅游","渣男"]}PUT /kuangshen/user/2{

2021-11-15 11:53:50 576

原创 04-Rest风格操作

Rest风格操作一种软件架构风格，而不是标准，只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次,更易于实现缓存等机制。测试1、创建一个索引PUT /索引名/~类型名~/文档id{请求体}2、完成了自动添加了索引！数据也成功的添加了，把它当成数据库来学习4、指定字段的类型5、获得规则！可以通过GET 请求获取具体的信息！6、查看默认的信息~ 如果自己的文档字段没有指定，那么es就会给我们默认配置字段类型！

2021-11-15 11:52:07 275

原创 03-ES核心概念理解&IK分词器详解

ES核心概念理解1.索引2.字段类型（mapping）3.文档（documents）4.分片（倒排索引！）elasticsearch是面向文档关系型数据库和elasticsearch客观的对比一切都是JSON！elasticsearch(集群)中可以包含多个索引(数据库)，每个索引中可以包含多个类型(表)，每个类型下又包含多个文档(行)，每个文档中又包含多个字段(列)。物理设计：elasticsearch在后台把每个索引划分成多个分片，每分分片可以在集群中的不同服务器间迁移一个人

2021-11-15 11:49:26 1095

原创 02- ES安装及head插件安装&Kibana的安装

ES安装及head插件安装声明：JDK1.8 ，最低要求! ElasticSearch客户端，界面工具！Java开发，ElasticSearch 的版本和我们之后对应的Java的核心jar包!版本对应!JDK环境是正常!下载官网：https://www.elastic.co/cn/下载地址：https://www.elastic.co/cn/downloads/elasticsearch官网下载巨慢，翻墙ELK三剑客，解压即用！window下安装1.解压2.熟悉目录！bin

2021-11-15 11:45:05 1701

原创 01-ElasticSerach简介

ElasticSerach简介本笔记由b站狂神说java 视频获取SQL : like %狂神说%，如果是的大数据，就十分慢!索引!ElasticSearch :搜索!（百度、github、淘宝电商！)以后你只要需要用到搜索，就可以用ES！（基于大数据量的情况下使用！）聊聊Doug Cuttinghadoop也是他创的1998年9月4日，Google公司在美国硅谷成立。正如大家所知，它是一家做搜索引擎起家的公司。无独有偶，一位名叫Doug Cutting的美国工程师，也迷上了搜

2021-11-15 11:40:24 342

原创 Sqoop学习

Sqoop的简介产生背景基于传统关系型数据库的稳定性，还是有很多企业将数据存储在关系型数据库中;早期由于工具的缺乏，Hadoop与传统数据库之间的数据传输非常困滩。基于前两个方面的考虑，需要一个在传统关系型数据库和Hadoop之间进行数据传输的项目,Sqoop应运而生。Sqoop是什么Sqoop是一个用于Hadoop和结构化数据存储(如关系型数据库）之间进行高效传输大批量数据的工具。它包括以下两个方面;可以使用Sqoop将数据从关系型数据库管理系统(如MySQL)导入到Hadoop系

2021-11-13 16:37:20 1890

原创 04-系统内置拦截器使用&自定义拦截器

系统内置拦截器使用在Flume运行过程中,Flume有能力在运行阶段修改/删除Event，这是通过拦截器（(Interceptors)来实现的。拦截器有下面几个特点:拦截器需要实现org.apache.flume.interceptor.Interceptor接口。拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件。拦截器采用了责任链模式，多个拦截器可以按指定顺序拦截。一个拦截器返回的事件列表被传递给链中的下一个拦截器。如果一个拦截器需要删除事件，它只需要在返回的事件集中不包含要删除的

2021-11-13 13:01:14 580

原创 03-Flume的配置说明及案例演示

Flume的配置说明定义组件名称要定义单个代理中的流，您需要通过通道链接源和接收器。您需要列出给定代理的源，接收器和通道，然后将源和接收器指向一个通道。一个源实例可以指定多个通道，但是一个接收器实例只能指定一个通道。格式如下:# list the sources,sinks and channels for the agent<Agent>.sources = <Source><Agent>.sinks = <Sink><Agent>.

2021-11-13 12:41:37 2092

原创 02-Flume的安装

Flume的安装安装和配置环境变量准备软件包将apache-flume-1.8.0-bin.tar.gz 上传到linux系统中的/root/soft目录中解压软件包[root@tianqinglong01 soft]# pwd/root/soft[root@tianqinglong01 soft]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /usr/local更名操作[root@tianqinglong01 soft]# cd /usr/

2021-11-13 12:36:53 213

原创 01-Flume的简介

Flume的简介大数据的处理流程1.数据采集2数据存储3.数据清洗4.数据分析5.数据展示Flume的简介Fume是一种分布式的，可靠的、高可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据横型，允许在线分析应用程序。fume 最开始是由cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。但随着fume功能的扩展，fum

2021-11-13 12:35:02 542

原创 11-hive的存储格式&索引&视图&数据压缩

hive的存储格式案例测试案例一：textfile案例二：sequencefile案例三：parquetrcfile 和 orcfile跟上述一样stored as rcfilestored as orcfilehive的索引概要索引的创建2 ）创建索引create index index_rate2on table rate2(uid)as 'compact' -- 索引文件的存储格式with deferred rebuild -- 索引能够重建;

2021-11-10 09:32:09 463

原创 10-hive中序列化和反序列化简介

hive中序列化和反序列化简介serde简介hive的常用serdeLazySimpleSerDeCSVjson serde

2021-11-09 15:41:05 376

原创 09-hive中的分区表

hive中的分区表为什么分区Hive的Select查询时，一般会扫描整个表内容。随着系统运行的时间越来越长，表的数据量越来越大，而hive查询做全表扫描，会消耗很多时间，降低效率。而有时候，我们需求的数据只需要扫描表中的一部分数据即可。这样，hive在建表时引入了partition概念。即在建表时，将整个表存储在不同的子目录中，每一个子目录对应一个分区。在查询时，我们就可以指定分区查询，避免了hive做全表扫描,从而提高查询效率。如何分区根据业务需求而定,不过通常以年、月、日、小

2021-11-09 15:37:58 2920

原创 08-hive中的函数

hive内置函数在Hive中，函数主要分两大类型，一种是内置函数，一种是用户自定义函数。函数查看show functions;desc function functionName;日期函数1）当前系统时间函数: current_date(). current_timestamp()、unix_timestamp()-- 函数1:current_date();当前系统日期格式:"yyyy-MM-dd"-- 函数2:current_timestomp();当前系统时问戳:格式:"yyy

2021-11-09 15:35:49 1159

原创 06-hive的shell技巧

hive的shell技巧只执行一次Hive命令通过shell的参数-e可以执行一次就运行完的命令[root@tianqinglong01 hive]# hive -e "select * from qfdb.t_user"[root@tianqinglong01 hive]# hive --database qfdb -e "select * from t_user"单独执行一个sql文件[root@tianqinglong01 ~]# vim query.hqlselect * from

2021-11-09 15:28:33 626

原创 05-Hive内部表和外部表

Hive内部表和外部表在hive中，表数据主要分为两种，第一种：内部表- 也叫管理表- 表目录会创建在集群上的{hive .metastore.warehouse.dir}下的相应的库对应的目录中。- 默认创建的表就是内部表第二种：外部表- 外部表需要使用关键字"external"，- 外部表会根据创建表时LOCATION指定的路径来创建目录,- 如果没有指定LOCATION，则位置跟内部表相同,一般使用的是第三方提供的或者公用的数据。- 建表语法:必须指定关键字external.c

2021-11-09 15:27:13 798

原创 04-Hive表数据导入和导出

Hive表数据导入[root@tianqinglong01 hive]# mkdir /hivedata[root@tianqinglong01 hive]# cd hivedata[root@tianqinglong01 hivedata]# vi user.txt1，张三2，李四3，王五hive>create database if not exists t_user(id int,name string)row format delimitedfields termin

2021-11-09 15:26:01 473

原创 03-hive的数据库操作

hive的数据库操作规则语法大小写规则：1. hive的数据库名、表名都不区分大小写2. 建议关键字大写命名规则：1.名字不能使用数字开头2.不能使用关键字3.尽量不使用特殊符号库操作语法hive> create database test;hive> create database if not exist test;hive> create database if not exist test comment "this is a comment";

2021-11-09 15:23:36 801

原创 02-Hive的安装

Hive的安装内嵌模式使用hive自带默认元数据库derby来进行存储,通常用于测试1．优点:使用简单，不用进行配置2．缺点:只支持单session。安装步骤(tianqinglong02)[root@tianqinglong02 ~]# tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local[root@tianqinglong02 ~]# cd /usr/local[root@tianqinglong02 local]# mv apach

2021-11-09 15:22:25 1008

原创 01-Hive简介

Hive简介什么是hivehive是一个构建在Hadoop上的数据仓库工具(框架)，可以将结构化的数据文件映射成一张数据表，并可以使用类sql的方式来对这样的数据文件进行读，写以及管理(包括元数据)。这套HIVE SQL简称HQL。hive的执行引擎可以是MR。spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。用户可以使用命令行工具或JDBC驱动程序来连接到hive。为什么要使用hive- 人员学习成本高- 项目周期要求太短- Map

2021-11-09 15:18:54 261 2

原创 YARN学习

文章目录YARN的概述MapReduce 1.x的简介yarn的设计思想YARN的架构及组件YARN的配置历史服务YARN的job提交流程YARN的案例提交YARN的概述MapReduce 1.x的简介了解一下因为已经过时了~第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，MapReduce由一个JobTracker和多个TaskTracker组成，对应Hadoop版本为Hadoop 1.x和

2021-11-06 23:59:57 593

原创 Zookeeper学习

文章目录zookeeper概述zookeeper是什么zookeeper的特点zookeeper的数据模型zookeeper的应用场景Zookeeper安装zookeeper的shell操作zookeeper概述zookeeper是什么1. zookeper是一个为分布式应用程序提供的一个分布式开源协调服务框架。是Google的Chuby的一个开源实现。是Hadoop和Hbase的重要组件。主要用于解决分布式集群中应用系统的一致性问题。2．提供了基于类似Unix系统的目录节点树方式的数据存储。3．

2021-11-06 23:56:52 95

xixihaha_coder的博客