大数据
YongYu_IT
区块链,分布式系统
展开
-
ES基本用法
ES基本用法查询所有索引查询索引下所有数据查询所有索引curl '0.0.0.0:9200/_cat/indices?v'查询索引下所有数据假设上一步查询到“fuck_index”索引curl -XPOST http://10.107.118.18:9200/fuck_index/_search -H 'Content-Type:application/json' -d'{ "query": { "match_all": {} }}'...原创 2021-10-20 10:17:26 · 479 阅读 · 0 评论 -
如何在CRUD时判断表是否存在(MySQL)
select * from tb_token where exists (SELECT table_name FROM information_schema.tables where table_name='tb_token');原创 2021-09-07 09:57:17 · 106 阅读 · 0 评论 -
docker快速安装oracle
$ docker run --name oracle_11g -p 1521:1521 -d registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g$ docker exec -it oracle_11g bash$ su #helowin# su - oracle$ sqlplus /nologSQL> exit$ su #helowin# vi /etc/profileexport ORACLE_HOME=/home/oracl原创 2020-12-28 09:50:11 · 134 阅读 · 1 评论 -
Ambari——Hadoop生态集群搭建、管理、运维神器
AmbariApache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqo...转载 2019-07-25 14:46:37 · 537 阅读 · 0 评论 -
Spark RDD操作总结
转换类filter:遍历+筛选call函数每次输入一个rdd内的元素;输出bool值,真则保留,假则抛弃。最终filter将会得到对原rdd全部筛选一遍后的结果rddmap:遍历+转换call函数每次输入一个rdd内的元素;输出根据输入元素转换之后的值。最终map将会输出全部元素转换之后的rdd。例如,原RDD={1,2,3,4,5},call转换规则是x/10,map之后的R...原创 2019-07-25 19:29:50 · 428 阅读 · 0 评论 -
kettle安装
上官网下载最新(稳定版)的压缩包$ wget https://nchc.dl.sourceforge.net/project/pentaho/Pentaho%208.3/client-tools/pdi-ce-8.3.0.0-371.zip$ unzip pdi-ce-8.3.0.0-371.zip安装libwebkitgtk-1.0-0$ sudo apt-get instal...原创 2019-08-08 15:40:12 · 385 阅读 · 0 评论 -
kettle基本使用:把数据从一个数据库的一张表抽取到另一个数据库的另一张表
0、准备两个数据库实例(最好位于两台不同的数据库服务器),每个实例中创建好源表和目标表源表CREATE TABLE `test_0`.`stu_info` ( `stuNum` VARCHAR(128) NOT NULL COMMENT '学号', `stuName` VARCHAR(45) NOT NULL COMMENT ' 姓名', `stuAge` VARCHAR(4...原创 2019-08-08 18:29:06 · 6456 阅读 · 0 评论 -
窗口函数
作用以当前行R为基准,关联出若干行mR(窗口),对mR进行聚合,计算出聚合值x,将x附加到R上。窗口由关键字over指定聚合操作支持所有内置和自定义的聚合函数,还支持几个特有的函数,如:row_number,rank,lag,lead本质替代关联和子查询的简写语法窗口范围指定全表数据over():窗口为全表数据over( order by B):全表根据B排序,...原创 2019-08-12 17:21:23 · 193 阅读 · 0 评论 -
docker快速安装PostgreSQL
到https://hub.docker.com上检索pg相关的docker img$docker run --name YongPG -e POSTGRES_PASSWORD=123456 -e POSTGRES_USER=yuyong -p 5432:5432 -d postgres在Ubuntu上使用navicat下载linux版navicat$ cd navicat121_...原创 2019-08-12 17:47:01 · 268 阅读 · 0 评论 -
HBase协处理器
HBase协处理器简介作用类似于存储过程和触发器。在服务端运行,减少服务器/客户端IO类型类似于存储过程的“终端程序”(EndPoint)类似于触发器的“观察者”(Observers)协处理器家族观察者RegionObserver:针对region,监听关于region的操作RegionServerObserver:针对region服务器,监听整个Regio...原创 2019-07-18 10:19:01 · 547 阅读 · 0 评论 -
Spark Standalone集群部署
集群管理器spark集群和Hadoop集群类似,采取主从结构,有两类节点:集群管理者Master节点(也叫驱动器(Driver)节点)。Master负责集群资源管理,接收spark job并分布到各个计算节点上进行计算。在集群中起到支配作用。一个集群中,活跃的Master只能有一个(HA部署下,可能有多个在热备)!在Spark集群中,Master节点负责执行org.apache.s...原创 2019-07-12 16:27:24 · 313 阅读 · 0 评论 -
伪分布式部署Hadoop
#### install java$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz$ tar xzf hadoop-3.1.2.tar.gz$ gedit ~/.bashrcexport HADOOP_HOME=/mnt/hgfs/hadoop...原创 2019-06-03 17:12:48 · 296 阅读 · 0 评论 -
全分布式部署Hadoop集群
1、集群规划由于HDFS默认最小复制原则是3份复制,所以规划3个数据节点(datanode),另外规划多一个独立的master运行namenode及相关的集群管理工作网络规划:192.168.186.213 mymaster192.168.186.214 worker1192.168.186.215 worker2192.168.186.216 worke...原创 2019-06-11 15:20:21 · 337 阅读 · 0 评论 -
HBase的结构
HBase的取舍放弃对类似RDBMS复杂查询(核心是join)的支持,采用简单的API进行简单的CRUD,再加上一个扫描函数实现全表扫描。再次明确:HBase不支持表关联。为了实现类似关联操作,HBase可接受采取反范式设计,即冗余存储表,行,列族,列,单元格行键 列族1 列族2 列族n row_key_1 列1 列2 列n1 ...原创 2019-06-26 15:53:47 · 2001 阅读 · 0 评论 -
HBase模式设计
设计重点HBase模式的重点有两个:Rowkey 和 Column FamilyRowkey的设计Rowkey设计是HBase模式设计中最重要的事情1、HBase数据基于Rowkey有序存储。Rowkey是HBase表的唯一索引,借助Rowkey对HBase表的访问能实现高效的二分查找,非Rowkey的访问只能通过全表扫描实现。2、region根据有序的Rowkey进行划分...原创 2019-06-28 10:36:55 · 514 阅读 · 0 评论 -
伪分布式部署HBase(基于伪分布式Hadoop)
$ wget http://mirror.bit.edu.cn/apache/hbase/2.1.5/hbase-2.1.5-bin.tar.gz$ tar -zxvf hbase-2.1.5-bin.tar.gz$ cd hbase-2.1.5/conf$ gedit hbase-site.xml##<property># <name>hbase.clus...原创 2019-06-13 17:56:28 · 335 阅读 · 0 评论