大数据其他技术栈
文章平均质量分 60
大数据其他技术栈
大数据私房菜
这个作者很懒,什么都没留下…
展开
-
logstash采集数据到es
日志格式:{"Q1":62442457475833333,"Q2":2016811232228686,"date":1556186700487}logstash配置文件:input { kafka { zk_connect => "localhost:2181" group_id => "test" topic_id => "test"...原创 2019-04-26 11:28:01 · 6248 阅读 · 0 评论 -
logstash之grok解析
原始日志文件[2019-01-14 00:02:11] [INFO] - com.test.pushTest(PushMessageExecutor.java:103) - 消息推送结果:响应状态(200)、状态描述(成功。)、响应反馈()、请求响应耗时(232ms),deviceToken:7b64436eeea34a3ab4e0873b0682ad98e,userId:1659034,a...原创 2019-01-17 10:22:49 · 2740 阅读 · 0 评论 -
python脚本监控logstash进程并邮件告警
supervisor虽然也能拉起来logstash进程,但是有时候supervisor也会挂,也有时会拉不起,就算拉起来了也没有邮件告警功能,所以编写一个python脚本监控所有服务器,以下代码只列举了一台服务器,需要更多服务器在列表里面添加就行!(日志采集过程中连续几天数据异常,由于服务器太多,当时不太想一一去将近40台服务器查看logstash进程,但又一直查不出原因,后来就每台服务器查...原创 2018-12-24 14:36:25 · 925 阅读 · 1 评论 -
Logstash安装及使用
目录1 简介1.1 Inputs1.1.1 Input plugins1.2 Filters1.3 Output1.3.1 Output plugins1.3.2 Csv输出插件示例1.4 Logstash特点1.4.1 即插即用1.4.2 可扩展性1.4.3 耐用性和安全性1.4.4 检测1.4.5 管理与检查2 安装2.1 下载...原创 2018-08-18 13:40:14 · 12593 阅读 · 2 评论 -
Mysql5.6占用内存过高解决方案
最新购买的阿里云服务器单核2G,但是一安装mysql就占用了22.5%的内存,这是我们不希望的查看内存占用情况命令: top -c 然后再输入M修改my.cnffind / -name my.cnfperformance_schema_max_table_instances=200table_definition_cache=200table_open_cache=...原创 2019-07-04 19:08:28 · 4529 阅读 · 2 评论 -
linux清理缓存的命令
查看缓存的命令 free -m清理缓存的命令 echo 1 >/proc/sys/vm/drop_caches echo 2 >/proc/sys/vm/drop_caches echo 3 >/proc/sys/vm/drop_caches...原创 2019-07-03 23:34:50 · 20605 阅读 · 0 评论 -
免密SSH登录
2台服务器之间拷贝文件scp install.log [email protected]:/home/但是需要输入密码,比较麻烦,难以实现自动化操作假如 A 要登陆 B在A上操作:%%首先生成密钥对:ssh-keygen -t rsa (提示时,直接回车即可, -t rsa为加密算法,可以不写)%%再将A自己的公钥拷贝并追加到B的授权列表文件a...原创 2019-07-03 21:08:33 · 142 阅读 · 0 评论 -
oracle客户端安装
1.下载安装包https://www.oracle.com/database/technologies/instant-client/downloads.html下载 instantclient-basic-linux.x64-11.2.0.4.0.zip instantclient-sdk-linux.x64-11.2.0.4.0.zip in...原创 2019-07-08 23:23:12 · 4446 阅读 · 0 评论 -
scala方法和函数
方法1,定义方法的关键字,def格式: def 方法的名称(参数列表):返回值类型 = {方法体内容}2,方法的返回值,最后一行的内容,如果是循环,那么返回值是 Unit3,如果空参方法,定义的时候有(),调用的时候可以省略(),如果定义的时候没有(),调用方法的时候,不能加()4,方法的返回值类型,可以省略,但是特殊情况下,必须加上:4.1,方法有 return 关键字4....原创 2019-04-03 11:25:19 · 264 阅读 · 0 评论 -
scala基础教程
目录1 if2 for3 while4 元组 Tuple4.1 定义方式4.2 取值4.3 对偶元祖4.4 元组交换swap5 数组Array6 序列List6.1 不可变序列6.2 可变序列(需导包)7 Map映射7.1 不可变集合7.2 可变集合7.2.1 创建集合7.2.2 添加元素7.3 取值7.4 遍历7....原创 2019-04-03 11:30:59 · 584 阅读 · 0 评论 -
Scala编程基础
目录一 Scala概述1.1 什么是scala1.2 为什么要学scala1.3 Spark函数式编程初体验二 Scala开发环境2.1 安装JDK2.2 安装Scala2.2.1 Windows安装Scala编译器2.2.2 Linux中安装Scala编译器2.3 IDEA安装2.4 Scala插件离线安装2.5 IDEA创建Scala工程...原创 2018-08-10 22:37:03 · 1436 阅读 · 0 评论 -
sqoop安装及使用
目录1 概述2 工作机制3 sqoop实战及原理3.1 sqoop安装3.1.1 下载并解压3.1.2 修改配置文件3.1.3 加入mysql的jdbc驱动3.1.4 验证启动4 sqoop的数据导入导出5 sqoop原理概述1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,O...原创 2018-08-14 07:30:36 · 2876 阅读 · 0 评论 -
sqoop or datax
1前言 sqoop和datax作为2款优秀的数据同步工具,备受数据开发人员喜爱,如何选择也是件非常头疼的事,下面就这两种工具来分析分析吧...2sqoop1定义 sqoop 是 apache 旗下一款“Hadoop中的各种存储系统(HDFS、HIVE、HBASE) 和关系数据库(mysql、oracle、sqlserver等)服务器之间传送数据”的工具。 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等...原创 2020-09-12 22:54:44 · 1660 阅读 · 0 评论 -
kafka基础
目录1 kafka是什么2 JMS是什么2.1 JMS的基础2.2 JMS消息传输模型2.3 JMS核心组件2.4 常见的JMS消息服务器2.4.1 JMS消息服务器ActiveMQ2.4.2 分布式消息中间件Metamorphosis2.4.3 分布式消息中间件RocketMQ2.4.4 其他MQ3 为什么需要消息队列4 kafka核心组件...原创 2018-08-16 08:43:41 · 448 阅读 · 0 评论 -
kafka技术增强
目录1 kafka整体结构图2 Consumer与topic关系3 kafka消息的分发4 Consumer的负载均衡5 kafka文件存储机制5.1 kafka文件存储基本结构5.2 kafka Partition Segment5.3 kafka查找message5.3.1 查找segment file5.3.2 通过segment file查找m...原创 2018-08-17 08:30:16 · 449 阅读 · 0 评论 -
IDEA自动生成println
sout + Tab // 自动生成System.out.println();原创 2020-05-19 13:48:56 · 282 阅读 · 0 评论 -
IDEA自动生成public static void main
psvm + Tab原创 2020-05-19 13:49:40 · 1344 阅读 · 0 评论 -
IDEA自动添加未定义的方法
Alt + Enter原创 2020-05-19 13:50:26 · 542 阅读 · 0 评论 -
Hbase从入门到入坑
目录一 什么是HBASE二 安装HBASE三 hbase初体验四 HBASE客户端API操作五 HBASE运行原理5.1 master职责5.2 Region Server 职责5.3 zookeeper集群所起作用5.4 HBASE读写数据流程5.5 hbase:meta表5.6 Region Server内部机制一 什么是HBASEH...原创 2018-08-06 13:59:20 · 12554 阅读 · 0 评论 -
HBase-Rowkey设计
1什么是Rowkey Hbase中一条数据的唯一标识就是Rowkey,类似于关系型数据库中的主键,HBase中的数据是根据Rowkey的字典顺序来排序的。 那么这条数据存储于哪个分区,取决于Rowkey处于哪一个预分区的区间内,设计Rowkey的主要目的 ,就是让数据均匀的分布于所有的Region中,在一定程度上防止数据倾斜。尽量在访问的时候不会出现热点现象2什么是热点 因为HBase中的行是按照Rowkey的字典顺序排序...原创 2020-10-15 17:25:11 · 570 阅读 · 1 评论 -
你要悄悄学会HBase,然后惊艳所有人(1.7万字建议收藏)
1HBase简介 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBASE利用Had...原创 2020-11-19 14:47:49 · 846 阅读 · 2 评论 -
kylin安装遇到的问题及解决方案
1.ERROR [main] curator.ConnectionState:200 : Connection timed out for connection string (hdp-01:2181:2181) and timeout (15000) / elapsed (89115)原因:没有解析到zk的集群地址解决方案:添加配置kylin.properties添加到文件:ky...原创 2019-07-07 00:11:28 · 4240 阅读 · 0 评论 -
Kylin基础应用及优化
目录1.Apache Kylin概述1.1 apache kylin的工作原理1.1.1 维度和度量简介1.1.2 Cube和Cuboid1.1.3 工作原理1.2 apache kylin的技术架构1.3 apache kylin的主要特点2 快速入门2.1 核心概念2.1.1 数据仓库,OLAP与BI2.1.2 维度和度量2.1.3 事实表和...原创 2019-06-24 23:08:25 · 1193 阅读 · 5 评论 -
面试官Kylin夺命十三问
一 数据准备 create table wedw_dw.t_kylin_test_df( province_id string ,city_id string ,hosp_id string ,user_id string ,date_id string ,amt double ) row format delimited fields terminated by ', 浙江,杭州,浙一,小明,20...原创 2021-02-03 19:45:33 · 527 阅读 · 0 评论 -
hbase整合pheonix
Phoenix,由saleforce.com 开源的一个项目,后又捐给了Apache。它相当于一个Java 中间件,帮助开发者,像使用jdbc 访问关系型数据库一样,访问NoSql 数据库HBase。Apache Phoenix 与其他Hadoop 产品完全集成,如Spark,Hive,Pig,Flume 和MapReduce。一.安装pheonix1.1 下载pheonixhtt...原创 2019-07-01 10:13:19 · 960 阅读 · 0 评论 -
Filebeat的入门安装使用
日志采集的工具有很多种,如logagent, flume, logstash,betas等等。首先要知道为什么要使用filebeat呢?因为logstash是jvm跑的,资源消耗比较大,启动一个logstash就需要消耗500M左右的内存,而filebeat只需要10来M内存资源。常用的ELK日志采集方案中,大部分的做法就是将所有节点的日志内容通过filebeat送到kafka消息队列,然后使用l...原创 2019-05-10 23:12:53 · 2202 阅读 · 0 评论 -
ruby不同数据类型之间的相互转换
ruby的整数、浮点数、字符串的类均提供了to_i,to_f,to_s三个方法浮点数转换成整数,只保留整数部分irb(main):138:0> 3.5.8.to_i=> 3整数转换成浮点数,会添加小数点和0irb(main):147:0> 3.to_f=> 3.0整数转换成字符串,会加上双引号irb(main):151:0> 3.to...原创 2019-02-13 11:10:45 · 3315 阅读 · 0 评论 -
MongoDb的“not master and slaveok=false”错误及解决方法
报错信息如下图:错误代码:Error: error: { "$err" : "not master and slaveOk=false", "code" : 13435 }这是正常的,因为SECONDARY是不允许读写的,如果非要解决,方法如下:执行如下命令:health_record_new:SECONDARY> rs.slaveOk()...原创 2019-01-08 10:11:00 · 1736 阅读 · 0 评论 -
shell编程基础
目录1 shell介绍1.1 什么是shell1.2 shell脚本的执行方式2 shell中的变量2.1 系统变量2.2定义变量2.3 将命令的返回值赋给变量2.4 特殊变量3 运算符4 流程控制4.1 for循环4.2 while循环4.3 case4.4 if判断4.5 常用判断条件5 read命令6 shell自定...原创 2018-09-03 16:05:06 · 1195 阅读 · 0 评论 -
Kibana安装
目录1 Kibana介绍2 Kibana安装2.1 下载2.2 上传到服务器并解压2.3 修改配置文件2.4 启动1 Kibana介绍Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看、交互存放在Elasticsearch索引里的数据,使用各种不同的图表、表格、地图等kibana能够很轻...原创 2018-08-18 15:56:18 · 212 阅读 · 0 评论 -
azkaban介绍及使用
目录一 概述1.1 为什么需要工作流调度系统1.2 工作流调度实现方式1.3 常见工作流调度系统1.4 各种调度工具特性对比1.5 Azkaban与Oozie对比2 Azkaban介绍3 Azkaban安装部署准备工作安装azkaban web服务器安装azkaban执行服器安装创建SSL配置配置文件启动4 Azkaban实战...原创 2018-08-13 19:34:41 · 3203 阅读 · 0 评论 -
Flume日志采集
目录一 前言二 概述2.1 什么是Flume2.2 Flume特性三 Flume原理3.1 Flume组件详解3.2 Flume采集结构图3.2.1 简单结构3.2.2 复杂结构4 Flume实战案例4.1 Flume的安装部署4.2 采集案例4.2.1 采集目录到HDFS4.2.2 采集文件到HDFS4.3 更多source和si...原创 2018-08-08 15:21:36 · 14648 阅读 · 3 评论 -
Elasticsearch安装
目录一.注意1.JDK需要安装1.8及以上的2.必须使用非root用户运行3.Centos7最佳,centos6需要增加额外配置二.安装步骤下载安装包解压安装包在解压目录中运行bin/elasticsearch命令可能遇到的问题4.1 max file descriptors [4096] for elasticsearch process is to...原创 2018-08-05 16:52:37 · 1012 阅读 · 0 评论 -
Superset从入门到真香
一 superset概述1.1官网https://superset.apache.org/1.2简介Superset快速,轻巧,直观,并带有各种选项,使各种技能的用户都可以轻松浏览和可视化其数据,从简单的折线图到高度详细的地理空间图。Apache Superset(Incubating)是一种现代的,可用于企业的商业智能Web应用程序。它快速,轻巧,直观,并带有各种选项,使所有技能的用户都可以轻松浏览和可视化其数据,从简单的饼图到高度详细的deck.gl...原创 2021-02-03 19:13:58 · 25297 阅读 · 1 评论 -
一文带你走进clickhouse的世界(3W字建议收藏)
一clickhouse简介1.1什么是clickhouseClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System),简称CH ,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式数据库管理系统,允许在运行时创建表和数据库,加载数据和运...原创 2021-02-03 19:43:32 · 1697 阅读 · 1 评论