大数据
文章平均质量分 81
xyc1211
我不记得读过的书,就像不记得吃过的饭一样;即便如此,它们还是造就了我。
展开
-
influxDB
用户(user)、保留策略(retention policy)、连续查询(continuous query)和时序数据的逻辑容器。Bucket 结合了 database 和 retention period 的概念。最佳实践:( 时间/毫秒,数据条数,当其中一个先达到时批量插入)InfluxDB 数据模型将时间序列数据 存储到存储桶和测量中。Measurement、tage相同的一组数据。InfluxDB 数据都存储在存储桶中。类似 SQL 的查询语言。时间序列数据的逻辑分组。存储 随时间变化的值的。原创 2023-08-09 09:45:30 · 393 阅读 · 0 评论 -
clickhouse
ALTER 仅支持 *MergeTree ,Merge以及Distributed等引擎表。在集群设置中,可以使用ON CLUSTER子句以分布式方式运行此类查询。数据导入到ClickHouse是通过INSERT INTO方式完成。单机性能不差(占用资源多、建议单机单应用)包含有当前正在处理的请求列表。能通过http请求直接查询。可用mysql驱动连接。OLAP离线数据处理。翻译 2023-07-29 16:52:25 · 343 阅读 · 0 评论 -
Flink
概念:数据 流与批无界数据流有界数据流Flink安装批处理 DataSet API(略)流处理 DataStream APISource算子流式分析核心概念时间语义使用 Event Time 事件时间WaterMark 水位线迟到元素Window 窗口时间窗口计数窗口State 状态状态管理CheckPoint转载 2023-02-28 17:16:06 · 180 阅读 · 0 评论 -
Spark入门概念
Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN。原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。防止故障:在程序发生崩溃的时候,Spark可以恢复此数据,并从停止的任何地方开始。单机使用时,Spark还可以采用最基本的local模式。,需要上一个RDD全部分区处理完成操作后才能计算。窄依赖:当前RDD的计算只依赖上一个RDD的。宽依赖:当前RDD的计算依赖上一个RDD的。原创 2023-02-07 17:32:53 · 488 阅读 · 0 评论 -
HBase入门概念
所以更新与删除操作 需要用追加(Timestamp,Type)来特殊实现。一行row, 实际物理存储的是一个个cell(kv)HBase基于HDFS存储,只能顺序读写,追加记录,存储在HDFS集群中的HBase表的目录结构是…Get, Put, Scan, 和 Delete。在逻辑视图里,表可以被看成是一个稀疏的行的集合。增加、修改、删除 column family。,拆分文件夹,一个store一个文件夹。在物理上,它的是区分列族 存储的。逻辑上数据是稀疏的,有空值。创建、删除 table。原创 2023-02-02 17:28:03 · 285 阅读 · 0 评论 -
Hive入门概念
元数据包括:表名、字段名、字段类型、关联HDFS文件路径等这些数据库的Meta信息。将SQL语句转为 MapReduce Job查询HDFS。删除:元数据与HDFS都会删除。数据:存储在HDFS。原创 2023-02-01 17:01:50 · 175 阅读 · 0 评论 -
Hue使用
左侧: Quick browse 快速导航栏中间:app操作右侧:信息展示。原创 2023-01-31 17:19:47 · 449 阅读 · 0 评论 -
Kerberos
验证Client端的身份(确定你是身份证上的本人),验证通过就会给一张票证授予票证(Ticket Granting Ticket,简称 TGT)给 Client。通过 TGT(AS 发送给 Client 的票)获取访问 Server 端的票(Server Ticket,简称 ST)。对于某个 principal 个体而言,他的 credential 就是他的 password。在 kerberos 认证的环节中,credential 就意味着各种各样的 ticket。像编程语言中的namespace。原创 2022-11-02 17:57:52 · 195 阅读 · 0 评论 -
Zeppelin
Zeppelin概述功能安装方式1:安装包方式2:官方docker镜像概念paragraph 段落result section 可视化Note 笔记定时调度Notebook 笔记本interpreterInterpreterGroup:运行模式生命周期interpreter SettingBinding Mode,绑定模式其他ZeppelinContext 上下文传输对象动态表单动态表单原理Serverinterpreter进程使用mysql 实操案例配原创 2022-08-30 17:39:08 · 1337 阅读 · 0 评论 -
Oozie
乌兹。原创 2022-08-30 17:14:12 · 698 阅读 · 0 评论 -
hadoop
HDFS: 安装部署,配置参数,**架构思想(DataNode, NameNode),基本原理 、文件读写**, **元数据**,**命令操作**,API操作,联邦路由,机架感知,基本调优,RPC。YARN:**架构思想,组成模块,基本原理**,**调度器**,**调度原理**, API操作,**日志查看**,参数优化,运维调优。MapReduce: 安装部署,配置参数,**架构思想,基本原理、map reduce的过程,API操作,shuffle**, **读写原理**日志聚集...原创 2022-08-30 17:05:56 · 447 阅读 · 0 评论 -
ES 查询语法 Query DSL
Query DSL搜索条件越来越复杂,url Search会越来越长这时候就该用 Elasticsearch DLS了,把搜索条件写在请求体中methodQuery DSL等同 URI Search作用GETGET /http://IP:9200/查看集群信息GETGET *http://IP:9200/_cat/indices?v查看所有索引GETGET {index}http://IP:9200/{索引名称}查看指定索引GET.转载 2021-09-18 15:15:44 · 32242 阅读 · 0 评论 -
DataX
文章目录DataXDataX3.0框架设计使用githttps://github.com/alibaba/DataX原理https://developer.aliyun.com/article/59373使用https://developer.aliyun.com/article/696839?spm=a2c6h.14164896.0.0.1df954a7TtovqZDataX阿里开源的一个异构数据源离线同步工具,实现各种异构数据源之间稳定高效的数据同步功能。DataX3.0框架设计转载 2021-08-11 17:28:59 · 161 阅读 · 0 评论 -
阿里云-数据库服务
OLTP(OnLine Transaction Processing ,联机事务处理)系统来处理数据,如 MySQL、Microsoft SQL Server、Oracle等关系数据库擅长事务处理,在数据操作中严格遵循ACID原则,能够很好的支持高并发的数据插入和修改;Hive(Hadoop底层)、SPARK SQL(SPARK底层)离线计算系统,以及阿里云上的ODPS开放数据处理服务等可以计算万亿条,数百TB甚至更多的数据,但是一般很难应对需要高并发(例如100QPS以上)或者实时响应(计.转载 2021-07-26 16:16:20 · 265 阅读 · 0 评论 -
kibana
https://www.elastic.co/cn/kibana安装使用Discover:日志管理视图Visualize:统计视图数据的可视化效果图Dashboard:仪表视图用 仪表盘 显示可视化和搜索的集合Timelion:时间轴视图APM:性能管理视图DevTools:开发者命令视图GET /_search获取所有数据Monitoring:健康监控视图Management:管理视图es5 apimethodkibanaurl作用GETGET转载 2021-07-23 11:45:36 · 140 阅读 · 0 评论 -
ElasticSearch(ES)
ElasticSearches通过 RESTful API 全文搜索原创 2021-04-05 16:44:39 · 666 阅读 · 2 评论