Elasticsearch 相关技术概念笔记
阅读列表:
- 如何做一次Elasticsearch技术分享?
- 大数据、云计算、物联网、数据仓库、OLAP、OLTP、等大数据你必须知道并且了解的概念及相关关系,我的一些总结
- elasticsearch准实时原理
- 一文看懂 ClickHouse vs Elasticsearch:谁更胜一筹?
- Elasticsearch对垒8大竞品技术,孰优孰劣?
- 基于 ElasticSearch 开发垂直搜索系统
- Elasticsearch 分词器使用概览。
概念解释:
Elasticsearch 相关子服务:
translog:translog是elasticsearch的事务日志文件,它记录了所有对索引分片的事务操作
elasticsearch-curator:Elastic官方基于Python的索引管理工具
Elastticsearch 插件:
IK分词器:
analysis-baidu-nlp:analysis-baidu-nlp是百度智能云Elasticsearch(简称ES)团队自主研发的中文分词插件
Elastic stack:
metricbeat:ELK stack 中为服务监控服务
Kibana功能:
Transforms:Kibana数据透视功能模块。
Es命令行工具:
Esctl:基于Python的Es命令行工具
分布式链路监控服务:
jaeger:Uber的分布式跟踪系统
zipki: Twitter 的一个开源项目,基于 Google Dapper实现
时间序列数据库:
influxdb:是一个时间序列数据库(TSDB), 被设计用来处理高写入
消息队列服务:
rocketMQ:
kafka:
netty:
数据监测平台:
Grafana :适用于多平台的数据展示工具。
kibana: es和lodash官方共同开发:
knowi: 支持多数据源和nosql
splunk:功能强大 收费
推荐阅读:
Kibana 替代方案:Grafana、Splunk 和 Knowi
CBoard:国产数据分析产品
图数据库:
Neo4j:
服务器系统监控服务:
- Prometheus:一个开源的系统监控和报警系统
- Telegraf:月metrucbeat类似的服务,服务器指标采集工具
日志提取服务:
- Fluentd:日志摄取器(类似logstash)
数据库:
- Apache doris: 百度开源亚秒级数据库:
- ksqlDB: ksqlDB是事件流数据库,是一种特殊的数据库,基于Kafka的实时数据流处理引擎,提供了强大且易用的SQL交互方式来对Kafka数据流进行处理,而无需编写代码
大数据相关:
- prestodb: facebook开源的一款sql on hadoop系统
- Pig:Apache Pig是一个基于Hadoop的大规模数据分析平台
- ClickHouse :ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse的全称是Click Stream,Data WareHouse。
自动运维化工具:
- Ansible:Ansible是一种常用的自动运维化工具,基于python开发,分布式,无需客户端,轻量级,配置语言采用YAML。
- Vagrant: Vagrant是一个基于 Ruby 的自动化运维工具(公司禁止中国地区使用)
- helm:helm是kubernetes生态系统中的一个软件包管理工具,类似ubuntu的apt,centos的yum或python的pip一样,专门负责管理kubernetes应用资源
- Terraform是一个IT基础架构自动化编排工具,可以用代码来管理维护IT资源。(禁止中国使用)
分布式 init 系统:
- fleet: fleet绑定了 systemd 和 etcd 到一个分布式 init 系统,可以认为是 systemd 的扩展,但是并不是机器级别的,而是集群级别的。
日志服务:
- rsyslog:linux中用来实现日志功能的服务,默认已安装。
腾讯云服务:
- Oceanus:是腾讯基于 Apache Flink 构建的企业级实时大数据分析平台
阿里:
- Canal:主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费
- Druid:Druid是一个分布式数据分析平台,也是一个时序数据库
网关:
- Tyk:Tyk 是一个开源的、轻量级的、快速可伸缩的 API 网关,支持配额和速度限制,支持认证和数据分析,支持多用户多组织,提供全 RESTful API
流量监控服务:
- nprobe:一种可扩展的网络流量探针
应用程序监控服务APM(Application Performance Monitoring):
- SkyWalking:SkyWalking 提供了一种简便的方式来清晰地观测分布式系统,甚至横跨多个云平台。
流量分析工具:
- elastiflow
Python工具:
- Tesseract:基于Python的图像识别
- tweepy:基于Python的twiter api 爬虫库
- Lassie:一个用于从网站中检索基本内容的Python库
- Flask:Flask是一个使用 Python 编写的轻量级 Web 应用框架
测试工具:
- RSpec:是一个基于Ruby的测试框架
其它:
- Transporter:数据库数据迁移工具支持 mongodb 和postgresql https://github.com/compose/transporter
- grok:logstash中的过滤器,用于将非结构化数据解析为结构化和可查询的数据,可用于从文档中的给定文本字段中提取结构化数据
- Nomad :Nomad 是一个集群管理器和调度器,专为微服务和批量处理工作流设计
- DataDog:为面向开发者、IT运维团队及业务人员的云监控平台,其致力于为企业客户提供涵盖底层系统、上层应用的实施监控&分析能力
- MadCap Flare:一款XML编写软件
- Wireshark: Wireshark(前称Ethereal)是一个网络封包分析软件
- Flink:Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算
- Sensei:Adobe Sensei是应用于Adobe旗下各款产品的底层人工智能工具
- Trello:google 团队协作工具
- TurboSearch :腾讯自家的搜索引擎
- BitFunnel:Bing搜索核心技术
- StormCrawler:基于Java的开源爬虫
- Mahout: Apache Mahout 提供一些可扩展的机器学习领域经典算法的实现,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
- Naxsi:naxsi 是一个nginx 防病毒,防跨站,sql 注入的一个模块。Nxapi为其接口模块
- Heroku:Heroku是一个支持多种编程语言的云平台
名词解释:
- TSDB:时间序列数据库
- Tinder:火绒安全公司
- APM:Application performance management 应用性能监控
- Elastic APM :基于Elastic stack建立的应用性能监控系统
- SIEM:SIEM 代表安全、信息和事件管理( Security, Information, and Event Management.)。SIEM 技术将日志数据、安全警报和事件聚合到一个集中平台中,为安全监控提供实时分析。
- 零拷贝:0次CPU调用
- 电商搜索召回策略:要提升搜索点击率,不仅要供应链提供丰富的好商品,系统能将商品搜出来(召回策略),还要将好商品排在前面
-
OLAP:联机数据分析技术
- 垂直搜索系统:针对某一个行业的专业搜索系统
- ETL:ETL(Extract Transform Load)功能是一种高效的实时数据加工,数据挖掘工具
- AIS:AIS系统是船舶自动识别系统(Automatic Identification System)的简称
- LDAP:轻量级目录访问协议
-
复合词:Elasticsearch ngram 相关
公司:
- Yelp:美国最大的大众点评网站