数据库
文章平均质量分 55
数据库集合
星点xingdian
人生中最重要的是希望,有了希望之光,一切皆有可能!
展开
-
DataX 3.0 源码解析(一)
DataX 3.0 源码解析(一)基本调用类分析任务启动由python脚本新建进程进行任务执行,后续执行由Java进行,以下将对java部分进行分其中的调用原理机制。Engine首先入口类为com.alibaba.datax.core.Engine的main方法,其中通过调用其本身的静态方法entry,该方法主要针对输入参入进行格式化以及校验:BasicParser parser = new BasicParser();CommandLine cl = parser.parse(option原创 2022-02-17 16:25:40 · 680 阅读 · 0 评论 -
flink往mongo塞数据
mongo里塞数据,存在这个热点缓存问题。ip映射域名、有可能发http请求获取。这种是一对多。直接在mongo查。这种是一对一.spark streaming foreachpartition 几千/s;以下是我的改造方案, 可以试试这套flink任务1: mongo oplog —>hbase —>删redis缓存flink任务2 : 消费主流 查habse redis做缓存 如果主流是日志数据还得加flink状态缓存异步IO 一定程度上可以解决这种维表关联的问题 但是原创 2022-01-11 21:56:40 · 633 阅读 · 0 评论 -
HBase常见热点问题及几种解决方案
Hbase 热点问题?当我们没有提前创建分区的时候,只有一个region,默认rowkey是递增的往大的region写数据,无法发挥集群写的优点,那之前的region有的未达到饱和状态,就浪费了。数据分布不均。例如:Keys:[2-4]一直往rs1写数据,没有向其他的rs写,就会出现热点问题就出现了热点的问题什么是热点产生原因1、没有提前创建分区,Hbase 创建表默认只有一个分区2、Rowkey设计不合理只有一个regionserver,然后所有的rowkey都往该regi原创 2020-12-12 21:52:05 · 2503 阅读 · 0 评论 -
Spark资源调优篇
Spark性能优化:资源调优篇在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对S原创 2020-11-24 20:23:48 · 123 阅读 · 0 评论 -
淘宝为什么能抗住90秒100亿?
服务端高并发分布式架构演进之路1、概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。2、基本概念在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。1)什么是分布式?系统中的多个模块在不同服务器上部署,即可称为分布式系统,如Tomcat和数据库分别部署在不同的服务器上,或两个相同功能的Tomcat分别部署在不同服务原创 2020-11-22 15:54:09 · 118 阅读 · 0 评论 -
RocksDB使用场景和特性
存储和访问数百PB的数据是一个非常大的挑战,开源的RocksDB就是FaceBook开放的一种嵌入式、持久化存储、KV型且非常适用于fast storage的存储引擎。 传统的数据访问都是RPC,但是这样的话访问速度会很慢,不适用于面向用户的实时访问的场景。随着fast storage的流行,越来越多的应用可以通过在flash中管理数据并快速直接的访问数据。这些应用就需要使用到一种嵌入式的database。 使用嵌入式的database的原因有很多。当数据请求频繁访问内存或者fast storage原创 2020-11-20 23:04:39 · 2565 阅读 · 0 评论