- 博客(310)
- 资源 (5)
- 收藏
- 关注
原创 供应链域数据中台设计
受限于对业务掌握度及对应数据特性的了解,大数据平台更倾向海量的同构或异构数据采集,清洗,加工,存储。而提供的数据服务更多是对采集到数据进行汇总及分析。为产品线提供准确及时的数据服务也为数分提供完善的数据脉络,帮助其更好对这些数据深层挖掘分析,再次提升数据价值进则作为独立数据域的数据中台产品,逐渐完善自身特性退则作为一个数据域模块快速融入公司大数据中台基于 DDD 领域建模的供应链域数据中台设计基本完毕,紧接着就是后续流畅的开发工作。
2025-01-06 09:44:27 784
原创 DMP系统简介
数据管理平台(Data Management Platform),广泛应用在互联网的广告定向(Ad Targeting)、个性化推荐(Recommendation)领域。可以把DMP简单理解成一个数据池子,接受来自各方的数据,然后融合,处理和优化,最后使用这些数据。DMP = 数据+管理 +平台DMP是集数据采集,存储,处理,分析,输出应用于一体。数据应用是搭建DMP的目标!
2025-01-03 09:17:16 693
原创 聚合支付架构从零到一
聚合支付主要是就是一个将所有的第三方支付,通过借助形式融合在一起,相当于对接一个支付接口,就可以使用各种支付的场景。如便利店购物,贴个码,上有微信支付,支付宝等各种支付。它主要是针对一个微小商户进行一个收款工具,让商家他那边会有一个收钱吧商户通,第一个可以实时的收听语音报告,当前用户付款多少钱,第二个就是他可以去实时查看账单,了解当天营业额。
2024-12-31 10:32:38 897
原创 优惠券系统设计 Coupon System
这就有【非活跃用户】的问题,假设注册用户一千万,根据二八原则,其中活跃用户占20%。先考虑用户量很少的情况,商家要给所有人发站内信,则先遍历用户表,再按照用户表中的所有用户依次将站内信插入到 message 表中。如商家创建了一批优惠券,共1000张,使用时间为2022-11-11 00:00:00 ~ 2022-11-11 23:59:59,规定只有数码类目商品才能使用,满100减50。登录后,首先查询 message_content 中的那些没有在 message 中有记录的数据,表示是未读的站内信。
2024-12-30 09:38:25 948
原创 大数据的尽头是数据中台吗?
数据中台构建于数据湖之上,具备数据湖异构数据统一计算、存储的能力,同时让数据湖中杂乱的数据通过规范化的方式管理起来。数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,数据中台增加了数据治理和数据服务化的内容。数据中台借鉴了传统数据仓库面向主题域的数据组织模式,基于维度建模的理论,构建统一的数据公共层。吸收传统数仓、数据湖、大数据平台优势又解决数据共享的难题,通过数据应用,实现数据价值落地。
2024-12-27 10:26:09 1137
原创 Hive执行原理
开发无需经常编写MapReduce程序,因为网站最主要的大数据处理就是SQL分析,因此Hive很重要。随Hive普及,我们对在Hadoop执行SQL的需求越强,对大数据SQL的应用场景也多样化起来,于是又开发各种大数据SQL引擎。Cloudera开发Impala,运行在HDFS上的MPP架构的SQL引擎。
2024-12-23 09:56:07 1016
原创 Hive分区和分桶
按日期分区日志数据可以极大地提高查询性能,特别是对于那些限定在特定日期范围内的查询。例如,如果用户只想看昨天的日志,Hive只需要扫描昨天日期分区对应的数据,而不必扫描整个数据表。这样可以在查询时仅扫描相关的分区,而不是整个数据集,从而减少查询所需要处理的数据量,提高查询效率。两种用于优化查询性能的数据组织策略,数仓设计的关键概念,可提升Hive在读取大量数据时的性能。物理上将数据按照指定的列(分区键)值分散存放于不同的目录中,每个分区都作为表的一个子目录。本文由博客一文多发平台。
2024-12-20 09:53:19 411
原创 Hive 2.x 的安装与配置
基于Hadoop的一个数据仓库工具,可将结构化数据文件映射为一张数据库表,并提供简单[SQL]查询,可将SQL语句转换为MapReduce任务进行运行。
2024-12-19 09:26:26 582
原创 DolphinScheduler部署
可以通过环境变量来修改 Docker 运行的配置,我们在沿用已有的 PostgreSQL 和 ZooKeeper 服务中就通过环境变量修改了 Docker 的数据库配置和 注册中心配置,关于全部的配置环境可以查看对应组件的 application.yaml 文件了解。通过 docker-compose 启动服务时,除了会启动 DolphinScheduler 对应的服务外,还会启动必要依赖服务,如数据库 PostgreSQL 和 服务发现 ZooKeeper。可配置多个Master及多个Worker。
2024-12-18 09:18:05 852
原创 Dubbo真实生产环境思考
这次的问题其实不大,就是 hosts 文件配置错误,但是整个查找问题的过程还是值得学习的,深入到了源码层面,跟踪代码,最终发现问题。毕竟运维人员和开发人员在一定的程度上还是会出现沟通问题,而且还是生产环境,所以更加需要仔细。我们可以看到 Dubbo 在IP解析上花费很大功夫,最大程度上帮我们自动获取正确IP。但是现实还是很残酷,真实环境下机器可能存在多网卡,内外网IPVPN,或者应用采用Docker部署,这些情况下Dubbo有可能就会获取到错误IP,从而导致消费者调用失败。
2024-12-17 09:29:59 672
原创 Dubbo相关面试题和源码使用技巧
在实际生产中,假如 ZooKeeper 注册中心宕掉,一段时间内服务消费方还是能够调用提供方的服务的,实际上它使用的本地缓存进行通讯,通过本地缓存可以拿到提供者的地址信息,仍然可以通信,这只是 Dubbo 健壮性的一种体现。注册中心负责服务地址的注册与查找,相当于目录服务,服务提供者和消费者只在启动时与注册中心交互,注册中心不转发请求,压力较小。所以,我们可以完全可以绕过注册中心——采用。,当调用服务时失败,会自动切换到其他服务器进行重试,重试会带来更长的延迟并且会对下游服务造成更大的压力,可以通过配置。
2024-12-16 09:31:35 837
原创 Dubbo的应用及注册和SPI机制
在 Dubbo 中 SPI 是一个非常重要的模块,基于 SPI 可以很容易的进行扩展,可以很灵活的替换接口的实现类通过 SPI 可以在运行期间动态的寻找具体的实现类!并且 Dubbo 的 SPI 还实现了自己的 IOC 和 AOP!# 指定接口对应实现类的全限定类名像 Java 中也提供了 SPI 机制,但是 Dubbo 中并没有使用 Java 提供的 SPI ,而是基于 Java 提供的 SPI 实现了一套功能更强的 SPI 机制!
2024-12-13 09:48:54 871
原创 Dubbo的通信协议
HTTP/2 协议是对 HTTP/1 协议的升级,HTTP/1 的缺点就是任何一个普通的 HTTP 请求,就算只发送很短的一个字符串,也要带上一个请求头,并且这个请求头比较大,占用多个字节,
2024-12-12 10:05:51 590
原创 Dubbo的负载均衡及高性能RPC调用
就比如现在有一个 Java 项目和 Go 项目之间要相互通信,两个模块之间对于数据的定义可能是不同的,并且 Java 语言和 Go 也是不兼容的,比如你要传输一个 User 类,在 Java 和 Go 中的定义肯定是不一样的。因为轮询的话有一个比较致命的问题,如果其中有一台机器处理请求的速度比较慢,那么当一个请求被转发到很慢的机器上之后,很久都没有处理完,会导致其他请求也会被转发到这个机器上,导致该机器上堆积很多请求,更加处理不过来了。Dubbo 中支持多种序列化协议,在 Dubbo3.2 版本之前使用。
2024-12-11 09:52:12 687
原创 Dubbo特性及工作原理
这里说一下 Dubbo 最主要的特性,从这些特性中,就可以看出来我们为什么要选用 Dubbo,也可以将 Dubbo 和 Spring Cloud 进行对比,比如我们搭建一套微服务系统,出于什么考虑选用 Dubbo,又是出于什么考虑而选用 Spring Cloud 呢?不过在说 Dubbo 特性之前,要先说一下面试相关的东西,因为我们在面试中,Dubbo 毕竟是分布式相关的东西,那么面试官可能问我们公司是如何进行技术选型的呢?4、在代理对象的拦截中,会去执行一系列的操作。本文由博客一文多发平台。
2024-12-10 09:18:49 1101
原创 互联网架构的发展历程
由 RPC 架构进一步升级,将应用的不同模块进行进一步的拆分,使得单个模块职责更加单一,相比于 RPC 架构,可以进行负载均衡、服务注册、服务监控等功能。微服务架构是 SOA 架构的升级,其实现在微服务架构和 SOA 架构指的基本上就是一个东西了,只不过微服务架构是 SOA 架构做到极致的架构。像现在许多小公司,使用的还都是垂直应用架构,因为访问量、数据量都不大,垂直应用架构部署、开发简单,完全可以满足需求!通过微服务架构对多个应用进行编排、服务治理、服务注册、服务发现、负载均衡、限流、配置中心等操作。
2024-12-09 09:21:08 280
原创 DolphinScheduler部署
可以通过环境变量来修改 Docker 运行的配置,我们在沿用已有的 PostgreSQL 和 ZooKeeper 服务中就通过环境变量修改了 Docker 的数据库配置和 注册中心配置,关于全部的配置环境可以查看对应组件的 application.yaml 文件了解。通过 docker-compose 启动服务时,除了会启动 DolphinScheduler 对应的服务外,还会启动必要依赖服务,如数据库 PostgreSQL 和 服务发现 ZooKeeper。可配置多个Master及多个Worker。
2024-12-05 09:39:18 1216
原创 DolphinScheduler资源中心
资源中心通常用于上传文件、UDF 函数和任务组管理。standalone 环境可选择本地文件目录作为上传文件夹(无需Hadoop部署)也可选择上传到 Hadoop 或 MinIO 集群。此时需要有 Hadoop(2.6+)或 MinIO 等相关环境。
2024-12-04 10:03:42 876
原创 SpringSecurity6从入门到实战之SecurityContextHolder详解
是Spring Security中的一个核心组件,它提供了对的访问和管理。是一个包含了安全信息的对象,例如用户的认证信息、授权信息以及任何与当前安全上下文相关的其他信息。通过线程局部存储(ThreadLocal)的方式来存储,这使得每个线程都可以访问其自己的安全上下文,从而实现了安全信息的线程隔离。
2024-12-03 15:43:51 438
原创 DolphinScheduler简介
分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler以DAG流式方式组装任务,可及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
2024-12-03 09:19:05 849
原创 DolphinScheduler告警通知
如需使用DolphinScheduler的电子邮件告警通知功能,需要准备一个电子邮箱账号,并启用SMTP服务。此处以 QQ 邮箱为例。拖动进度条在页面下方找到下图所示内容,开启 POP3/SMTP | IMAP/SMTP 任一。Dolphinscheduler支持多种告警媒介,此处以电子邮件为例进行演示。获取更多干货内容,记得关注我哦。本文由博客一文多发平台。第一步:点击创建告警组。(1)切换管理员用户。(2)执行工作流测试。
2024-12-02 10:01:34 427
原创 SpringSecurity6从入门到实战之获取登录用户的认证信息
上面代码是退出登录返回json格式并且打印了authentication对象,下面我们来看看具体结果。下面通过上次的退出登录效果可以对应上这里authentication中的内容。然后在进行访问/hello接口进行测试,可以看到这里授权角色的信息也出来了。通过在application.properties中配置授权相关内容。然后就是通过get属性的方式从上下文中获取登录用户的信息。
2024-11-29 10:43:20 573
原创 DolphinScheduler参数
分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。DolphinScheduler以DAG流式方式组装任务,可及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。
2024-11-28 09:42:52 657
原创 Ab测试与灰度发布
A/B测试的目的依然是为数据分析,因此通常被当作大数据平台一部分,由大数据平台团队主导,联合业务开发、大数据分析团队合作开发A/B测试系统。A/B测试系统囊括前端业务埋点、后端数据采集与存储、大数据计算与分析、后台运营管理、运维发布管理等一个互联网企业几乎全部的技术业务体系,开发有一定难度。大数据生态体系包括Hadoop这样的大数据产品,还包括大数据平台、大数据分析、大数据机器学习,这才是大数据技术体系的完整知识框架。如果AB测试,涉及到调整了数据结构或业务逻辑较大改动,是否还有用?
2024-11-27 09:27:52 587
原创 如何统一管理纷繁杂乱的数据指标?
不同部门对相同的“新用户销售额”,因为口径定义差别,导致指标数值的不一致。这是指标管理最易出现的case。口径不一致,数据就无法横向对比,失去数据辅助商业决策的意义。如何高效、规范化管理指标。如何构建全局一致的指标字典,通过系统+规范的方法,解决数据中台指标一致性管理的难题。数据中台直接产出的核心指标必须实施强管理,由数据中台团队的专人或者小组负责,最好是数据产品经理的角色。指标的管理必须结合系统+规范的治理方法,明确每个角色的职责,通过系统化的方法实现。
2024-11-26 09:27:41 668
原创 hdfs dfs命令详解
Hadoop 分布式文件系统 (HDFS) 的命令行工具,用于在 HDFS 上执行文件系统操作。这些命令可以帮助您在 HDFS 上执行各种文件系统操作,管理数据和资源,确保数据的安全和可靠性。获取更多干货内容,记得关注我哦。本文由博客一文多发平台。
2024-11-26 09:24:17 244
原创 构建数据中台的三要素:方法论、组织和技术
数据中台建设的三板斧:方法论、支撑技术和组织架构。适合数据中台的组织架构是建设数据中台的第一步,数据中台组织一定是独立的部门,同时要避免与业务脱节,深入业务,要与业务目标绑定。数据中台支撑技术大规模落地,需要有成熟的系统工具作为支撑,同时要注意这些系统工具之间的联动和打通。
2024-11-25 09:25:09 853
原创 IDEA超好用的代码笔记插件 - Notes, 国产插件就是牛!
代码笔记是一款超好用的适合程序员在JetBrains产品线使用的代码笔记和书签管理软件, 手不离IDE即可完成创建修改搜索代码笔记功能, 支持附件管理,支持 SQLite 本地数据库存储或者Evernote存储, 支持阅读Evernote笔记和图片.
2024-11-25 09:18:33 518
原创 如何一步步让MySQL支撑亿级流量
可以把主从复制引申为存储节点之间互相复制存储数据的技术,可以实现数据冗余,以达到备份和提升横向扩展能力。主从的一致性和写入性能的权衡若保证所有从节点都写入成功,则写性能一定受影响;若只写主节点就返回成功,则从节点就可能出现数据同步失败,导致主从不一致。互联网项目,一般优先考虑性能而非数据的强一致性主从的延迟会导致很多诡异的读取不到数据的问题Redis通过主从复制实现读写分离Elasticsearch中存储的索引分片也可被复制到多个节点。
2024-11-25 09:16:49 788
原创 从普通程序员到架构师:揭秘如何实现财富增长的惊人策略!
作为一名年轻的程序员,你可能经常思考如何更好地发展自己的职业生涯,并实现财务自由。架构师是一个备受追捧的职位,他们不仅在技术上具备深厚的知识和经验,还能够引导团队,设计和构建复杂的系统。所以,许多程序员梦想将自己晋升为架构师,并通过这一变身赚取巨额财富。
2024-11-22 09:30:32 361
原创 微服务架构如何保障双11狂欢下的99.99%高可用
这篇文章我们来聊聊在微服务架构中,到底如何保证整套系统的高可用?其实排除掉一些基础设施的故障,比如说Redis集群挂了,Elasticsearch集群故障了,MySQL宕机了。微服务架构自己本身最最核心的保障高可用的措施,就是两个:一个是基于Hystrix做资源隔离以及熔断;另一个是做备用降级方案。如果资源隔离和降级都做的很完善,那么在比如双11的这种高并发场景下,虽然可能会出现个别的服务故障,但是绝对是不会蔓延到整个系统全部宕机的。
2024-11-21 09:16:23 986
原创 一文搞懂业务架构、技术架构、数据架构、运维架构、物理架构理清不同视角的架构
在学习架构时,我认为首先要理清楚架构的视角,。对于不同职位的视角是不一样的,比如开发而言他更多的看到的是开发架构;对售前人员,他可能更多的看到的是业务架构;对于运维人员,他看到的可能是运维架构;而对于技术支持和部署人员,他更多的看到的网络和物理架构。
2024-11-20 09:21:22 1253
原创 一文详解架构分层
从技术层面描述,主要是分层模型,例如持久层、数据层、逻辑层、应用层、表现层等,然后每层使用什么技术框架,例如Spring、hibernate、ioc、MVC、成熟的类库、中间件、WebService等,分别说明,要求这些技术能够将整个系统的主要实现概括。于开发者而言,实际工作从通常采用的是分层模型,这里独立一个章节,总结经典的。,第一层客户层,第二层前端优化层,第三层应用层,第四层服务层,第五层数据存储层,第六层大数据存储层,第七层大数据处理层。本文由博客一文多发平台。
2024-11-19 09:20:31 502
原创 电商系统架构演进
随着业务量增大,一些核心系统数据库单表数量达到几千万甚至亿级,这时候对该表的数据操作效率会大大降低,并且虽然有缓存来抗读的压力,但是对于大量的写操作和一些缓存miss的流量到达一定量时,单库的负荷也会到达极限,这时候需要将表拆分,一般直接采用分库分表,因为只做分表的话,单个库的连接瓶颈仍然无法解决。由于数据库主库只能是在一个机房,所以仍然会有一半的数据库访问是跨机房的,虽然延时只有几毫秒,但是一个调用链里的数据库访问太多后,这个延时也会积少成多。本文由博客一文多发平台。
2024-11-18 09:20:45 1127
原创 大型网站架构演进过程
CDN和反向代理的基本原理都是缓存,区别在于CDN部署在网络提供商的机房,而反向代理是部署在网站的中心机房,当用户请求到达中心机房后,首先访问的反向代理,如果反向代理缓存着用户请求的资源,则直接返回给用户。大型网站的技术挑战主要来自于庞大的用户,高并发的访问和海量的数据,任何简单的业务一旦需要处理数以P计的数据和面对数以亿计的用户,问题就会变得很棘手。架构选型是根据当前业务需要来的,在满足业务需求的前提下,既要有足够的扩展性也不能过度设计,每次的架构升级都是为了解决系统瓶颈而做的。本文由博客一文多发平台。
2024-11-15 09:18:14 766
原创 虚拟化到Service Mesh演进过程
虚拟机由某些特定的硬件和内核虚拟化组成,运行客户操作系统。然而容器单元越来越散落使得管理成本逐渐上升,大家对容器编排工具的需求前所未有的强烈,Kubernetes、Mesos、Swarm 等为云原生应用提供了强有力的编排和调度能力,它们是云平台上的分布式操作系统。容器为我们提供了可预测的,可重复的和不可变的运行预期,容器的兴起是 DevOps 即服务的一个巨大推动因素,可以克服当今面临的最大安全障碍。容器的出现,使原有的基于虚拟机的云主机应用,彻底转变为更加灵活和轻量的容器与编排调度的云平台应用。
2024-11-14 09:19:38 712
原创 吊炸天,腾讯开源的一站式微服务解决方案
Spring Cloud Tencent 是腾讯开源的一站式微服务解决方案。Spring Cloud Tencent 实现了Spring Cloud 标准微服务 SPI,开发者可以基于 Spring Cloud Tencent 快速开发 Spring Cloud 云原生分布式应用。Spring Cloud Tencent 的核心依托腾讯开源的一站式服务发现与治理平台 PolarisMesh ,实现各种分布式微服务场景。
2024-11-13 09:43:16 1090
原创 GitHub4.2k Java开源神器一个免费的基于JNA的Java操作系统和硬件信息库
OSHI是一个免费的基于JNA(本机)的Java操作系统和硬件信息库。它不需要安装任何其他本机库,旨在提供 跨平台实现以检索系统信息,例如操作系统版本、进程、 内存和 CPU 使用率、磁盘和分区、设备、传感器等。OSHI 起源于一个独立于平台的库,不需要额外的软件,并且具有与 开源和商业产品。在主要操作系统上开发了强大的核心功能。本文由博客一文多发平台OpenWrite发布!
2024-11-12 14:26:28 239
原创 Github超强的数据提取工具再也不用写SQL了
Jailer是一款用于数据库子集和关系数据浏览的工具,支持按照表之间关系浏览数据库、生成 DML 拓扑关系等功能。可用来从生产数据库中提取出,支持测试一条完整业务线所需的数据库表和数据。它从您的数据库创建小切片,并允许您按照关系在数据库中导航。非常适合创建测试数据的小样本或使用相关生产数据进行本地问题分析。数据库在规模和复杂性上都在增长,以满足 不断增长的业务需求。处理数据的应用程序 规模和复杂性也在增加。随着成长 复杂性,可靠的测试变得越来越重要 以确保软件的质量。
2024-11-11 09:48:14 459
原创 Apache SkyWalking 轻松处理亿级流量的分布式系统监控工具
SkyWalking是一个开源的APM系统,包括分布式系统的监控、跟踪、诊断功能 在云原生架构中。分布式跟踪端到端分布式跟踪。服务拓扑分析、以服务为中心的可观测性和 API 仪表板。堆栈的代理Java,.Net Core,PHP,NodeJS,Golang,LUA,Rust,C++,Client JavaScript和Python代理具有积极的开发和维护。eBPF早期采用Rover 代理充当由 eBPF 提供支持的指标收集器和分析器,以诊断 CPU 和网络性能。缩放。
2024-11-08 09:24:59 834
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人