自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Kafka基础知识

节点2同样:kafka-console-consumer.sh --bootstrap-sever hadoop001:9092 --topic first --group k1。节点1:kafka-console-consumer.sh --bootstrap-sever hadoop001:9092 --topic first --group k1。什么时候发送ack?处理数据完成在手动提交,ack=-1,如果数据有容错并落盘,数据就不会丢,挂了有可能重复。

2024-03-15 17:48:28 354 1

原创 Flume基础知识

6.SinkProcessor (没意义–> Jvm是单独的) Sink组(3种,default 1对1,loadbalance sink轮巡去找,做负载均衡,failover高可用,故障转移(根据优先级,比如5 3 2挂了找下一个,挂掉的重启还会回到这个sink)),一个channel可以发给多个sink,不能多个channel发给一个sink。断点续传 flume启动会读取positionFile,如果内容为空,没有json,会报错,删除。

2024-03-04 16:21:31 957 1

原创 ClickHouse基础知识

(解决单机不够存问题 ,使用distrbute表引擎同样每个表都有,指定分片键,可以设置weight设置数据存放权重,多副本默认选择查询错误最少的,相同情况随机选,不存数据,只负责请求转发)20200601_1_5_1 代表 1-5的数据存在这 合并了1次 后续查询会进行一个乐观锁,只查这个文件,一定时间会进行一个大合并,把之前的文件删掉。单机也非常强,实时离线数仓都可以,查询性能很快,可以做到准实时,理论上可以代替hdfs,资源消耗大,通常一个单独服务器。

2024-01-10 11:06:15 385

原创 Spark02基本操作

Spark基本操作##读<<Python大数据处理库PySpark实战>>总结1,Spark对内存数据的抽象,即为RDD,RDD是一种分布式,多分区,只读的数组Spark可以将HDFS块文件转换成RDD,也可以由一个或多个RDD转换成新的RDDPySpark首先利用Python创建Spark Context对象,用Socket与JVM上的Spark Context通信,这个过程借助Py4J库JVM上的Spark Context负责与集群上的Spark Worker节点进行交

2022-04-19 17:11:13 209

转载 Hive使用多字符分隔符建表失败

create table test_hold( id string ,name string ,card string ,aum string) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="@!@");当hive创建多分隔符表的时候,会报错Cannot va

2022-04-19 16:02:27 627

原创 Spark01核心概念

Spark核心概念1,Spark最重要的特点是基于内存进行计算,用Scala语言编写2,MR处理数据慢的原因:MR从HDFS中读取数据,将中间结果写入HDFS,然后再重新从HDFS读取数据进MR操作,再回写HDFS中,这个过程涉及多次磁盘IO操作3,Spark与Hadoop实现原理对比Spark中,用户提交的任务称为Application,一个 Application对应一个SparkContext,一个Application中存在多个Job,每触发一次Action操作就会产生一个Job,这些Jo

2022-04-19 14:54:44 1685

原创 基金TA系统笔记

####1TA:份额登记系统:用于给投资者注册登记基金份额基金估值系统 处理 基金[投资]端的业务TA系统 处理 基金[申赎]端的业务####2TA 处理业务-》账户,交易,产品账户业务包括投资者开户、销户、客户资料修改、账户登记等,主要处理的是投资人身份相关的信息交易类业务则比较直观,有一些日常交易业务处理,如认购、申购(包括定期定额)、赎回、转托管、基金转换等特殊业务处理,如非交易过户、账户冻结/解冻、份额冻结/解冻、份额强增强减等;分红业务处理,如现

2022-04-19 10:25:06 2140

原创 数据治理与元数据管理

数据治理又称数据管控,偏向于管理强调 组织 制度 流程 技术组织:相关部门,角色职责制度:具体管理办法,操作手册流程:数据如何落地,如何执行技术:技术支撑,元数据采集,数据质量,任务建设不能看到问题在去管理,先从架构入手数据的价值:1.服务–决策/操作(驾驶舱,资产情况) 2.营销–获利 3.风控–风险(人行 征信 银保 反洗钱 反欺诈)举例 1.潜在客户:申请 沉睡唤醒 销户 担保人 员工(行内-在职/离职)2.号码管理:员工号/组织机构 HR员工号:属于一个或多个组织机构 OA系统

2022-03-10 16:54:39 2100

转载 Join的四种方式(Oracle)

1.查询优化器 执行join 语句[1]判断join两张表还是多张表 多张表会把有唯一约束或主键的表放在前处理[2]有outer join条件的语句放后面,子查询已经转化为一张表时在outer join后面[3]优化器根据 join的顺序,方法,访问路径 会产生很多执行计划,优化器评估每个计划的成本,选择最低的一个,作为最终执行计划成本评估方法[1]nested loop join 成本 基于读取外表的每一行 并 和在内存里的内表一一匹配的成本,优化器通过统计信息来评估该成本。[2]hash j

2022-01-13 21:18:10 1872

原创 Hints(Oracle)

Hints(Oracle)Hins约束优化器行为的一种方式(可以干预优化器,让优化器用我们指定的方式执行)一般 DBA 做性能分析使用,开发避免使用可以影响 优化器模式,数据访问,表关联,表连接顺序,并行,sql转换重写【优化器模式】1.all_rows 最快方式把整个数据处理完 (场景:报表,聚合查询数据 可以看情况嵌入)对语句块选择基于开销的优化方法,并获得[最佳吞吐量,使资源消耗最小化]2.first_rows 指定返回多少行 (场景:分页查询前多少行)对语句块选择基于

2022-01-13 21:08:16 982

原创 数据库优化器/收集统计信息

数据库优化器 分为基于规则 基于代价举例 去火车站买票基于代价 使用地图来算基于规则 按照习惯去走所以对于OLAP 多用于不同的查询sal多样,多使用基于代价对于OLTP 在某个系统是固定的,多使用基于规则基于代价优化器,就会使用到统计信息统计信息放在数据字典里(oracle 有自己的数据字典 类似user_tables user_column user_index impala 数据字典一般存在mysql )对于某一列 所有的值(即集合) 会分成200-250个隔断,如存在一张250

2022-01-10 08:58:47 326

原创 数据仓库基础-01

数据仓库基础发展历程1.非开放式系统 MainFream (早期) 开放式Linux unix2.数据仓库出现的原因本质上是来解决读写冲突,比如在上世纪70年代出现了读库,后来又衍生出了数据仓库内容3.银行系统是不允许删除数据的,如果有问题,会使用冲账的方式4.数据仓库建设的两位大师(1)BillInmon思想:范式化建模概念:面向主题的 集成的 非易失的 随时间变化的数据集合(2)Ralph Kimball思想:维度建模主导:通过一系列维数相同的数据集市递增地构建数据仓库(自下而上

2022-01-04 23:10:44 1078

原创 Python高级-01

面向对象Object Oriented Programming 简写 OOP1.编程方式 面向对象 面型过程2.类: 相同 特征 行为 的事物一个统称,是抽象的,不能直接使用 (特征->属性 行为->方法)对象: 由类创建出来的一个具体存在####面向对象基础语法3.dir 内置函数方法名 格式的方法是 Python 提供的 内置方法 / 属性序号 方法名 类型 作用01 new 方法 创建对象时,会被自动调用02 init 方法 对象被初始化时,会被自动调用

2021-11-25 17:16:25 264

原创 Python基础-02

1.注释 单行注释 #开头多行注释 “”“开头1234567890结尾”""2.算数运算符 +加 -减 *乘 /除 //取整除 %取余数 **幂3.比较(关系)运算符 ==相等 !=不相等 >大于 <小于 >=大于或等于 <=小于或等于4.逻辑运算符 and且 or或 not非5.判断#判断买票练习height = int(input("请输入身高"))print("您的身高为%scm" % height)if height>130: print("

2021-11-11 23:21:25 861

原创 Python基础-01

Python-01LocalHost测试虚拟机 Centos7.9 ip 192.168.100.129 Username root Password joshua0920python创始人Guido(吉多–仁慈的独裁者)的故事 https://blog.csdn.net/weixin_31893057/article/details/1120315581,1991年 Python(蟒蛇) 诞生,开源,它是由C语言实现的,并能调用c语言库2,编译性语言 开发完成的源代码全部交给编译器,编译器将源代码

2021-11-09 22:37:33 239

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除