大数据
价值成长
这个作者很懒,什么都没留下…
展开
-
MySql面试
交,这样会影响速度,所以最好把多条SQL语言放在begin和commit之间,组成一个事务;但是辅助索引需要两次查询,先查询到主键,然后再通过主键查询到数据。,数据文件是和索引绑在一起的,必须要有主键,通过主键索引效率很高。,对于InnoDB每一条SQL语言都默认封装成事务,自动提。索引保存的是数据文件的指针。主键索引和辅助索引是独立的。过大,因为主键太大,其他索引也都会很大。,因为myisam内部维护了一个。,锁定力度小并发能力高。,数据文件是分离的,原创 2022-11-19 10:17:20 · 627 阅读 · 0 评论 -
Mysql复制原理
Mysql复制原理Mysql复制原理Mysql复制原理Mysql复制原理Mysql复制原理原创 2022-10-29 10:49:30 · 294 阅读 · 0 评论 -
redis面试题
1.2. 删除:过期策略3. 回收:内存空间不足,自主放弃 4.5.6. 7. 通用问题:大量key直接访问数据库通用解决方案:去另外redis抢锁,抢到锁后访问数据库。即对于某个key只有一个访问O(1)原创 2022-10-31 22:00:00 · 281 阅读 · 0 评论 -
怎么处理Mysql慢查询
怎么处理Mysql慢查询怎么处理Mysql慢查询怎么处理Mysql慢查询怎么处理Mysql慢查询原创 2022-10-29 15:17:15 · 132 阅读 · 0 评论 -
数据库索引设计原则
数据库索引设计原则数据库索引设计原则数据库索引设计原则数据库索引设计原则原创 2022-10-29 15:15:08 · 305 阅读 · 0 评论 -
Mysql为什么需要主从同步
Mysql为什么需要主从同步Mysql为什么需要主从同步Mysql为什么需要主从同步Mysql为什么需要主从同步原创 2022-10-29 11:52:11 · 306 阅读 · 0 评论 -
Mysql锁类型
Mysql锁类型Mysql锁类型Mysql锁类型Mysql锁类型Mysql锁类型Mysql锁类型原创 2022-10-29 11:46:59 · 325 阅读 · 0 评论 -
批处理和流处理
批处理和流处理批处理和流处理批处理和流处理原创 2022-10-19 16:39:32 · 203 阅读 · 0 评论 -
数据分区介绍
数据分区介绍数据分区介绍数据分区介绍数据分区介绍数据分区介绍原创 2022-10-19 11:16:23 · 168 阅读 · 0 评论 -
数据复制介绍
所有客户端将写入操作都发送到某一个节点(主节点),由该节点将数据更改事件发送到其他副本(从节点)。每个副本都可以接受读请求,但内容可能是过期值。系统存在多个主节点,每个都可以接受写请求,客户端将写请求发送到其中一个主节点上,由该主节点将数据更改事件同步到其他主节点和自己的从节点。客户端将写请求发送到多个节点,读取时从多个节点并行读取,以此检测和纠正某些过期数据。2.2 多主节点复制。2.3 无主节点复制。原创 2022-10-19 09:56:12 · 340 阅读 · 0 评论 -
分布式系统扩展
每个服务器拥有独立的cpu和内存,将数据存储在共享磁盘上。优点是跨区域分发数据,减少延迟,可以用作数据中心灾备。缺点是资源竞争和锁的开销。缺点是成本增长过快,无异地容错能力。原创 2022-10-19 08:45:17 · 328 阅读 · 0 评论 -
数据的编码格式
数据的编码格式数据的编码格式数据的编码格式原创 2022-10-18 23:30:27 · 143 阅读 · 0 评论 -
OLTP与OLAP
OLTP与OLAPOLTP与OLAPOLTP与OLAPOLTP与OLAPOLTP与OLAP原创 2022-10-18 14:56:55 · 196 阅读 · 0 评论 -
本地缓存和分布式缓存
问题:当一个服务部署在多个服务器时,本地缓存会产生数据不一致,本地内存不足等问题。原创 2022-10-09 12:38:01 · 336 阅读 · 0 评论 -
写模式的缓存一致性问题
写模式的缓存一致性问题写模式的缓存一致性问题写模式的缓存一致性问题写模式的缓存一致性问题写模式的缓存一致性问题原创 2022-10-09 12:05:46 · 151 阅读 · 0 评论 -
redis
redis复制机制_价值成长的博客-CSDN博客redis事务_价值成长的博客-CSDN博客redis 持久化_价值成长的博客-CSDN博客原创 2022-10-08 17:23:12 · 159 阅读 · 0 评论 -
Mysql
MySql架构_价值成长的博客-CSDN博客MySql 锁的分类_价值成长的博客-CSDN博客数据库中的锁_价值成长的博客-CSDN博客MySql日志_价值成长的博客-CSDN博客MySql主键索引和非主键索引_价值成长的博客-CSDN博客_mysql 主键索引和非主键索引MySql隔离级别_价值成长的博客-CSDN博客MySql 事务隔离实现:_价值成长的博客-CSDN博客mysql两阶段提交_价值成长的博客-CSDN博客Mysql GTID_价值成长的博客-CSDN博客MySql字符串索引_价值成长的博原创 2022-10-08 17:21:38 · 132 阅读 · 0 评论 -
数据库中的锁
锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁锁原创 2022-10-08 11:22:01 · 125 阅读 · 0 评论 -
feature-based fine-tuning 区别
feature-based只变化了最后一层的参数。通常feature-based方法包括两步:首先在大的语料A上无监督地训练语言模型,训练完毕得到语言模型(用作embeddining) 然后构造task-specific model例如序列标注模型,采用有标记的语料B来有监督地训练task-specific model,将语言模型的参数固定,语料B的训练数据经过语言模型得到LM embedding(language model),作为task-specific model的额外特征EMLO是这原创 2021-05-31 15:32:16 · 534 阅读 · 0 评论 -
Mysql GTID
的全称是Global Transaction Identifier, 也就是全局事务ID, 是一个事务在提交的时候生成。server_uuid 是一个实例第一次启动时自动生成的, 是一个全局唯一的值;gno 是一个整数, 初始值是1, 每次提交事务的时候分配给这个事务, 并加1。的, 是这个事务的唯一标识。原创 2022-09-19 17:03:49 · 190 阅读 · 0 评论 -
mysql两阶段提交
实际上, 写binlog是分成两步的:1. 先把binlog从binlog cache中写到磁盘上的binlog文件;redo log和binlog都可以用于表示事务的提交状态, 而两阶段提交就是让这两个状态保持逻辑上的一致。事务执行过程中, 先把日志写到binlog cache, 事务提交的时候, 再把binlog cache写到binlog文件中。时序上redo log先prepare, 再写binlog,最后再把redo log commit。3.3 组提交机制, 可以大幅度降低磁盘的IOPS消耗。原创 2022-09-19 14:34:18 · 789 阅读 · 0 评论 -
HDFS故障类型和检测方法
读数据时,namenode会返回所有datanode的位置,如果从某个datanode无法读数据,会跳过该datanode并选择其他datanode读数据。写数据未收到应答,会跳过该datanode,写入其他datanode,稍后等namenode处理此datanode。1.2 datanode 3秒 发送心跳信号,如果 namenode 未接收到心跳信号,datanode 挂。移除故障datanode,并指定其他datanode拷贝数据。未接受到应答则认为通讯故障。3.datanode故障。原创 2022-09-15 09:09:49 · 1480 阅读 · 0 评论 -
MySql字符串索引
4. 创建hash字段索引, 查询性能稳定, 有额外的存储和计算消耗, 跟第三种方式一样, 都不支。2. 创建前缀索引, 节省空间, 但会增加查询扫描次数, 并且不能使用覆盖索引;3. 倒序存储, 再创建前缀索引, 用于绕过字符串本身前缀的区分度不够的问题;1. 直接创建完整索引, 这样可能比较占用空间;原创 2022-09-09 16:28:47 · 587 阅读 · 0 评论 -
MySql 事务隔离实现:
InnoDB的事务系统申请的, 是按申请顺序严格递增的。每次事务更新数据的时候, 都会生成一个新的数据版本, 并且把transaction id赋值给这个数据版本的事务ID, 记为row trx_id。同时, 旧的数据版本要保留,并且在新的数据版本中, 能够有信息可以直接拿到它。也就是说, 数据表中的一行记录, 其实可能有多个版本(row), 每个版本有自己的row trx_id。InnoDB的行数据有多个版本, 每个数据版本有自己的row trx_id, 每个事务或者语句有自己的一。原创 2022-09-07 16:55:33 · 204 阅读 · 0 评论 -
MySql 锁的分类
MySQL里面表级别的锁有两种: 一种是表锁, 一种是元数据锁(meta data lock, MDL)。1)表锁:可以用unlock tables主动释放锁,也可以在客户端断开的时候自动释放。如果你的事务中需要锁多个行, 要把最可能造成锁冲突、 最可能影响并发度的锁尽量往后放。在InnoDB事务中, 行锁是在需要的时候才加上的, 但并不是不需要了就立刻释。根据加锁的范围, MySQL里面的锁大致可以分成全局锁、 表级锁和行锁三类。2)元数据锁:MDL不需要显式使用,保证读写的正确性。原创 2022-09-07 16:05:58 · 304 阅读 · 0 评论 -
MySql主键索引和非主键索引/聚簇索引和非聚簇索引
如果语句是select * from Twhere k=5, 即普通索引查询方式, 则需要先搜索k索引树, 得到ID。如果语句是select * from Twhere ID=500, 即主键查询方式, 则只需要搜索ID这棵B+树;1. 主键索引的叶子节点存的是整行数据。2. 非主键索引的叶子节点内容是主键的值。在InnoDB里, 非主键索引也被称为二级索引。也就是说, 基于非主键索引的查询需要多扫描一棵索引树。根据上面的索引结构说明, 我们来讨论一个问题: 基于主键索引和普通索引的查询有什么区别?原创 2022-09-07 15:40:15 · 818 阅读 · 0 评论 -
数据库索引分类
主要用来查找文本中的关键字,而不是直接与字段值进行比较,全文索引需要配合match against使用,而不是一般的where like…是对空间数据类型的字段建立的索引,传统索引的多维化,空间索引的列必须是not null。eg:(a,b,c)创建索引,共有(a),(a,b),(a,b,c)三种索引。多列值组成一个索引,用于组合搜索,效率大于索引合并。3)主键索引:不允许空值,不允许重复值。2)唯一索引:不允许重复值,允许空值。1)普通索引:允许空值,允许重复值。2. 组合索引(联合索引)原创 2022-09-07 15:37:49 · 3136 阅读 · 0 评论 -
db2隔离级别
具体的锁的类型还是由操作的类型来决定,如果是读取,则加共享锁;由于会锁定所有为获得SQL语句的结果而扫描的纪录, 所以锁的数量可能会很庞大, 这个时候, 索引的增加可能会对SQL语句的执行有很大的影响,因为索引会影响SQL语句扫描的纪录数量。由於会锁定所有為获得SQL语句的结果而扫描的纪录,所以锁 的数量可能会很庞大,这个时候,索引的增加可能会对SQL语句的执行有很大的影响,因為索引会影响SQL语句扫描的纪录数量。2.RS隔离级别:此隔离级别的要求比RR隔离级别稍弱,此隔离级别下会锁定所有符合条件的纪录。原创 2022-09-07 14:45:55 · 1490 阅读 · 0 评论 -
MySql日志
binlog是MySQL的Server层实现的, 所有引擎都可以使用。3. redo log是循环写的, 空间固定会用完;binlog是可以追加写入的。“追加写”是指binlog文件。2. redo log是物理日志, 记录的是“在某个数据页上做了什么修改”;binlog是逻辑日志, 记录的。redo log和binlog都可以用于表示事务的提交状态, 而两阶段提交就是让这两个状态保。是这个语句的原始逻辑, 比如“给ID=2这一行的c字段加1 ”。写到一定大小后会切换到下一个, 并不会覆盖以前的日志。原创 2022-09-07 11:27:31 · 97 阅读 · 0 评论 -
MySql架构
1. 存储引擎层负责数据的存储和提取。其架构模式是插件式的, 支持InnoDB、 MyISAM、Memory等多个存储引擎。现在最常用的存储引擎是InnoDB。2. MySql8.0以后缓存删除了。原创 2022-09-07 10:54:16 · 547 阅读 · 0 评论 -
redis复制机制
Master以写为主,Slaver以读为主。Master/Slaver机制。作用读写分离,容灾恢复。原创 2022-07-28 22:33:58 · 145 阅读 · 0 评论 -
redis事务
事务一组命令的集合。一个事务中所有命令都会序列化,按顺序地串行化执行而不会被其他命令插入,不许加塞。入队将多个命令入队到事务中,接到这些命令不会立即执行,而是放到等待执行事务的队列中。3.冤头寨主谁错找谁,单词执行没报错,已经加入队列,最终执行事务报错,一般错误。2.全体连坐一次性全部成功或失败,单次执行过程就报错了,比较严重的错误。redis事务的特点单独的隔离操作,没有隔离级别,不保证原子性。作用一个队列中,一次性,顺序性,排他性的执行一系列命令。执行由EXEC命令触发事务。......原创 2022-07-28 19:45:02 · 186 阅读 · 0 评论 -
redis 持久化
以日志形式记录每个写操作,只许追加文件。恢复时根据日志文件将指令执行一次。fork一个子进程,做持久化。写入/读取临时文件。主进程不进行IO操作。适合大规模数据恢复,数据恢复完整性差。时间段中内存中的数据写入磁盘。......原创 2022-07-28 12:57:52 · 258 阅读 · 0 评论 -
分布式和集群
集群不同的多台服务器上部署相同的模块,通过分布式调度软件统一调度,对外提供服务和访问。分布式不同的多台服务器上部署不同的模块,他们之间通过rpc,rmi通信。原创 2022-07-27 16:24:51 · 79 阅读 · 0 评论 -
ACID+CAP+BASE+PACELC
AP大部分网站架构选择。原创 2022-07-27 16:21:54 · 249 阅读 · 0 评论 -
Mesos学习
Mesos——像用一台电脑(一个资源池)一样使用整个数据中心ApacheMesos是一个开源的集群管理器,用来抽象CPU,内存,储存等计算资源,并且支持容错以及弹性分布式系统。Mesos内核运行在每个集群机器中,并且提供为应用程序提供API来管理集群和调度。分布式操作系统内核Mesos是以与Linux内核同样的原则而创建的,不同点仅仅是在于抽象的层面。Mesos内核运行在每一个机器上,同时通过API为各种应用提供跨数据中心和云的资源管理调度能力。............原创 2022-07-26 00:17:50 · 803 阅读 · 0 评论 -
RDD和DataFrame和Dataset
为了支持结构化数据的处理,SparkSQL提供了新的数据结构DataFrame。DataFrame是一个由具名列组成的数据集。它在概念上等同于关系数据库中的表或R/Python语言中的dataframe。由于SparkSQL支持多种语言的开发,所以每种语言都定义了DataFrame的抽象Dataset也是分布式的数据集合,它集成了RDD和DataFrame的优点,具备强类型的特点,同时支持Lambda函数。......原创 2022-07-30 12:31:50 · 221 阅读 · 0 评论 -
Transformation 和 Action 常用算子
代码】Transformation和Action常用算子。原创 2022-08-02 13:30:26 · 120 阅读 · 0 评论 -
RDD依赖
RDD(s)及其之间的依赖关系组成了DAG(有向无环图),DAG定义了这些RDD(s)之间的Lineage(血统)关系,通过血统关系,如果一个RDD的部分或者全部计算结果丢失了,也可以重新进行计算。那么Spark是如何根据DAG来生成计算任务呢?......原创 2022-08-15 18:48:21 · 84 阅读 · 0 评论 -
RDD分区
2.Key-Value型的RDD还拥有Partitioner(分区器),用于决定数据被存储在哪个分区中,目前Spark中支持HashPartitioner(按照哈希分区)和RangeParationer(按照范围进行分区);1.一个RDD由一个或者多个分区(Partitions)组成。对于RDD来说,每个分区会被一个计算任务所处理,用户可以在创建RDD时指定其分区个数,如果没有指定,则默认采用程序所分配到的CPU的核心数;...原创 2022-09-18 14:48:30 · 651 阅读 · 0 评论