open-courses
  • 公开课笔记
  • CMU 15-445/645 Database Systems
    • Relational Data Model
    • Advanced SQL
    • Database Storage
    • Buffer Pools
    • Hash Tables
    • Tree Indexes
    • Index Concurrency Control
    • Query Processing
    • Sorting&Aggregations
    • Join Algorithms
    • Query Optimization
    • Parallel Execution
    • Embedded Database Logic
    • Concurrency Control Theory
    • Two Phase Locking
    • Timestamp Ordering Concurrency Control
    • Multi-Version Concurrency Control
    • Logging Schemes
    • Database Recovery
    • Introduction to Distributed Databases
    • Distributed OLTP Databases
    • Distributed OLAP Databases
  • UCB - CS162
    • OS intro
    • Introduction to the Process
    • Processes, Fork, I/O, Files
    • I/O Continued, Sockets, Networking
    • Concurrency: Processes & Threads
    • Cooperating Threads, Synchronization
    • Semaphores, Condition Variables, Readers/Writers
    • Scheduling
    • Resource Contention & Deadlock
    • Address Translation, Caching
    • File System (18,19,20)
    • Distributed Systems, Networking, TCP/IP, RPC (21,22)
    • Distributed Storage, Key-Value Stores, Security (23)
    • Security & Cloud Computing (24)
    • Topic: Ensuring Data Reaches Disk
  • MIT - 6.006
    • Sequence and Set Interface
    • Data Structure for Dynamic Sequence Interface
    • Computation Complexity
    • Algorithms and Computation
    • Structure Of Computation
    • Graph & Search
    • Tree & Search
    • Weighted Shortest Paths
    • String Matching, Karp-Rabin
    • Priority Queue Interface & Implementation
    • Dictionary Problem & Implementation
    • Sorting
    • Dynamic Programming
    • Backtracking
    • Self-Balancing Tree
  • MIT - 6.824
    • 2PC & 3PC
    • Introduction and MapReduce
    • RPC and Threads
    • Primary/Backup Replication
    • Lab: Primary/Backup Key/Value Service
    • Google File System (GFS)
    • Raft
    • Lab: Raft - Leader Election
    • Lab: Raft - Log Replication
  • Stanford-CS107
    • 原始数据类型及相互转化
    • 指鹿为马
    • 泛型函数
    • 泛型栈
    • 运行时内存结构
    • 从 C 到汇编
    • 函数的活动记录
    • C 与 C++ 代码生成
    • 编译的预处理过程
    • 编译的链接过程
    • 函数的活动记录续、并发
    • 从顺序到并发和并行
    • 信号量与多线程 1
    • 信号量与多线程 2
    • 复杂多线程问题
    • 函数式编程 - Scheme 1
    • 函数式编程 - Scheme 2
    • 函数式编程 - Scheme 3
    • 函数式编程 - Scheme 4
    • 函数式编程 - Scheme 5
    • Python 基础
  • MIT - 6.001 - SICP
    • 什么是程序
    • 程序抽象
    • 替代模型
    • 时间/空间复杂度
    • 数据抽象
    • 高阶函数
    • Symbol
    • 数据驱动编程与防御式编程
    • 数据抽象中的效率与可读性
    • 数据修改
    • 环境模型
    • 面向对象-消息传递
    • 面向对象 - Scheme 实现
    • 构建 Scheme 解释器
    • Eval-Apply Loop
    • Normal Order (Lazy) Evaluation
    • 通用机
    • 寄存器机器
    • 子程序、栈与递归
    • 在寄存器机器中执行
    • 内存管理
  • MIT - 6.046
    • Randomized Algorithms
    • Skip Lists
  • System Design
    • Twitter
    • Cache Consistency & Coherence
  • DDIA 笔记
    • Replication
    • Transactions
    • The Trouble with Distributed Systems
    • Consistency & Consensus
  • Papers We Love
    • Consistent Hashing and Random Trees (1997)
    • Dynamic Hash Tables (1988)
    • LFU Implementation With O(1) Complexity (2010)
    • Time, Clocks, and the Ordering of Events in a Distributed System (1978)
    • Dapper, a Large-Scale Distributed Systems Tracing Infrastructure (2010)
    • Gorilla: A Fast, Scalable, In-Memory Time Series Database (2015)
  • Release It 笔记
    • Anti-patterns & Patterns in Microservice Architecture
  • Database Design
    • Log Structured Merge (LSM) Tree & Usages in KV Stores
    • Prometheus
Powered by GitBook
On this page
  • 简介
  • MVCC
  • Example #1
  • Example #2
  • 小结
  • Design Decisions
  • Concurrency Control Protocol
  • Version Storage
  • Garbage Collection
  • Index Management
  • MVCC Implementations
  • Conclusion
  1. CMU 15-445/645 Database Systems

Multi-Version Concurrency Control

PreviousTimestamp Ordering Concurrency ControlNextLogging Schemes

Last updated 4 years ago

简介

简而言之,实现 MVCC 的 DBMS 在内部维持着单个逻辑数据的多个物理版本,当事务修改某数据时,DBMS 将为其创建一个新的版本;当事务读取某数据时,它将读到该数据在事务开始时刻之前的最新版本。

MVCC 首次被提出是在 1978 年的一篇 MIT 的博士中。在 80 年代早期,DEC 的 Rdb/VMS 和 InterBase 首次真正实现了 MVCC,其作者是 Jim Starkey,NuoDB 的联合创始人。如今,Rdb/VMS 成了 Oracle Rdb,InterBase 成为开源项目 Firebird。

MVCC

MVCC 的核心优势可以总结为以下两句话:

Writers don't block readers. 写不阻塞读

Readers don't block writers. 读不阻塞写

只读事务无需加锁就可以读取数据库某一时刻的快照,如果保留数据的所有历史版本,DBMS 甚至能够支持读取任意历史版本的数据,即 time-travel。

Example #1

事务T1T_1T1​和 T2T_2T2​分别获得时间戳 1 和 2,二者的执行过程如下图所示。开始前,数据库存有数据 A 的原始版本 A0A_0A0​, T1T_1T1​先读取 A 数据:

Example #2

小结

MVCC 并不只是一个并发控制协议,并发控制协议只是它的一个组成部分。它深刻地影响了 DBMS 管理事务和数据的方式,使用 MVCC 的 DBMS 数不胜数:

Design Decisions

上文提到,MVCC 不止是一个并发控制协议,它由许多部分组成,这些部分包括:

  • Concurrency Control Protocol

  • Version Storage

  • Garbage Collection

  • Index Management

每一部分都可以选择不同的方案,可以根据具体场景作出最优的设计选择。

Concurrency Control Protocol

前面 2 节课已经介绍了各种并发控制协议,MVCC 可以选择其中任意一个:

Approach #1:Timestamp Ordering (T/O):为每个事务赋予时间戳,并用以决定执行顺序 Approach #2:Optimistic Concurrency Control (OCC):为每个事务创建 private workspace,并将事务分为 read, write 和 validate 3 个阶段处理 Approach #3:Two-Phase Locking (2PL):按照 2PL 的约定获取和释放锁

Version Storage

如何存储一条数据的多个版本?DBMS 通常会在每条数据上拉一条版本链表 (version chain),所有相关的索引都会指到这个链表的 head,DBMS 可以利用它找到一个事务应该访问到的版本。不同的版本存储方案在 version chain 上存储的数据不同,主要有 3 种存储方案:

Approach #1:Append-Only Storage:新版本通过追加的方式存储在同一张表中 Approach #2:Time-Travel Storage:老版本被复制到单独的一张表中 Approach #3:Delta Storage:老版本数据的被修改的字段值被复制到一张单独的增量表 (delta record space) 中

Append-Only Storage

如下图所示,同一个逻辑数据的所有物理版本都被存储在同一张表上,每次更新时,就往表上追加一个新的版本记录,并在旧版本的数据上增加一个指针指向新版本:

再次更新的行为类似:

也许你已经注意到,指针的方向也可以从新到旧,二者的权衡如下:

Approach #1:Oldest-to-Newest (O2N):写的时候追加即可,读的时候需要遍历链表 Approach #2:Newest-to-Oldest (N2O):写的时候需要更新所有索引指针,读的时候不需要遍历链表

Time-Travel Storage

单独拿一张表 (Time-Travel Table) 来存历史数据,每当更新数据时,就把当前版本复制到 TTT 中,并更新指针:

Delta Storage

每次更新,仅将变化的字段信息存储到 delta storage segment 中:

DBMS 可以通过 delta 数据逆向恢复数据到之前的版本。

Garbage Collection

随着时间的推移,DBMS 中数据的旧版本可能不再会被用到,如:

  • 已经没有活跃的事务需要看到该版本

  • 该版本是被一个已经中止的事务创建

这时候 DBMS 需要删除这些可以回收的物理版本,这个过程也被称为 GC。在 GC 的过程中,还有两个附加设计决定:

  • 如何查找过期的数据版本

  • 如何确定某版本数据是否可以被安全回收

GC 可以从两个角度出发:

Approach #1:Tuple-level:直接检查每条数据的旧版本数据 Approach #2:Transaction-level:每个事务负责跟踪数据的旧版本,DBMS 不需要亲自检查单条数据

Tuple-Level GC

Background Vacuuming

如下图所示,假设有 2 个活跃事务,它们的时间戳分别为 12 和 25:

这时有个 Vacuum 守护线程会周期性地检查每条数据的不同版本,如果它的结束时间小于当前活跃事务的最小时间戳,则将其删除:

为了加快 GC 的速度,DBMS 可以再维护一个脏页位图 (dirty page bitmap),利用它,Vacuum 线程可以只检查发生过改动的数据,用空间换时间。Background Vacuuming 被用于任意 Version Storage 的方案。

Cooperative Cleaning

还有一种做法是当 worker thread 查询数据时,顺便将不再使用物理数据版本删除:

cooperative cleaning 只能用于使用 O2N 的 version chain 方案。

Transaction-Level GC

让每个事务都保存着它的读写数据集合 (read/write set),当 DBMS 决定什么时候这个事务创建的各版本数据可以被回收时,就按照集合内部的数据处理即可。

Index Management

Primary Key Index

主键索引直接指向 version chain 的头部。

Secondary Indexes

二级索引有两种方式指向数据本身:

Approach #1:逻辑指针,即存储主键值或 Tuple Id Approach #2:物理指针,即存储指向 version chain 头部的指针

Physical Pointer

Logical Pointer by Primary Key

Logical Pointer by Tuple Id

MVCC Implementations

市面上 MVCC 的实现所做的设计决定如下表所示:

Conclusion

MVCC 被许多 DBMS 采用,即使那些不支持多语句事务 (multi-statement txns) 的 DBMS 也会使用这种方案,如一些 NoSQL 项目。

然后 T2T_2T2​修改 A 数据,这时 DBMS 中将增加 A 数据的新版本 A1A_1A1​,同时标记 A1A_1A1​的开始时间戳为 2, A0A_0A0​ 的结束时间戳为 2:

T1T_1T1​再次读取 A,因为它的时间戳为 1,根据记录的信息,DBMS 将 A0A_0A0​返回给 T1T_1T1​ :

例 2 与例 1 类似,T1T_1T1​先修改数据 A:

此时 T2T_2T2​读取 A,由于 T1T_1T1​尚未提交, T2T_2T2​ 只能读取 A0A_0A0​:

T2T_2T2​想修改 A,但由于有另一个活跃的事务 T1T_1T1​正在修改 A , T2T_2T2​ 需要等待 T1T_1T1​提交后才能继续推进:

T1T_1T1​提交后, T2T_2T2​创建了 A 的下一个版本 A2A_2A2​ :

论文