问题由来
近段时间我们项目需要实现一个事务版本控制的列式数据库,下面来讲一讲我们的设计:
开启事务时候进行一个事务说明
例如
1.开启事务
POST http://ip:端口/_open
{
"explainValue(操作解释)":
"I want update some Info")(必要)
}
2.关闭事务
POST http://ip:端口/_close
记录时间戳
记录开启该事务的时间戳和关闭事务的时间戳,将表和列族的元数据添加创建时间(initTime)和最近使用时间(latestTime)。
记录数据和操作
数据格式,我们对于最小单位的数据有三种type:add、update、delete
class KV{
long lastestTime;
byte[] row;
List<ValueNode> values;
}
class ValueNode{
long timestamp;
final Type type;
byte[] qualifier;
byte[] value;
}
库操作的记载
库操作的类型只有创建和删除
class tableAlter{
long timestamp;
String dbName;
byte type;
}
表操作的记载
表操作的类型只有创建和删除
class tableAlter{
long timestamp;
String tableName;
byte type;
}
表结构操作的记载
这里的type是列族的数据类型
class tableAlter {
long timestamp;
String cfName;
String old-cfName;
byte method;
byte type;
String min;
String max;
boolean unique;
}
版本追溯过程
1.在该数据库中任何数据的删除都不是真正物理上的删除,删除库和删除表只不过是将其元数据做一个disable的标记。
2.根据该条事务的开始时间和结束时间,下面我们称为该段时间,查看在该时间段后(包括该时间段)是否有库和表的删除和创建,如果有删除就将其disable的标记修改成able的标记。
3.之后查找修改表结构的操作,将其进行复原成改段时间之前的最新的表结构。
4.最后查找符合条件(库和表都是able标志,且库和表的元数据lastestTime在该事务开启时间之后)的列族,
找到lastestTime大于该事务的开启时间的KV,
遍历找出该KV所有满足该时间段之前最新的数据(valueNode),
将该数据提取到最新。