lmdb介绍
参考
- LMDB的全称是Lightning Memory-Mapped Database(快如闪电的内存映射数据库)
- 它的文件结构简单,包含一个数据文件和一个锁文件
- LMDB文件可以同时由多个进程打开,具有极高的数据存取速度,访问简单,不需要运行单独的数据库管理进程,只要在访问数据的代码里引用LMDB库,访问时给文件路径即可。
- 让系统访问大量小文件的开销很大,而LMDB使用内存映射的方式访问文件,使得文件内寻址的开销非常小,使用指针运算就能实现。
- 数据库单文件还能减少数据集复制/传输过程的开销。
安装lmdb
conda install -c conda-forge python-lmdb
# 以下方法安装会导致import lmdb报错 No module named 'lmdb'
#pip install lmdb
#conda install lmdb
使用
import lmdb
def lmdb_create():
env = lmdb.open("./train",map_size=1000)
env.close()
def lmdb_using():
env = lmdb.open("./train", map_size=int(1e9))
txn = env.begin(write=True)
txn.put(key = '1'.encode(), value = 'aaa'.encode())
txn.put(key = '2'.encode(), value = 'bbb'.encode())
txn.put(key = '3'.encode(), value = 'ccc'.encode())
txn.delete(key = '1'.encode())
txn.put(key = '3'.encode(), value = 'ddd'.encode())
txn.commit()
env.close()
def lmdb_read():
env = lmdb.Environment('./train')
txn = env.begin()
print(txn.get('2'.encode()))
for key, value in txn.cursor():
print (key, value)
print(txn.stat())
print(txn.stat()['entries'])
env.close()
def main():
lmdb_read()
if __name__ == '__main__':
main()
获取LMDB文件的样本数量