1 简介
BDB的全称Berkeley DB,是一套开放源码的嵌入式数据库的程序库。它为应用程序提供可伸缩的、高性能的、有事务保护功能的数据管理服务。Berkeley DB为数据的存取和管理提供了一组简洁的函数调用API接口。
BDB为多种编程语言提供了API接口,其中包括C、C++、Java、Perl、Tcl、Python和PHP,所有的数据库操作都在程序库内部发生。多个进程,或者同一进程的多个线程可同时使用数据库,有如各自单独使用,底层的服务如加锁、事务日志、共享缓冲区管理、内存管理等等都由程序库透明地执行。
Berkeley DB 底层体系结构:
如上图,应用程序调用访问方法,而访问方法使用底层的共享内存cache放置最近用过的文件页面。
2 存储逻辑介绍
BDB所管理数据的逻辑组织单位是若干个独立或有一定关系的数据库(database),每个数据库由若干记录组成,这些记录全都被表示成(key,value)的形式。
如果把一组相关的(key,value)对也看作一个表的话,那么每一个数据库只允许存放一个table,这一点不同于一般的关系数据库。实际上,在Berkeley DB中所提到的“数据库”,相当于一般关系数据库系统中的表;而“key/data”对相当于关系数据库系统中的行(rows);Berkeley DB不提供关系数据库中列直接访问的功能,而是在“key/data”对中的data项中通过实际应用来封装字段(列)。
在物理组织上,每一个数据库在创建的时候可以由应用程序根据其数据特点来选择一种合适的存储结构。可供选择的四种文件存储结构分别是:哈希、B树、定长记录(队列)和变长记录(基于记录号的简单存储方式)。
其中定长记录和变长记录存储方法必须使用逻辑记录号(logical record numbers,本质上就是一个整数)做为key。
哈希和B树存储方法对key没有特别的要求。当数据量非常多时(内存不能放下所有数据时),建议使用哈希,因为哈希比B树的索引信息小,会少一些I/O操作。
3 系统结构介绍:
BDB由五个主要的子系统构成.包括: 存取管理子系统、内存池管理子系统、事务子系统、锁子系统以及日志子系统。其中存取管理子系统作为Berkeley DB数据库进程包内部核心组件,而其他子系统都存在于Berkeley DB数据库进程包的外部。每个子系统支持不同的应用级别。
3.1 数据存取子系统
数据存取(Access Methods)子系统为创建和访问数据库文件提供了多种支持。Berkeley DB提供了以下四种文件存储方法:
哈希文件、B树、定长记录(队列)和变长记录(基于记录号的简单存储方式),应用程序可以从中选择最适合的文件组织结构。程序员创建表时可以使用任意一种结构,并且可以在同一个应用程序中对不同存储类型的文件进行混合操作。
在没有事务管理的情况下,该子系统中的模块可单独使用,为应用程序提供快速高效的数据存取服务。
数据存取子系统适用于不需事务只需快速格式文件访问的应用。
3.2 内存池管理子系统
内存池(Memory pool)子系统对Berkeley DB所使用的共享缓冲区进行有效的管理。它允许同时访问数据库的多个进程或者进程的多个线程共享一个高速缓存,负责将修改后的页写回文件和为新调入的页分配内存空间。
它也可以独立于Berkeley DB系统之外,单独被应用程序使用,为其自己的文件和页分配内存空间。
内存池管理子系统适用于需要灵活的、面向页的、缓冲的共享文件访问的应用。
内存数据和硬盘文件的同步有两种方式:
1. 需要程序显式条用同步函数才能完成,当数据量比较大时同步比较慢,会造成大量的I/O操作,而且由于内部锁的原因,会对查询造成影响。
2. 在BDB打开时会设置一个cache的大小,也就是BDB使用内存的大小。如果超过这个大小,BDB会自动同步数据到硬盘文件。
3.3 事务子系统
事务(Transaction)子系统为Berkeley DB提供事务管理功能。它允许把一组对数据库的修改看作一个原子单位,这组操作要么全做,要么全不做。在默认的情况下,系统将提供严格的ACID事务属性,但是应用程序可以选择不使用系统所作的隔离保证。该子系统使用两段锁技术和先写日志策略来保证数据库数据的正确性和一致性。
它也可以被应用程序单独使用来对其自身的数据更新进行事务保护。事务子系统适用于需要事务保证数据的修改的应用。
在本次项目里,并没有用到事务,所以对此研究也不够深入。
3.4 锁子系统
锁(Locking)子系统为BDB提供锁机制,为系统提供多用户读取和单用户修改同一对象的共享控制。
数据存取子系统可利用该子系统获得对页或记录的读写权限;事务子系统利用锁机制来实现多个事务的并发控制。
该子系统也可被应用程序单独采用。锁子系统适用于一个灵活的、快速的、可设置的锁管理器。
目前的使用上来看,当使用BDB的进程异常终止时,所占用的锁并不能释放,需要删除BDB环境文件才能释放所有锁。这个问题后期再详细研究一下。
3.5 日志子系统
日志(Logging)子系统采用的是先写日志的策略,用于支持事务子系统进行数据恢复,保证数据一致性。它不大可能被应用程序单独使用,只能作为事务子系统的调用模块。
以上几部分构成了整个Berkeley DB数据库系统。各部分的关系如下图所示:
在这个模型中,应用程序直接调用的是数据存取子系统和事务管理子系统,这两个系统进而调用更下层的内存管理子系统、
锁子系统和日志子系统。
由于几个子系统相对比较独立,所以应用程序在开始的时候可以指定哪些数据管理服务将被使用。可以全部使用,也可以只用其中的一部分。例如,如果一个应用程序需要支持多用户并发操作,但不需要进行事务管理,那它就可以只用锁子系统而不用事务。有些应用程序可能需要快速的、单用户、没有事务管理功能的B树存储结构,那么应用程序可以使锁子系统和事务子系统失效,这样就会减少开销
4 编译、安装
可以在http://www.oracle.com/technology/products/berkeley-db/index.html 现在最新的安装包和文档。
将安装包结压后,进入build_unix目录
../dist/configure
Make
Make install
就可以完成编译,安装
安装的默认目录是/usr/local/BerkeleyDB.4.5/,如果要安装到其他目录,在configure是指定--prefix=NEW_DIR即可。如果要使用BDB的c++,在configure指定--enable-cxx即可。
5 C++API介绍
经常用的类有5个
1. DbEnv:环境类,主要用于设置BDB是否需要日志、是否需要锁等信息;提供打开、关闭等操作
2. Db:DB类,用户操作数据,提供打开、关闭、查找、删除、同步等操作
3. Dbt:数据类,向Db中存入、取出数据都需要使用这个类。
4. DbException及其子类:异常类
5. Dbc:游标类,当对数据库中多组数据进行操作时使用
#include <db_cxx.h>
#include <string>
#include <iostream>
using namespace std;
DbEnv *g_env = NULL;
Db *g_db = NULL;
void closeEnv()
{
try
{
if(g_db)
{
g_db->close(0);
delete g_db;
g_db = NULL;
}
if(g_env)
{
g_env->close(0);
delete g_env;
g_env = NULL;
}
}
catch(...)
{
}
}
int main()
{
//环境目录,日志文件将创建在这个目录下
string strEnvHome = "./db/";
//创建DB|初始化日志
unsigned int nEnvFlags = DB_CREATE | DB_INIT_LOG | DB_INIT_MPOOL;
//db文件名
string strDbFileName = get_current_dir_name();
strDbFileName += "/db/datafile";
try
{
g_env = new DbEnv(0);
g_env->set_error_stream(&std::cerr);
g_env->set_cachesize(0, 10 * 1024 * 1024, 1);
//打开环境
g_env->open(strEnvHome.c_str(), nEnvFlags, 0);
g_db = new Db(g_env, 0);
g_db->set_error_stream(&std::cerr);
//用B树的结构打开数据库,如果不存在则创建
g_db->open(NULL, strDbFileName.c_str(), NULL, DB_BTREE, DB_CREATE, 0);
}
catch(DbException& e)
{
cout<<"打开数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
Dbt key, data;
char sKey[1024], sData[1024];
//插入数据库
try
{
for(int i=0; i<100; i++)
{
snprintf(sKey, sizeof(sKey), "key%d", i);
snprintf(sData, sizeof(sData), "data%d", i);
key.set_data(sKey);
key.set_size( strlen(sKey) );
data.set_data(sData);
data.set_size( strlen(sData) );
//put方法:当数据库中有对应的key时,做updata操作;当没有对应的key时,做insert操作
if( g_db->put(NULL, &key, &data, 0) != 0)
{
//插入出错
cout<<"插入第"<<i<<"个数据时出错"<<endl;
}
}
}
catch(DbException& e)
{
cout<<"写入数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
//同步内存的数据到文件
g_db->sync(0);
//查找数据
try
{
snprintf(sKey, sizeof(sKey), "key%d", 57);
key.set_data(sKey);
key.set_size( strlen(sKey) );
if(g_db->get(NULL, &key, &data, 0) != 0)
{
//未查找到
cout<<"未查找到,key:"<<sKey<<endl;
}
else
{
//查找到
memcpy(sData, data.get_data(), data.get_size() );
sData[data.get_size()] = '/0';
cout<<"key:"<<sKey<<";data:"<<sData<<endl;
}
}
catch(DbException& e)
{
cout<<"查找数据库出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
//用游标遍历
try
{
Dbc *cursorp;
if( g_db->cursor(NULL, &cursorp, 0) != 0)
{
cout<<"[get cursor 错误."<<endl;
}
else
{
while (cursorp->get(&key, &data, DB_NEXT) == 0)
{
memcpy(sKey, key.get_data(), key.get_size() );
sKey[key.get_size()] = '/0';
memcpy(sData, data.get_data(), data.get_size() );
sData[data.get_size()] = '/0';
cout<<"key:"<<sKey<<";data:"<<sData<<endl;
}
}
}
catch(DbException& e)
{
cout<<"用游标遍历出错:"<<e.what()<<endl;
closeEnv();
return -1;
}
closeEnv();
}
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1548571
PS:若图片看不了,可以参考 http://hi.baidu.com/jrckkyy/blog/item/8a2d71fd49a2b44bd7887df7.html