网络爬虫中URL队列即爬虫队列是较为关键的数据结构,对于数据量要求不大的爬虫,我们可以简单的使用Java类库中的内存数据结构,例如链表或者队列来实现URL队列,但是当我们面对数以亿计的链接时,内存数据结构就会因内存的持续增长显得力不从心,这时就需要用到内存数据库-Berkeley DB,它能够存储海量数据,当数据超出内存限制时,能够把它固化在硬盘上,而且存取速度也非常快并且支持多线程访问。
Berkeley DB底层采用B树,可以看成能够存储大容量数据的HashMap,最开始是以C++版本出现的,然后在此基础上又实现了Java本地版本,可以从http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 选择Java Edition下载,并将lib目录下的je-x.jar加入到工程类路径里就可以使用。
下面就说一下他的使用方法:
public class Jedion{
private EnvironmentConfig envConfig = null;//数据库环境配置对象
private Environment myDbEnvironment = null;//数据库环境对象
private DatabaseConfig dbConfig = null;//数据库配置对象
private Database myDatabase = null;//数据库对象
private String envDir = "dbEnv";//用户指定目录,存放数据文件和日志文件
private String dbName = "test";//数据库名称
//配置创建环境对象
public void configEnvironment(){
envConfig = new EnvironmentConfig();
envConfig.setAllowCreate(true);//如果设置了true则表示当数据库环境不存在时候重新创建一个数据库环境,默认为false.
envConfig.setTransactional(true);//事务支持,如果为true,则表示当前环境支持事务处理,默认为false,不支持事务处理。
envConfig.setReadOnly(false);//是否以只读方式打开,默认为false.
/*
envConfig.setCachePercent(50);//设置当前环境能够使用的RAM占整个JVM百分比
envConfig.setCacheSize(102400);//设置当前环境能使用的最大RAM,单位为byte
*/
myDbEnvironment = new Environment(new File(envDir), envConfig);
}
//配置创建完环境对象后,可以用它创建数据库
public void createDatabase(){
dbConfig = new DatabaseConfig();
dbConfig.setAllowCreate(true);//如果设置了true则表示当数据库不存在时候重新创建一个数据库,默认为false.
dbConfig.setTransactional(true);//事务支持,如果为true,则表示当前数据库支持事务处理,默认为false,不支持事务处理。
dbConfig.setReadOnly(false);//是否以只读方式打开,默认为false.
/*
dbConfig.setBtreeComparator();//设置用于Btree比较的比较器,通常是用来排序
dbConfig.setDuplicateComparator();//设置用来比较一个key有两个不同值的时候的大小比较器。
dbConfig.setSortedDuplicates(true);//设置一个key是否允许存储多个值,true代表允许,默认false.
dbConfig.setExclusiveCreate(true);//以独占的方式打开,也就是说同一个时间只能有一实例打开这个database。
*/
myDatabase = myDbEnvironment.openDatabase(null, dbName, dbConfig);
System.out.println(myDatabase.getDatabaseName());
}
//像数据库中写数据
public void writeToDatabase(String key, String value, boolean isOverwrite){
try {
//JE的记录包含两部分,key键值和value数据值,这两个值都是通过DatabaseEntry对象封装起来的
//所以说如果要使用记录,则必须创建两个DatabaseEntry对象,一个是key,一个是value
//DatabaseEntry内部使用的是bytes数组
DatabaseEntry databaseKey = new DatabaseEntry(key.trim().getBytes("utf8"));
DatabaseEntry databaseValue = new DatabaseEntry(value.trim().getBytes("utf8"));
OperationStatus res = null;//操作状态码
Transaction txn = null;//事务对象
TransactionConfig txConfig = new TransactionConfig();//事务配置
txConfig.setSerializableIsolation(true);//设置串行化隔离级别
txn = myDbEnvironment.beginTransaction(null, txConfig);//开始事物
if(isOverwrite)
//添加一条记录。如数据库不支持一个key对应多个data或当前数据库中已经存在该key了,则使用此方法将使用新的值覆盖旧的值。
res = myDatabase.put(txn, databaseKey, databaseValue);
else
//不管数据库是否允许支持多重记录(一个key对应多个value),只要存在该key就不允许添加,并且返回perationStatus.KEYEXIST信息
res = myDatabase.putNoOverwrite(txn, databaseKey, databaseValue);
txn.commit();//提交事务
if(res == OperationStatus.SUCCESS)
System.out.println("insert success");
else if(res == OperationStatus.KEYEXIST)
System.out.println("key exist");
else
System.out.println("insert fail");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
//遍历数据库中数据
public ArrayList<String> getAllFromDatabase() throws UnsupportedEncodingException{
Curso