URL队列(爬虫队列)-Berkeley DB的使用示例(Java)

网络爬虫中URL队列即爬虫队列是较为关键的数据结构,对于数据量要求不大的爬虫,我们可以简单的使用Java类库中的内存数据结构,例如链表或者队列来实现URL队列,但是当我们面对数以亿计的链接时,内存数据结构就会因内存的持续增长显得力不从心,这时就需要用到内存数据库-Berkeley DB,它能够存储海量数据,当数据超出内存限制时,能够把它固化在硬盘上,而且存取速度也非常快并且支持多线程访问。

Berkeley DB底层采用B树,可以看成能够存储大容量数据的HashMap,最开始是以C++版本出现的,然后在此基础上又实现了Java本地版本,可以从http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 选择Java Edition下载,并将lib目录下的je-x.jar加入到工程类路径里就可以使用。

下面就说一下他的使用方法:

public class Jedion{
    private EnvironmentConfig envConfig = null;//数据库环境配置对象
    private Environment myDbEnvironment = null;//数据库环境对象
    private DatabaseConfig dbConfig = null;//数据库配置对象
    private Database myDatabase = null;//数据库对象
    private String envDir = "dbEnv";//用户指定目录,存放数据文件和日志文件
    private String dbName = "test";//数据库名称

    //配置创建环境对象
    public void configEnvironment(){
        envConfig = new EnvironmentConfig();
        envConfig.setAllowCreate(true);//如果设置了true则表示当数据库环境不存在时候重新创建一个数据库环境,默认为false.
        envConfig.setTransactional(true);//事务支持,如果为true,则表示当前环境支持事务处理,默认为false,不支持事务处理。
        envConfig.setReadOnly(false);//是否以只读方式打开,默认为false.
        /*
        envConfig.setCachePercent(50);//设置当前环境能够使用的RAM占整个JVM百分比
        envConfig.setCacheSize(102400);//设置当前环境能使用的最大RAM,单位为byte
        */

        myDbEnvironment = new Environment(new File(envDir), envConfig);
    }

    //配置创建完环境对象后,可以用它创建数据库
    public void createDatabase(){   
        dbConfig = new DatabaseConfig();
        dbConfig.setAllowCreate(true);//如果设置了true则表示当数据库不存在时候重新创建一个数据库,默认为false.
        dbConfig.setTransactional(true);//事务支持,如果为true,则表示当前数据库支持事务处理,默认为false,不支持事务处理。
        dbConfig.setReadOnly(false);//是否以只读方式打开,默认为false.

        /*
        dbConfig.setBtreeComparator();//设置用于Btree比较的比较器,通常是用来排序  
        dbConfig.setDuplicateComparator();//设置用来比较一个key有两个不同值的时候的大小比较器。
        dbConfig.setSortedDuplicates(true);//设置一个key是否允许存储多个值,true代表允许,默认false. 
        dbConfig.setExclusiveCreate(true);//以独占的方式打开,也就是说同一个时间只能有一实例打开这个database。
        */

        myDatabase = myDbEnvironment.openDatabase(null, dbName, dbConfig);

        System.out.println(myDatabase.getDatabaseName());
    }

    //像数据库中写数据
    public void writeToDatabase(String key, String value, boolean isOverwrite){
        try {
            //JE的记录包含两部分,key键值和value数据值,这两个值都是通过DatabaseEntry对象封装起来的
            //所以说如果要使用记录,则必须创建两个DatabaseEntry对象,一个是key,一个是value
            //DatabaseEntry内部使用的是bytes数组
            DatabaseEntry databaseKey = new DatabaseEntry(key.trim().getBytes("utf8"));
            DatabaseEntry databaseValue = new DatabaseEntry(value.trim().getBytes("utf8"));

            OperationStatus res = null;//操作状态码
            Transaction txn = null;//事务对象

            TransactionConfig txConfig = new TransactionConfig();//事务配置
            txConfig.setSerializableIsolation(true);//设置串行化隔离级别

            txn = myDbEnvironment.beginTransaction(null, txConfig);//开始事物

            if(isOverwrite)
                //添加一条记录。如数据库不支持一个key对应多个data或当前数据库中已经存在该key了,则使用此方法将使用新的值覆盖旧的值。
                res = myDatabase.put(txn, databaseKey, databaseValue);
            else
                //不管数据库是否允许支持多重记录(一个key对应多个value),只要存在该key就不允许添加,并且返回perationStatus.KEYEXIST信息
                res = myDatabase.putNoOverwrite(txn, databaseKey, databaseValue);

            txn.commit();//提交事务

            if(res == OperationStatus.SUCCESS)
                System.out.println("insert success");
            else if(res == OperationStatus.KEYEXIST)
                System.out.println("key exist");
            else
                System.out.println("insert fail");

        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    //遍历数据库中数据
    public ArrayList<String> getAllFromDatabase() throws UnsupportedEncodingException{
        Curso
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值