URL队列(爬虫队列)-Berkeley DB的使用示例(Java)

最新推荐文章于 2021-02-13 06:45:44 发布

Java.Sheng

最新推荐文章于 2021-02-13 06:45:44 发布

阅读量4.1k

点赞数

分类专栏： Java 文章标签： Berkeley java

本文链接：https://blog.csdn.net/woaigaolaoshi/article/details/51181165

版权

网络爬虫中URL队列即爬虫队列是较为关键的数据结构，对于数据量要求不大的爬虫，我们可以简单的使用Java类库中的内存数据结构，例如链表或者队列来实现URL队列，但是当我们面对数以亿计的链接时，内存数据结构就会因内存的持续增长显得力不从心，这时就需要用到内存数据库-Berkeley DB，它能够存储海量数据，当数据超出内存限制时，能够把它固化在硬盘上，而且存取速度也非常快并且支持多线程访问。

Berkeley DB底层采用B树，可以看成能够存储大容量数据的HashMap，最开始是以C++版本出现的，然后在此基础上又实现了Java本地版本，可以从http://www.oracle.com/technetwork/database/database-technologies/berkeleydb/downloads/index.html 选择Java Edition下载，并将lib目录下的je-x.jar加入到工程类路径里就可以使用。

下面就说一下他的使用方法：

public class Jedion{
    private EnvironmentConfig envConfig = null;//数据库环境配置对象
    private Environment myDbEnvironment = null;//数据库环境对象
    private DatabaseConfig dbConfig = null;//数据库配置对象
    private Database myDatabase = null;//数据库对象
    private String envDir = "dbEnv";//用户指定目录，存放数据文件和日志文件
    private String dbName = "test";//数据库名称

    //配置创建环境对象
    public void configEnvironment(){
        envConfig = new EnvironmentConfig();
        envConfig.setAllowCreate(true);//如果设置了true则表示当数据库环境不存在时候重新创建一个数据库环境，默认为false.
        envConfig.setTransactional(true);//事务支持,如果为true，则表示当前环境支持事务处理，默认为false，不支持事务处理。
        envConfig.setReadOnly(false);//是否以只读方式打开，默认为false.
        /*
        envConfig.setCachePercent(50);//设置当前环境能够使用的RAM占整个JVM百分比
        envConfig.setCacheSize(102400);//设置当前环境能使用的最大RAM,单位为byte
        */

        myDbEnvironment = new Environment(new File(envDir), envConfig);
    }

    //配置创建完环境对象后，可以用它创建数据库
    public void createDatabase(){   
        dbConfig = new DatabaseConfig();
        dbConfig.setAllowCreate(true);//如果设置了true则表示当数据库不存在时候重新创建一个数据库，默认为false.
        dbConfig.setTransactional(true);//事务支持,如果为true，则表示当前数据库支持事务处理，默认为false，不支持事务处理。
        dbConfig.setReadOnly(false);//是否以只读方式打开，默认为false.

        /*
        dbConfig.setBtreeComparator();//设置用于Btree比较的比较器，通常是用来排序  
        dbConfig.setDuplicateComparator();//设置用来比较一个key有两个不同值的时候的大小比较器。
        dbConfig.setSortedDuplicates(true);//设置一个key是否允许存储多个值，true代表允许，默认false. 
        dbConfig.setExclusiveCreate(true);//以独占的方式打开，也就是说同一个时间只能有一实例打开这个database。
        */

        myDatabase = myDbEnvironment.openDatabase(null, dbName, dbConfig);

        System.out.println(myDatabase.getDatabaseName());
    }

    //像数据库中写数据
    public void writeToDatabase(String key, String value, boolean isOverwrite){
        try {
            //JE的记录包含两部分，key键值和value数据值，这两个值都是通过DatabaseEntry对象封装起来的
            //所以说如果要使用记录，则必须创建两个DatabaseEntry对象，一个是key，一个是value
            //DatabaseEntry内部使用的是bytes数组
            DatabaseEntry databaseKey = new DatabaseEntry(key.trim().getBytes("utf8"));
            DatabaseEntry databaseValue = new DatabaseEntry(value.trim().getBytes("utf8"));

            OperationStatus res = null;//操作状态码
            Transaction txn = null;//事务对象

            TransactionConfig txConfig = new TransactionConfig();//事务配置
            txConfig.setSerializableIsolation(true);//设置串行化隔离级别

            txn = myDbEnvironment.beginTransaction(null, txConfig);//开始事物

            if(isOverwrite)
                //添加一条记录。如数据库不支持一个key对应多个data或当前数据库中已经存在该key了，则使用此方法将使用新的值覆盖旧的值。
                res = myDatabase.put(txn, databaseKey, databaseValue);
            else
                //不管数据库是否允许支持多重记录(一个key对应多个value),只要存在该key就不允许添加，并且返回perationStatus.KEYEXIST信息
                res = myDatabase.putNoOverwrite(txn, databaseKey, databaseValue);

            txn.commit();//提交事务

            if(res == OperationStatus.SUCCESS)
                System.out.println("insert success");
            else if(res == OperationStatus.KEYEXIST)
                System.out.println("key exist");
            else
                System.out.println("insert fail");

        } catch (UnsupportedEncodingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    //遍历数据库中数据
    public ArrayList<String> getAllFromDatabase() throws UnsupportedEncodingException{
        Curso

最低0.47元/天解锁文章

Java.Sheng

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
URL队列(爬虫队列)-Berkeley DB的使用示例(Java)

网络爬虫中URL队列即爬虫队列是较为关键的数据结构，对于数据量要求不大的爬虫，我们可以简单的使用Java类库中的内存数据结构，例如链表或者队列来实现URL队列，但是当我们面对数以亿计的链接时，内存数据结构就会因内存的持续增长显得力不从心，这时就需要用到内存数据库-Berkeley DB，它能够存储海量数据，当数据超出内存限制时，能够把它固化在硬盘上，而且存取速度也非常快并且支持多线程访问。Berke
复制链接

扫一扫