使用WebMagic编写一个网络爬虫

使用WebMagic编写一个网络爬虫

引入依赖

<dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-core</artifactId>
        <version>0.7.4</version>
    </dependency>
    <dependency>
        <groupId>us.codecraft</groupId>
        <artifactId>webmagic-extension</artifactId>
        <version>0.7.4</version>
    </dependency>

编写测试类

public class NewPage implements PageProcessor {


    //配置爬虫的各种配置
    private Site site = Site
            .me()
            .setUserAgent(
                    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");

    /**
     * 处理页面,提取网址以提取,提取数据并存储
     * */
    @Override
    public void process(Page page)
    {
        //根据xpath获取网页的元素
        page.putField("title", page.getHtml().xpath("//h1[@class='content-heading']/text()").get());
        page.putField("time", page.getHtml().xpath("//div[@class='container']/p/text()").get());
        page.putField("name", page.getHtml().xpath("//div[@class='card-inner']").get());
        if (page.getResultItems().get("name")==null){
            //skip this page
            page.setSkip(true);
        }
    }
    @Override
    public Site getSite() {
        return site;
    }
    public static void main(String[] args) {

        for (int nums = 1000;nums< 4895;nums++) {
            //启动爬虫addPipeline添加持久化配置
            Spider.create(new NewPage()).addUrl("https://acm.taifua.com/bzoj/p/"+nums+".html").addPipeline(new TestPipeline(nums)).run();
        }
    }
}

编写持久化类

public class TestPipeline  implements Pipeline {
    private  int index;


    public int getIndex() {
        return index;
    }

    public TestPipeline(int index) {
        this.setIndex(index);
    }
/**
 * 配置爬虫的持久化等】
 *resultItems爬虫爬取的数据
 * */
    @Override
    public void process(ResultItems resultItems, Task task) {


        try {
            //获取文章标题title
            String title = resultItems.get("title");
            PrintWriter printWriter = new PrintWriter(new FileWriter("D:\\text\\"+this.getIndex()+ title+".json"));
            printWriter.write(JSON.toJSONString(resultItems.getAll()));
            printWriter.close();
        } catch (IOException var5) {


        }

    }

    public TestPipeline setIndex(int index) {
        this.index = index;
        return this;
    }
}

结果

image-20201124152308367

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值