HttpClient爬取网页信息并解析加入数据库

public class HttpClient {

    public static int startRecord = 1;
    public static int endRecord = 75;
    public static  int maxPage = 0;
    public static String headUrl = "http://www.ytgxq.gov.cn";


    public static void main(String[] args) {

        try {

            while (maxPage == 0 || endRecord <= maxPage){

                saveMessage();
                startRecord+=75;
                endRecord+=75;
            }

            maxPage = 0;

        }catch (Exception e){
            e.printStackTrace();
        }



    }

    public synchronized static void saveMessage(){
        try {

            //获取列表页的Entity解析的字符串对象
            String listPage = getListPageEntity(startRecord, endRecord);
            if (listPage != null){
                Document listDocument = Jsoup.parse(listPage.replace("<![CDATA[","").replace("]]>",""));
                if (maxPage == 0){
                    String totalrecord = listDocument.select("totalrecord").text();
                    maxPage = Integer.parseInt(totalrecord);
                }

                Elements elements = listDocument.select("record");

                for (Element element : elements) {
                    if (element != null && elements.outerHtml().isEmpty() == false){



                        Elements a = element.select("a");
                        String title = a.attr("title"); //列表标题
                        String href = a.attr("href"); //列表标题链接
                        String date = element.select("record span").text(); //发布时间

                        int count = JdbcUtils.selectById(href); //判断数据库中是否存在该网站记录

                        if (count == 0){

                            //创建实体类对象
                            XinXiInfoTest xin = new XinXiInfoTest();

                            String detailLink = headUrl+href;
                            xin.setId(href);
          
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值