java爬虫Jsoup小练习

华子的博客

已于 2022-06-12 15:01:46 修改

阅读量327

点赞数 1

分类专栏：练手小项目类文章标签： java 爬虫开发语言

于 2022-06-12 15:00:52 首次发布

本文链接：https://blog.csdn.net/weixin_47628141/article/details/125245532

版权

练手小项目类专栏收录该内容

2 篇文章 1 订阅

订阅专栏

依赖

  		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

挑选了一个学校的官网考研复试的名单准备爬取
第一步就是连接然后获取该页面的html
第二步就是分析html，要爬取的内容
在这里插入图片描述
通过分析可以发现，除了表格标题行有class其他都没有，只能使用tr标签爬取
爬取出一个tr行里面有10个td列
除去掉没用的行，开头两行和结尾几个空行
就可以获取里面span标签的内容啦

@Test
    public void getWHPUlist() throws IOException {
        HashMap<Long, ArrayList<String>> map = new HashMap<>();
        Document document = Jsoup.connect("http://sjxy.whpu.edu.cn/info/1110/3055.htm").get();
        Elements elements = document.getElementsByTag("tr");
        for (int i = 2; i < elements.size(); i++) {
            Elements td = elements.get(i).getElementsByTag("td");
            int size = td.size();
            if (size<10 || StringUtils.isNullOrEmpty(td.get(0).text()))
                continue;
            ArrayList<String> info = new ArrayList<>();
            Long id = new Long(0);
            for (int i1 = 0; i1 < size; i1++) {
                String span = td.get(i1).getElementsByTag("span").get(0).text();
                if (i1 == 0) {
                    id = new Long(span);
                }else {
                    info.add(span);
                }
                map.put(id,info);
            }
        }
        for (Map.Entry<Long, ArrayList<String>> longArrayListEntry : map.entrySet()) {
            System.out.println("学号："+longArrayListEntry.getKey());
            System.out.println("信息："+longArrayListEntry.getValue());
        }
      }