爬虫根据标题爬去数据

最新推荐文章于 2024-07-12 17:01:23 发布

风启新尘

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量128

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/weixin_49265805/article/details/115653269

版权

python 同时被 2 个专栏收录

52 篇文章 0 订阅

订阅专栏

爬虫

51 篇文章 0 订阅

订阅专栏

该段代码使用while循环，逐页抓取网页上的云南省新冠肺炎疫情情况数据。通过设置headers和params，获取网页内容并解析HTML，提取出链接、标题和发布时间。匹配特定标题后，保存相关数据，包括省份、标题、发布时间和详细信息。每处理完一页，暂停一秒钟，直至遍历完所有页面。

摘要由CSDN通过智能技术生成

个人笔记
在这里插入图片描述

    while k < 10:
        params['page'] = k
        enum_url = enum_base + '?' + urlencode(params)
        headers['Referer'] = enum_url
        content = get(enum_url, headers)
        html = etree.HTML(content)
        href_list = html.xpath('//div[@class="theSimilar"]/ul/li/a/@href')
        title_list = html.xpath('//div[@class="theSimilar"]/ul/li/a/text()')
        publish_list = html.xpath('//div[@class="theSimilar"]/ul/li/span/text()')
        if len(href_list) == 0:
            break
        if len(href_list) == len(title_list) == len(publish_list):
            for i in range(len(href_list)):
                data_info = {}
                title = title_list[i]
                is_title = re.match(r'\d+年\d+月\d+日云南省新冠肺炎疫情情况|云南省新型冠状病毒[感染的]*肺炎疫情情况', title)
                if is_title:
                    href = urljoin(info_base, href_list[i])
                    data_info['province'] = '云南'
                    data_info['title'] = title
                    data_info['publish_time'] = publish_list[i].replace('[', '').replace(']', '')
                    data_info['text'] = info_parse(href, headers)
                    print(data_info)
                    save(data_info)
                    time.sleep(1)
        else:
            print('长度不相等')
            break

        k += 1
        time.sleep(1)