爬取百度百科词条 request

最新推荐文章于 2024-04-23 18:06:15 发布

发现文化fu

最新推荐文章于 2024-04-23 18:06:15 发布

阅读量257

点赞数

分类专栏： python 文章标签：百度正则表达式 python

本文链接：https://blog.csdn.net/weixin_51020254/article/details/115439388

版权

python 专栏收录该内容

37 篇文章 2 订阅

订阅专栏

爬取百度百科词条 request

import  requests
from bs4 import BeautifulSoup

unique_url_list = []
used_url = []

c_lkist = []
def m(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}
    try:
        resp = requests.get(url,headers)
        used_url.append(url)
        soup = BeautifulSoup(resp.text,'lxml')
        for i in soup.find_all('a'):
            c_lkist.append(i["href"])

            unique_url_list = set(c_lkist)-set(used_url)
            for n in unique_url_list:
                print(n)
                if "htt" not in n :
                    used_url.append(n)
                else:
                    m(n)

    except Exception as e:
        used_url.append(url)
        print(e)


url = 'https://www.baidu.com/'
m(url)

**可以使用正则表达式  精准匹配 **

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

发现文化fu

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取百度百科词条 request

爬取百度百科词条 requestimport requestsfrom bs4 import BeautifulSoupunique_url_list = []used_url = []c_lkist = []def m(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75
复制链接

扫一扫