利用爬虫读取网页/ 通过http.request来读取网页

Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据

Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。

#coding:utf-8
import requests
from bs4 import BeautifulSoup

def get_all_websites():
    url = "https://www.baidu.com"
    html_content = requests.get(url).text
    soup = BeautifulSoup(html_content, "html.parser")
    # find_all会将所有满足条件的值取出,组成一个list
    link_nodes = soup.find_all("a")
    for node in link_nodes:
        print(node.get("href"))
get_all_websites()


def visit_website(web_list):
    http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'})
    # str = 'https://blog.csdn.net/weixin_48262500/article/details/121183173?spm=1001.2014.3001.5501'
    
    for str in tqdm(web_list):
        # web_list为存储了网址的列表,通过http.request可以访问指定的网址
        resp1 = http.request('GET',str)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值