利用爬虫读取网页/ 通过http.request来读取网页

最新推荐文章于 2023-02-15 14:01:37 发布

狗庄欺人太甚

最新推荐文章于 2023-02-15 14:01:37 发布

阅读量368

点赞数 1

分类专栏： python 文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/weixin_48262500/article/details/121136152

版权

python 专栏收录该内容

70 篇文章 1 订阅

订阅专栏

Beautiful Soup 是 python 的一个库，最主要的功能是从网页抓取数据

Beautiful Soup 自动将输入文档转换为 Unicode 编码，输出文档转换为 utf-8 编码。

#coding:utf-8
import requests
from bs4 import BeautifulSoup

def get_all_websites():
    url = "https://www.baidu.com"
    html_content = requests.get(url).text
    soup = BeautifulSoup(html_content, "html.parser")
    # find_all会将所有满足条件的值取出，组成一个list
    link_nodes = soup.find_all("a")
    for node in link_nodes:
        print(node.get("href"))
get_all_websites()


def visit_website(web_list):
    http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'})
    # str = 'https://blog.csdn.net/weixin_48262500/article/details/121183173?spm=1001.2014.3001.5501'
    
    for str in tqdm(web_list):
        # web_list为存储了网址的列表，通过http.request可以访问指定的网址
        resp1 = http.request('GET',str)