使用requests将页面的内容全部取到还不是结构化的,将非结构化的数据转化成结构化的数据,通过BeautifulSoup可以将非结构化的数据通过dom方法。
可以通过BeautifulSoup包将网页转化成dom tree。,之后可以取得标签中的数据
使用requests将页面的内容全部取到还不是结构化的,通过BeautifulSoup可以将非结构化的数据转成结构化的dom数据。1、安装BeautifulSoup4
pip install BeautifulSoup
2、举例
from bs4 import BeautifulSoup html_sample = '\ <html>\ <body>\ <h1 id="title">hello world</h1>\ <a href="#" class="link">This is link1</a>\ <a href="# link2" class="link">This is link2</a>\ </body>\ </html>' soup = BeautifulSoup(html_sample, 'html.parser') print(soup.text)
结果:
hello worldThis is link1This is link2