第八周学习记录

最新推荐文章于 2023-03-21 16:19:12 发布

weixin_43592378

最新推荐文章于 2023-03-21 16:19:12 发布

阅读量157

点赞数

分类专栏：第八周文章标签：第八周学习

本文链接：https://blog.csdn.net/weixin_43592378/article/details/89459530

版权

第八周专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本周学习了些爬虫的知识

1.获取HTML页面中的数据
-- coding:UTF-8 --
import requests

if name == ‘main’:
target = http ?/www.biqukan.com/1_1094/5403177.html
req = requests.get(url=target)
print(req.text)
2.
beautiful soap
使用beautiful soap 来获取我们想要的内容
-- coding:UTF-8 --
from bs4 import BeautifulSoup
import requests
if name == “main”:
target = ‘http://www.biqukan.com/1_1094/5403177.html’
req = requests.get(url = target)
html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘showtxt’) print(texts)

去除div 标签
-- coding:UTF-8 --
from bs4 import BeautifulSoup
import requests
if name == “main”:
target = ‘http://www.biqukan.com/1_1094/5403177.html’
req = requests.get(url = target) html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘showtxt’)
print(texts[0].text.replace(’\xa0’*8,’\n\n’))