jupyter 爬虫并且导入文本

最新推荐文章于 2023-06-19 14:20:24 发布

程序小白ovo

最新推荐文章于 2023-06-19 14:20:24 发布

阅读量2.3k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_48749151/article/details/118854638

版权

一.导入request库和BeautifulSoup库中的bs4库二.获取要爬取网页的地址headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"}headers是浏览器的参数是为了伪装成浏览器的参数变量三.查看是否获取浏览器的数.

摘要由CSDN通过智能技术生成

一.导入request库和BeautifulSoup库中的bs4库

二.获取要爬取网页的地址

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"}

headers是浏览器的参数是为了伪装成浏览器的参数变量

三.查看是否获取浏览器的数据

四.获取文本后，对数据进行处理

html.encoding="gbk"                         #设置网页编码格式
bs=BS(html.text)                           #格式化网页
infos=bs.find("div",class_="con_main")           #截取网页要获取的部分
views_list=infos.find_all("p")
wenben=

最低0.47元/天解锁文章

程序小白ovo

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
jupyter 爬虫并且导入文本

一.导入request库和BeautifulSoup库中的bs4库二.获取要爬取网页的地址headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"}headers是浏览器的参数是为了伪装成浏览器的参数变量三.查看是否获取浏览器的数.
复制链接

扫一扫