第三方库网络爬虫-pyhton

最新推荐文章于 2023-08-27 22:45:00 发布

羡鱼吖

最新推荐文章于 2023-08-27 22:45:00 发布

阅读量258

点赞数 3

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/weixin_52530153/article/details/122106731

版权

第三方库
   （1）jieba库：
       jieba.lcut（s）：分割中文词语
   （2）beautifulsoup4库：
       安装：pip install bs4/beautifulsoup4
       常用导入方法：
           导入库： from bs4 import BeautifulSoup
           创建对象： soup=BeautifulSoup（文本/网页内容，'html.parser'）
           输出网页代码：print（soup.prettify（））
   （3）requests库：
       方法：
           import requests:导入库
           r=requests.get('url'):发送请求获取资源对象，并且返回资源对象
           requests.request(代码标签)：构造请求
           requests.head():获取网页头信息

       测试步骤：
           import requests:导入库
           r=requests.get('url'):发送请求获取资源对象，并且返回资源对象
           print（r.status_code）:查看状态码（是否发送成功）
           r.encoding:查看网页编码
           r.apparent_encoding：根据网页内容评估的备用编码
           r.text：查看整个网页内容
           r.encoding=r.apparent_encoding：将备用编码替换头编码
           r.text[-500:]
           r.text[:1000]

           from bs4 import BeautifulSoup
           soup=BeautifulSoup（文本/网页内容，'html.parser'）
           print（soup.prettify（））