Python爬虫requests和beautifulsoup4库使用

1. requests

1.1 requests.get(url)

import requests

response = requests.get("https://www.baidu.com")
print(type(response))		# <class 'requests.models.Response'>

1.2 requests.post

1.2.1 只有url一个参数情况

response = requests.post("http://z.kktijian.com/Project/GetAllDepartment")

1.2.2 有Form Data的情况

response = requests.post("http://z.kktijian.com/Project/GetDiagnosisList",data={"departId":"01"})

此时headers的Content-Type默认为:{'Content-Type':'application/x-www-form-urlencoded'}

1.3 requests.session

当我们进行登录的时候,需要保存登录后的session,以便访问登录后的页面,就可以用到requests.session()。用法如下:

# session能自动保存Cookie,使用方法和requests差不多
session = requests.session()
# 进行登录操作
session.post(url, data)
# 请求登录后的页面
session.get(url)

1.3 获取text

import requests

response = requests.get("https://www.baidu.com")
text=response.text
print(text)

结果如下,可以看到是乱码的状态,且编码方式是utf-8:
requests.get(url).text乱码
具体的原因可以参考我的另外一篇博客Python scrapy爬虫框架使用教程与实战示例

正确的读取方式是添加response.encoding='utf-8',如下:

import requests

response = requests.get("https://www.baidu.com")
response.encoding='utf-8'
text=response.text
print(text)

现在的效果如下:

request.get(url).text正确的效果

1.4 设置代理proxy和User-Agent

proxies={'http':'http://27.40.108.142:36058', 'https':'https://27.40.108.142:36058'}
headers = {'User-Agent':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)'}

response = requests.get("http://httpbin.org/ip",proxies=proxies,headers=headers)
print(response .text)
print(response .request.headers)

结果如下:

{
  "origin": "27.40.108.142"
}

{'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

说明:

  • proxies元素的语法结构为:'协议':'协议://ip:port'
  • http://httpbin.org/ip是一个查看ip的网站
  • requests.post(...)的代理proxy和header的设置和这一样

1.5 设置timeout

response = requests.get("http://httpbin.org/ip", timeout = (5, 5))

默认是不进行超时处理,一直阻塞,timeout的第一个参数表示连接超时时间,第二个参数表示response响应超时时间

2. beautifulsoup4

2.1 安装

pip install beautifulsoup4

2.2 元素选择

这里我们测试使用网页的html内容如下:

<html>
 <head>
  <base href='http://example.com/' />
  <title>Example website</title>
 </head>
 <body>
  <div id='images'>
   <a href='image1.html'>Name: My image 1</a>
   <a href='image1.html'>Name: My image 1</a>
   <a href='image2.html'>Name: My image 2</a>
   <a href='image2.html'>Name: My image 2</a>
  </div>
 </body>
</html>

python代码如下:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_text,"html.parser")
title=soup.title
print(type(title))      # <class 'bs4.element.Tag'>
print(title)            # <title>Example website</title>

说明:

  • BeautifulSoup可以使用其它的解析器,这里我们使用python内置的html.parser解析器
  • 结果title的类型为bs4.element.Tag,可以接着使用title.find(...)等函数;其它函数如soup.find_all(...)类似

2.3 string

 soup = BeautifulSoup(html_text,"html.parser")
 title_content=soup.title.string
 print(title_content)            # Example website

返回标签内的内容

2.4 soup.find_all(…)

soup = BeautifulSoup(html_text,"html.parser")
tag_list=soup.find_all("a",href="image1.html")
# [<a href="image1.html">Name: My image 1</a>, <a href="image1.html">Name: My image 1</a>]
print(tag_list)   

说明:

  • find_all可以指定一个或多个条件,返回bs4.element.Tag类型的list
  • 如果属性不是href,而是class,和python的关键字冲突,所有要用class_="xxx"

2.3 soup.find(…)

soup = BeautifulSoup(html_text,"html.parser")
tag=soup.find("a",href="image1.html")
# <a href="image1.html">Name: My image 1</a>
print(tag)

说明:

  • find函数和find_all类似,区别在于只返回第一个匹配的元素,返回类型为bs4.element.Tag
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python爬虫是一种自动化程序,可以通过requestsbeautifulsoup来获取网页信息,并使用pandas等工具对数据进行处理和分析。使用Python爬虫可以快速获取大量数据,帮助我们进行数据挖掘和分析。 ### 回答2: Python是一种强大的编程语言,在网络爬虫方面也有着广泛应用。requestsBeautifulSoup和Pandas就是其中的三个非常重要的工具,它们各自的功能和作用如下: Requests(请求):是一个Python中的HTTP,可以轻松的发送HTTP请求,并且可以很容易地获取返回的内容。如果你想获取一个网页的HTML代码,你可以使用Requests。你需要向requests.get()方法传递一个URL,然后它会返回一个response对象,可以通过response.text来获取文本内容。 BeautifulSoup(漂亮的汤):是Python一个解析HTML和XML文件的,它可以从这些文件中提取有用的信息。所以,你可以使用BeautifulSoup来提取网页中的信息。通过BeautifulSoup可以把一个已经读入python中的response响应文件对象进行分析,也就是通过一些HTML标签(soup.a/b/p/div),来获取我们想要的内容。 Pandas(熊猫):是一个强大的数据分析工具,其核心是用于数据处理和矩阵计算的高效核心数据结构Dataframe。使用Pandas可以很容易地从文本文件中导入数据,然后进行数据清洗、规整、合并、并统计数据等等各类操作。下面我们详细介绍一下这些的用法。 在进行数据抓取之前,我们首先需要对需要抓取的数据进行需求分析,即确定需要抓取的网站、需要抓取的数据点和格式,以及需要进行的数据处理方式和数据储存方式等。当我们完成了需求分析之后,就可以开始进行数据抓取了。 首先我们需要安装requestsBeautifulSoup和Pandas: ```python pip install requests pip install BeautifulSoup4 pip install pandas ``` 然后我们可以使用以下代码,来展示如何进行数据抓取: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 请求URL并将结果解析为HTML url = 'https://movie.douban.com/top250' resp = requests.get(url) html_data = resp.text soup = BeautifulSoup(html_data, 'html.parser') # 获取电影名称和评分信息 movie_list = soup.find_all('div', class_='hd') title_list = [movie.a.span.text for movie in movie_list] rating_list = [movie.find_next_siblings('div')[0].span.text for movie in movie_list] # 构建DataFrame并将结果保存为CSV文件 movie_df = pd.DataFrame({'title': title_list, 'rating': rating_list}) movie_df.to_csv('top250_movies.csv', index=False) ``` 通过以上代码,我们可以获取到豆瓣电影Top250的电影名称和评分信息,并将结果储存为CSV文件。 总之,requestsBeautifulSoup和Pandas是Python网络爬虫中非常常用的工具。使用这些,我们可以轻松地进行数据抓取、数据提取、数据处理和数据储存等操作。同时,我们在进行爬虫之前,一定要注意合法性和尊重原网站的规则。 ### 回答3: Python是目前最流行的编程语言之一,其生态系统非常丰富,可以应用于各种领域。其中,爬虫Python应用广泛的领域之一。在Python爬虫中,requestsbeautifulsoup和pandas都是非常常用的requests是一个用于HTTP请求的Python,可以方便地发送网络请求,并且可以处理响应数据。在Python爬虫中,我们通常使用requests下载网页内容。例如,我们可以使用requests的get方法获取网页内容,如下所示: ``` import requests response = requests.get('http://www.baidu.com') print(response.text) ``` beautifulsoup是一个解析HTML和XML文档的Python,可以方便地从网页中提取所需的数据。使用beautifulsoup,我们可以方便地解析从网页中提取的数据,并进行数据清洗和处理。例如,我们可以使用beautifulsoup的find_all方法查找特定标签中的文本内容,如下所示: ``` from bs4 import BeautifulSoup import requests response = requests.get('http://www.baidu.com') soup = BeautifulSoup(response.text, 'html.parser') print(soup.find_all('a')) ``` pandas是一个用于数据分析和处理的Python,提供了许多有用的功能,例如读取、处理和分析数据。在Python爬虫中,我们通常使用pandas来处理从网页中提取的数据,并将其保存到CSV文件或数据中以供进一步分析。例如,我们可以使用pandas的read_html方法读取HTML表格数据,并将其保存为CSV文件,如下所示: ``` import pandas as pd url = 'http://www.example.com' tables = pd.read_html(url) df = tables[0] df.to_csv('example.csv', index=False) ``` 综上所述,Python爬虫中的requestsbeautifulsoup和pandas是非常重要的工具,能够帮助我们方便地下载网页内容、提取数据和进行数据处理和分析。如果您有兴趣学习Python爬虫,那么这些将是您必须掌握的重要工具之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值