学习Python爬虫也有段时间了,之前也看了许多大神的案例,自己也琢磨了爬取原理,由于是个人公号记录,就省去教科书式教学,纯属记录,由于爬取过程中一直着力于自身技能,所有代码均未作批注,以后文章中必须加以改正。
这篇文章是关于猫眼电影排行榜Top100,具体如何排名我们不作研究,只提取我们想要的东西。官网图片如图所示:
我们主要提取的内容有电影名称,排名,演员,评分和上映时间,话不多说,直接上代码,
import requests
from bs4 import BeautifulSoup
爬虫过程中我们主要采用Python自带的requests库第三方库。那就是著名美丽汤—BeautifulSoup,安装过程很简单,pip即可。
def get_one_page(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 '
'Safari/537.36 '
}
response = requests.get(url,headers=headers)
if response.status_code == 200:
return response.text