网络爬虫-学习记录（四）实现多线程处理猫眼电影排行榜网站

平平无奇秃头小天才

于 2022-01-15 19:51:41 发布

阅读量578

点赞数 1

分类专栏：网络爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46490924/article/details/122514786

版权

网络爬虫专栏收录该内容

6 篇文章 1 订阅

订阅专栏

目录

一、任务描述

二、任务网站描述

三、运行结果及说明

1.声明此次需要导的包以及此次爬取信息的网站

2.函数写第一个进程爬取猫眼电影排行榜电影名称

3.函数写第二个进程爬取猫眼电影排行榜主演

4.多线程运行

一、任务描述

爬虫任务：实现多线程，使用函数形式多线程爬取网页内容

二、任务网站描述

猫眼验证中心

三、运行结果及说明

1.声明此次需要导的包以及此次爬取信息的网站

2.函数写第一个进程爬取猫眼电影排行榜电影名称

3.函数写第二个进程爬取猫眼电影排行榜主演

4.多线程运行

5.最终结果

四、源码

import requests

import re

from bs4 import BeautifulSoup

from urllib.error import HTTPError

from urllib.error import URLError

from bs4 import BeautifulSoup

import requests

html =猫眼验证中心

def get_name(thread_name,html):

try:

headers={

"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36",

}

resp=requests.get(html,headers = headers)

html = BeautifulSoup(resp.content,'html.parser')

dds = html.findAll('dd')

name = []

#string编码格式输出

for dd in dds:

#电影名称

name1 = dd.find('p',{'class':'name'}).string

print("电影:" + name1)

name.append(name1)

except HTTPError as e:

print(e)

except URLError as e:

print('The server could not be found')

else:

print('It Worked!')

return name

def get_stars(thread_name,html):

try:

headers={

"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36",

}

resp=requests.get(html,headers = headers)

html = BeautifulSoup(resp.content,'html.parser')

dds = html.findAll('dd')

stars = []

#string编码格式输出

for dd in dds:

#主演

star = dd.find('p',{'class':'star'}).string

print(star)

stars.append(star)

except HTTPError as e:

print(e)

except URLError as e:

print('The server could not be found')

else:

print('It Worked!')

return stars

import _thread

_thread.start_new_thread(get_name, ('Thread 1', html))

_thread.start_new_thread(get_stars, ('Thread 2', html))

平平无奇秃头小天才

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。