Spider爬虫(二)

最新推荐文章于 2023-03-24 15:27:26 发布

海是倒过来的天long

最新推荐文章于 2023-03-24 15:27:26 发布

阅读量448

点赞数

分类专栏：爬虫文章标签： MySql csv MongoDB

本文链接：https://blog.csdn.net/weixin_45331368/article/details/102554487

版权

请求模块(urllib.request)

req = request.Request(url,headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')

抓取步骤

1、确定所抓取数据在响应中是否存在（右键 - 查看网页源码 - 搜索关键字）
2、数据存在: 查看URL地址规律
3、写正则表达式,来匹配数据
4、程序结构
	1、使用随机User-Agent
	2、每爬取1个页面后随机休眠一段时间

# 程序结构
class xxxSpider(object):
    def __init__(self):
        # 定义常用变量,url,headers及计数等
        
    def get_html(self):
        # 获取响应内容函数,使用随机User-Agent
    
    def parse_html(self):
        # 使用正则表达式来解析页面，提取数据
    
    def write_html(self):
        # 将提取的数据按要求保存，csv、MySQL数据库等
        
    def main(self):
        # 主函数，用来控制整体逻辑
        
if __name__ == '__main__':
    # 程序开始运行时间戳
    start = time.time()
    spider = xxxSpider()
    spider.main()
    # 程序运行结束时间戳
    end = time.time()
    print('执行时间:%.2f' % (end-start))

猫眼电影top100抓取案例

猫眼电影 - 榜单 - top100榜
电影名称、主演、上映时间

数据抓取实现

1、确定响应内容中是否存在所需数据

右键 - 查看网页源代码 - 搜索关键字 - 存在！！

2、找URL规律

第1页：https://maoyan.com/board/4?offset=0
第2页：https://maoyan.com/board/4?offset=10
第n页：offset=(n-1)*10

3、正则表达式

<div class="movie-item-info">.*?title="(.*?)".*?class="star">(.*?)</p>.*?releasetime">(.*?)</p>

4、编写程序框架，完善程序

数据持久化存储

数据持久化存储 - csv文件

作用

将爬取的数据存放到本地的csv文件中

使用流程

1、导入模块
2、打开csv文件
3、初始化写入对象
4、写入数据(参数为列表)
import csv 
#windows下需要加newline=''，否则会多出空行
with open('film.csv','w',newline='') as f:
    writer = csv.writer(f)
    writer.writerow([])

示例代码

创建 test.csv 文件，在文件中写入数据

# 单行写入（writerow([]))
import csv
with open('test.csv','w',newline='') as f:
	writer = csv.writer(f

最低0.47元/天解锁文章

海是倒过来的天long

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spider爬虫(二)

请求模块(urllib.request)req = request.Request(url,headers=headers)res = request.urlopen(req)html = res.read().decode('utf-8')抓取步骤1、确定所抓取数据在响应中是否存在（右键 - 查看网页源码 - 搜索关键字）2、数据存在: 查看URL地址规律3、写正则表达式,来匹配...
复制链接

扫一扫