如何写一个简单的爬虫程序

1.首先给爬虫程序找到储存路径
在这里插入图片描述
2.按住shift和右键,选择在此处打开Powershell窗口(s)
在这里插入图片描述
3.在窗口内输入scrapy(杀毒软件可能会阻止程序运行,不要选择阻止!!!如果不小心选择了阻止,把杀毒软件退掉,重新从第二步开始)
在这里插入图片描述
4.在窗口内输入scrapy startproject movie 其中movie是文件的名字,可以自己取
如下图所示即表示成功
在这里插入图片描述
5.同时也可以看到第一步打开的储存路径下多了movie这个文件夹
在这里插入图片描述
6.打开pycharm,点击左上角,打开刚刚新建的项目(就是movie这个文件夹)
记得选中外面的那个movie文件夹,不要选中里面的那个!!!
在这里插入图片描述
7.打开pycharm下面的terminal工具
在这里插入图片描述
8.在terminal窗口内输入scrapy
在这里插入图片描述
9.确定要爬取的网站,我爬取的是https://www.1905.com/vod/
10.在terminal窗口内输入scrapy genspider movi1e www.1905.com
movi1e是文件名字可以自取,不要和项目名称一样即可,www.1905.com是要爬取网站的域名
当左边显示了movi1e.py 即表示成功
在这里插入图片描述
11.到这里就完成了创建项目
12.在parse下输入response.xpath()
这个里面是填写爬虫规则的
在这里插入图片描述
13.打开要爬取的网页,把光标放在要爬取数据内容的地方,右边查看源代码
然后右边会出现你选中的内容的源代码
在这里插入图片描述

14.对那部分的源代码进行copy,记得选择 copy xpath!!!
15.把复制的规则写入response.xpath(),记得加上单引号
在这里插入图片描述
16.然后把要爬取的网站的整个地址复制到start_urls
在这里插入图片描述
17.在terminal窗口内输入scrapy crawl movi1e
在这里插入图片描述
18.跳出来的就是爬取的内容,只不过这是没有转义过的
19.打开scrapy的官网(https://scrapy.org/),对之前的爬虫代码进行修改
在这里插入图片描述
20.修改如下:(因为电影网站不好爬,所以爬取网站改成了https://book.qidian.com/info/1014973218#Catalog)
在这里插入图片描述
21.在terminal窗口内输入scrapy crawl movi1e
如图所示,即表示成功
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值