2019.5.7 利用scrapy框架创建爬虫

一、打开PythonCharm
打开terminal:alt+f12或者view→tool windows→terminal
cd进入指定文件位置
#scrapy startproject +项目名称
scrapy startproject wenzhang
里面有一个wenzhang文件夹还有一个scrapy.cfg文件(config)
在这里插入图片描述
在这里插入图片描述
init.py 导包需要用到
item.py
middlewares.py
pipelines.py
settings.py

terminal进入spiders
scrapy genspider wenzhang itcast.cn
在wenzhang.py中,注释pass后添加print(respond.body)
terminal中输入scrapy crawl wenzhang
即可获得数据

深入学习:
wenzhang.py中:
name=后面是爬虫名
allowed_domains是爬取范围在此域名下1.3版本是元组()中间用“,”分割 而现在都改为了列表[ ]
item——
1.定义结构化字段,用来保护爬取到的数据
qiushibaike.py中:

def parse(self, response):
	with open("shuju.html","w",encoding = "utf-8") as f:
	f.write(response.text)

————————————————————————————————
XPath表达式的例子以及对应含义
/html/head/title:选择文档中标签内的元素<br/> /html/head/title/text():选择上面提到的<title>元素的文字<br/> //td:选择所有的<td>元素<br/> //div[@class=“mine”]:选择所有具有class="mine"属性的div元素</td>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值