2019.5.7 利用scrapy框架创建爬虫

最新推荐文章于 2021-10-11 07:24:40 发布

珣都

最新推荐文章于 2021-10-11 07:24:40 发布

阅读量266

点赞数

分类专栏： it 文章标签： python

本文链接：https://blog.csdn.net/weixin_44474304/article/details/89930797

版权

it 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、打开PythonCharm
打开terminal：alt+f12或者view→tool windows→terminal
cd进入指定文件位置
#scrapy startproject +项目名称
scrapy startproject wenzhang
里面有一个wenzhang文件夹还有一个scrapy.cfg文件(config)
在这里插入图片描述

init.py 导包需要用到
item.py
middlewares.py
pipelines.py
settings.py

terminal进入spiders
scrapy genspider wenzhang itcast.cn
在wenzhang.py中，注释pass后添加print(respond.body)
terminal中输入scrapy crawl wenzhang
即可获得数据

深入学习：
wenzhang.py中：
name=后面是爬虫名
allowed_domains是爬取范围在此域名下1.3版本是元组()中间用“，”分割而现在都改为了列表[ ]
item——
1.定义结构化字段，用来保护爬取到的数据
qiushibaike.py中：

def parse(self, response):
	with open("shuju.html","w",encoding = "utf-8") as f:
	f.write(response.text)

————————————————————————————————
XPath表达式的例子以及对应含义
/html/head/title:选择文档中标签内的元素<br/> /html/head/title/text():选择上面提到的<title>元素的文字<br/> //td:选择所有的<td>元素<br/> //div[@class=“mine”]:选择所有具有class="mine"属性的div元素</td>