第一个python小爬虫工具
1.下载好Python3.7,在官网https://www.python.org/下载好安装包
2.安装Python3.7
(1)下载好安装包以后,双击进入安装路径
(2)勾选Add Python3.7 to PATH,选择Customize installation
(3)单击Next
(4)将路径改得更简约的,方便安装python。
3.在文件管理器,python的script文件下,在路径处键入CMD调出
(1)输入python,检测python是否安装成功,如出现下图,则证明已经安装成功了
(2)安装requests
pip install requests
出现下列提示,证明安装成功
(3)安装lxml
pip install lxml
出现下列提示,证明安装成功
4.在IDLE输入如下代码
import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
print(result)
单击F5运行,可以出现结果
5.关键代码出处
(1)鼠标点击图中的按钮。
(2)单击需要爬取信息所在的地方,找到xml中对应的代码。
‘//td[@class=“title”]//a/text()’
td是大目录,a是小标题,text()是读出对应框里的所有信息。这个信息可以在网页元素中读取出来。
(2)所要爬取网页在url=’ 网址’中标注。
url=‘https://movie.douban.com/’
爬虫设计参考链接:https://blog.csdn.net/csqazwsxedc/article/details/68498842?from=singlemessage
感谢小伙伴分享