第一个python小爬虫工具

最新推荐文章于 2024-07-23 22:54:36 发布

小泡泡避难所

最新推荐文章于 2024-07-23 22:54:36 发布

阅读量446

点赞数 2

分类专栏：搭环境学习笔记文章标签：安装环境+第一个爬虫设计

本文链接：https://blog.csdn.net/weixin_44700751/article/details/89421211

版权

搭环境学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

第一个python小爬虫工具

1.下载好Python3.7，在官网https://www.python.org/下载好安装包
下载安装包

2.安装Python3.7
（1）下载好安装包以后，双击进入安装路径

（2）勾选Add Python3.7 to PATH，选择Customize installation
选择安装方式
（3）单击Next
进入下一步
（4）将路径改得更简约的，方便安装python。
修改文件路径
3.在文件管理器，python的script文件下，在路径处键入CMD调出
调出cmd
（1）输入python，检测python是否安装成功，如出现下图，则证明已经安装成功了
安装python成功
（2）安装requests

pip install requests

出现下列提示，证明安装成功
成功安装request
（3）安装lxml

pip install lxml

出现下列提示，证明安装成功
成功安装lxml

4.在IDLE输入如下代码

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据
print(result)

单击F5运行，可以出现结果

爬虫爬出对应位置的信息
5.关键代码出处
（1）鼠标点击图中的按钮。
选取要抓元素
（2）单击需要爬取信息所在的地方，找到xml中对应的代码。
‘//td[@class=“title”]//a/text()’
td是大目录，a是小标题，text（）是读出对应框里的所有信息。这个信息可以在网页元素中读取出来。
关键代码来源
（2）所要爬取网页在url=’ 网址’中标注。
url=‘https://movie.douban.com/’