- 基础步骤:
(1)导入基本库:requests、Beautifulsoup(文本解析库)、json、lxml库
Beautifulsoup(文本解析库):根据一定的规则,提取想要的数据。
lxml库:
(2)url(网页的网址)在审查元素的Network中找到,或者直接在浏览器上访的地址栏里找到即可。
(3)请求页面的时候应发送什么数据:Headers(伪造一个浏览器身份),为了防止一些网页有反爬虫机制。
(4)请求采用的是什么样的方法:Get/Post(在审查元素的Network中可以看到)
(5)发送请求
(6)根据response的text属性,输出此网页上的html代码。 - 网页代码页面数据解析:
(1) 审查元素分析:
注:其中每一个li标签都代表一部电影
(2)根据li标签获取电影(注意找“正在热映”和“即将上映”的电
数据爬取过程相关学习1(以豆瓣电影为例)
最新推荐文章于 2023-08-10 09:41:11 发布