文章目录
三行代码爬取京东数据
潦潦草草
python学习
- 了解python爬虫
python程序里,爬取网络数据的虫子叫爬虫,它的实质是模拟浏览器的工作原理,向服务器请求相应的数据。 - 浏览器的工作原理
浏览器向服务器发送请求,服务器给予浏览器相应的响应,然后浏览器翻译解析才让我们看到了真正的界面。 - 爬虫的工作原理
python向京东的服务器发送请求,服务器给予python相应的响应,然后python提取想要的数据。
关于数据
- 所找的商品销售数据
通过评论数据间接得到鞋子的销售数据 - 寻找评论区内容背后的URL(网址)
a. 鼠标右击选择检查,或者f12,打开程序员调试窗口,点击network
b. 刷新当前页面
c. 复制一小段评论区内容,粘贴到程序员调试窗口内搜索框
d. 点击刷新
e. 点击查询结果跳到对应请求
f. 点击Headers, 找到Resquest URL即是评论区数据背后的URL
关于代码
引入python工具包requests
使用工具包中get方法,向服务器发起请求
打印输出请求回来的数据(print)即可
举例:爬取一页京东上销量较高的口红评论区数据
import requests
resp <