数据提取方法-数据提取之json

本文探讨了为何在爬虫中优先选择JSON数据格式,解释了JSON的基本概念,提供了查找返回JSON URL的方法,并详细介绍了如何处理和解析JSON数据,包括去除不必要的参数、格式化JSON数据以及JSON数据的其他来源。同时,文章还提到了Python的json模块及其在数据交换中的作用。
摘要由CSDN通过智能技术生成

1.为什么要使用json
由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL,而很多地方也都会返回json

  1. 什么是json
    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。

3.哪里能找到返回json的url
下面以热映电影为例,来了解那里能够找到返回json的url地址:https://movie.douban.com/cinema/nowplaying/beijing/

3.1 我们如何确定数据在哪里
在url地址对应的响应中搜索关键字即可

但是注意:url地址对应的响应中,中文往往是被编码之后的内容,所以更推荐大家去搜索英文和数字;另外一个方法就是在perview中搜索,其中的内容都是转码之后的

3.2 切换手机版寻找返回json的地址
在chrome中点击切换手机版的选项,需要重新刷新页面才能够切换成功,部分网站还需要重新进入主页面之后再继续点击才能够切换成功,比如:豆瓣热映

现在我们找到了返回电影数据的地址:https://m.douban.com/rexxar/api/v2/subject_collection/movie_showing/items?os=android&for_mobile=1&callback=jsonp1&start=0&count=18&loc_id=108288&_=1524495777522

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值