python爬虫 JSON操作

这篇博客介绍了Python中处理JSON数据的方法,包括json.loads()、json.dumps()、json.dump()和json.load()。讨论了JSON在数据交互中的作用,并提到了JSONPath库用于从JSON文档中抽取信息。此外,还提及了处理中文编码问题和XML数据的xmltodict模块。
摘要由CSDN通过智能技术生成

结构化的数据是最好处理,一般都是类似JSON格式的字符串,直接解析JSON数据,提取JSON的关键字段即可。

(python学习交流群 467604262 )

JSON

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式;适用于进行数据交互的场景,比如网站前台与后台之间的数据交互

Python 3.x中自带了JSON模块,直接import json就可以使用了。

Json模块提供了四个功能:dumps、dump、loads、load,用于字符串 和 python数据类型间进行转换

Python操作json的标准api库参考https://docs.python.org/zh-cn/3/library/json.html在线JSON格式化代码http://tool.oschina.net/codeformat/json

1. json.loads()

实现:json字符串 转化 python的类型,返回一个python的类型

从json到python的类型转化对照如下:

image

import json

a="[1,2,3,4]"
b='{"k1":1,"k2":2}'#当字符串为字典时{}外面必须是''单引号{}里面必须是""双引号

print json.loads(a) 
[1, 2, 3, 4]


print json.loads(b) 
{'k2': 2, 'k1': 1}

案例

获取豆瓣电影热门

image

import urllib.parse
import urllib.request
import json
url='https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0'
# 豆瓣最新 热门

herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://movie.douban.com','Connection':'keep-alive'}
# 请求头信息

req = urllib.request.Request(url,headers=herders)
# 设置请求头
response=urllib.request.urlopen(req)
# 发起请求,得到response响应

hjson = json.loads(response.read())
# json转换为字典

# 遍历字典中的电影,item是每条电影信息
for item in hjson["subjects"]:
    print(item["rate"],item["title"])
    # 打印每条电影的评分与标题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值