python爬虫 JSON操作

最新推荐文章于 2024-04-30 13:45:35 发布

夕夕老师

最新推荐文章于 2024-04-30 13:45:35 发布

阅读量386

点赞数

文章标签： python 数据库大数据数据挖掘自然语言处理

本文链接：https://blog.csdn.net/xixi20200/article/details/109045119

版权

这篇博客介绍了Python中处理JSON数据的方法，包括json.loads()、json.dumps()、json.dump()和json.load()。讨论了JSON在数据交互中的作用，并提到了JSONPath库用于从JSON文档中抽取信息。此外，还提及了处理中文编码问题和XML数据的xmltodict模块。

摘要由CSDN通过智能技术生成

结构化的数据是最好处理，一般都是类似JSON格式的字符串，直接解析JSON数据，提取JSON的关键字段即可。

(python学习交流群 467604262 )

JSON

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式；适用于进行数据交互的场景，比如网站前台与后台之间的数据交互

Python 3.x中自带了JSON模块，直接import json就可以使用了。

Json模块提供了四个功能：dumps、dump、loads、load,用于字符串和 python数据类型间进行转换

Python操作json的标准api库参考https://docs.python.org/zh-cn/3/library/json.html在线JSON格式化代码http://tool.oschina.net/codeformat/json

1. json.loads()

实现：json字符串转化 python的类型，返回一个python的类型

从json到python的类型转化对照如下：

import json

a="[1,2,3,4]"
b='{"k1":1,"k2":2}'#当字符串为字典时{}外面必须是''单引号{}里面必须是""双引号

print json.loads(a) 
[1, 2, 3, 4]


print json.loads(b) 
{'k2': 2, 'k1': 1}

案例

获取豆瓣电影热门

import urllib.parse
import urllib.request
import json
url='https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0'
# 豆瓣最新 热门

herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://movie.douban.com','Connection':'keep-alive'}
# 请求头信息

req = urllib.request.Request(url,headers=herders)
# 设置请求头
response=urllib.request.urlopen(req)
# 发起请求，得到response响应

hjson = json.loads(response.read())
# json转换为字典

# 遍历字典中的电影，item是每条电影信息
for item in hjson["subjects"]:
    print(item["rate"],item["title"])
    # 打印每条电影的评分与标题