这篇文章是我前面一篇文章的后续(https://blog.csdn.net/xiaobai1_1/article/details/103261272)
前面一篇文章已经把从维基百科下载的xml格式的数据转换成了json格式的文件。这里我们就用转换好的json文件开始下面的工作:
1、mysql数据库连接
import pymysql
def prem(db):
cursor = db.cursor()
cursor.execute("SELECT VERSION()")
data = cursor.fetchone()
print("Database version : %s " % data) # 结果表明已经连接成功
if __name__ == "__main__": # 起到一个初始化或者调用函数的作用
db = pymysql.connect("127.0.0.1", "admin", "root", "zhwiki", charset='utf8mb4')
cursor = db.cursor()
prem(db)
reviewdata_insert(db)
cursor.close()
2、创建表
我们先来看一下json里面有些什么东西:
写了一个test来看一下,这里我们用 i 来控制输出的条数,这里我们只输出了一条进行查看:
from smart_open import smart_open
import json
x = 0
for line in smart_open('zhwiki-latest.json.gz'):
article = json.loads(line)
print("Article title: %s" % article['title'])
for section_title, section_text in zip(article['section_titles'], article['section_texts']):
print("Section title: %s" % section_title)
print("Section text: %s" % section_text)
x