维基百科数据导入mysql数据库并进行检索操作

本文介绍如何将维基百科的JSON数据导入到MySQL数据库,并进行数据检索操作。首先,通过数据库连接和创建表来准备数据存储。接着,解析JSON文件并将其批量导入数据库,这个过程可能需要较长时间。为了提升查询效率,文章提到了一些数据库优化技巧,如建立索引、避免使用通配符查询、不使用函数操作字段等。最后,实现了简单的查询界面供用户交互。
摘要由CSDN通过智能技术生成

这篇文章是我前面一篇文章的后续(https://blog.csdn.net/xiaobai1_1/article/details/103261272
前面一篇文章已经把从维基百科下载的xml格式的数据转换成了json格式的文件。这里我们就用转换好的json文件开始下面的工作:
1、mysql数据库连接

import pymysql
def prem(db):
  cursor = db.cursor()
  cursor.execute("SELECT VERSION()")
  data = cursor.fetchone()
  print("Database version : %s " % data) # 结果表明已经连接成功

if __name__ == "__main__": # 起到一个初始化或者调用函数的作用
  db = pymysql.connect("127.0.0.1", "admin", "root", "zhwiki", charset='utf8mb4')
  cursor = db.cursor()
  prem(db)
  reviewdata_insert(db)
  cursor.close()

2、创建表
我们先来看一下json里面有些什么东西:
写了一个test来看一下,这里我们用 i 来控制输出的条数,这里我们只输出了一条进行查看:

from smart_open import smart_open
import json
x = 0
for line in smart_open('zhwiki-latest.json.gz'):
     article = json.loads(line)
     print("Article title: %s" % article['title'])
     for section_title, section_text in zip(article['section_titles'], article['section_texts']):
         print("Section title: %s" % section_title)
         print("Section text: %s" % section_text)
     x 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值