爬取医院百科并存入数据库

爬取医院百度百科数据并存入数据库

百度百科是没有加密的,获取到的医院官网有的超出数据库字段长度,所以用了md5加密固定长度

  • 代码
import requests
import os
import pymysql
from lxml import etree
from pymysql.converters import escape_string
import hashlib
m = hashlib.md5()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
db = pymysql.connect(host='XXX',user='root',password='root',database='XXX')
cursor = db.cursor()  #获取游标
# #添加
url = 'http://www.yixue.com/'
province_name = [
    '北京市', '天津市', '河北省', '山西省', '辽宁省', '吉林省', '黑龙江省', '上海市',
    '江苏省', '浙江省', '安徽省', '福建省', '江西省', '山东省', '河南省', '湖北省',
    '湖南省', '广东省', '内蒙古自治区', '广西壮族自治区', '海南省', '重庆市', '四川省', '贵州省',
    '云南省', '西藏自治区', '陕西省', '甘肃省', '青海省', '宁夏回族自治区', '新疆维吾尔自治区'
]
#拼接各省市医院列表url
for b in province_name:
    demo = str(url)+str(b)+'医院列表'
    source = requests.get(demo).text
    base = etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/ul[1]/li/b/a/text()')
    url1 = []
    #医院url
    for j in base:
        yyurl = str(url)+str(j)
        url1.append(yyurl)
    for a in url1:
        source1 = requests.get(a).text
        name = ''.join(etree.HTML(source1).xpath('//*[@id="firstHeading"]/text()')).strip(':') #中文名
        type = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[4]/a/text()')).strip(':') #医院类型
        phone = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[2]/text()')).strip(':') #电话
        grade = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[3]/a/text()')).strip(':') #等级
        # abs = ''.join(etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/p[5]/text()')).strip(':') #医院概况
        # ment = etree.HTML(source1).xpath('')  #主管部门
        # time = etree.HTML(source1).xpath('')  #创建时间
        main = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[5]/text()|//*[@id="mw-content-text"]/div/ul[1]/li[5]/a/text()')).strip(':').replace("、", ',') #主要科室
        website1 = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[10]/a/text()')).encode(encoding='utf-8') #官网
        m.update(website1)
        website = m.hexdigest()

        addr = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[1]/text()')).strip(':') #地址
        #谷歌api显示省市
        # map_url = 'http://restapi.amap.com/v3/geocode/geo?address={}&output=JSON&key=cc6578ea2a51b8f06cfe3d929ef4a51f'.format(name1)
        # map_response = requests.get(map_url, headers).json()
        # if map_response['geocodes'] != []:
        #     try:
        #         province = map_response['geocodes'][0].get('province', '-')
        #     except:
        #         pass
        #     try:
        #         city = map_response['geocodes'][0].get('city', '-')
        #     except:
        #         pass

        print(name,type,phone,grade,main,website,addr)
        #将数据存入数据可
        sql = 'insert into hospital1(name,`type`,phone,grade,main,website,addr) values ("{}","{}","{}","{}","{}","{}","{}")'.format(name,type,phone,grade,main,website,addr)
        print(sql)
        #插入数据
        cursor.execute(sql)
        #提交事务
        db.commit()
db.close() #关闭游标cursor和数据库连接





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值