爬取医院百科并存入数据库

最新推荐文章于 2022-12-01 10:01:26 发布

A 宁

最新推荐文章于 2022-12-01 10:01:26 发布

阅读量546

点赞数

分类专栏：爬虫文章标签： mysql 爬虫实战

本文链接：https://blog.csdn.net/weixin_49722764/article/details/116119705

版权

爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

爬取医院百度百科数据并存入数据库

百度百科是没有加密的，获取到的医院官网有的超出数据库字段长度，所以用了md5加密固定长度

代码

import requests
import os
import pymysql
from lxml import etree
from pymysql.converters import escape_string
import hashlib
m = hashlib.md5()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
db = pymysql.connect(host='XXX',user='root',password='root',database='XXX')
cursor = db.cursor()  #获取游标
# #添加
url = 'http://www.yixue.com/'
province_name = [
    '北京市', '天津市', '河北省', '山西省', '辽宁省', '吉林省', '黑龙江省', '上海市',
    '江苏省', '浙江省', '安徽省', '福建省', '江西省', '山东省', '河南省', '湖北省',
    '湖南省', '广东省', '内蒙古自治区', '广西壮族自治区', '海南省', '重庆市', '四川省', '贵州省',
    '云南省', '西藏自治区', '陕西省', '甘肃省', '青海省', '宁夏回族自治区', '新疆维吾尔自治区'
]
#拼接各省市医院列表url
for b in province_name:
    demo = str(url)+str(b)+'医院列表'
    source = requests.get(demo).text
    base = etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/ul[1]/li/b/a/text()')
    url1 = []
    #医院url
    for j in base:
        yyurl = str(url)+str(j)
        url1.append(yyurl)
    for a in url1:
        source1 = requests.get(a).text
        name = ''.join(etree.HTML(source1).xpath('//*[@id="firstHeading"]/text()')).strip('：') #中文名
        type = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[4]/a/text()')).strip('：') #医院类型
        phone = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[2]/text()')).strip('：') #电话
        grade = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[3]/a/text()')).strip('：') #等级
        # abs = ''.join(etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/p[5]/text()')).strip('：') #医院概况
        # ment = etree.HTML(source1).xpath('')  #主管部门
        # time = etree.HTML(source1).xpath('')  #创建时间
        main = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[5]/text()|//*[@id="mw-content-text"]/div/ul[1]/li[5]/a/text()')).strip('：').replace("、", '，') #主要科室
        website1 = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[10]/a/text()')).encode(encoding='utf-8') #官网
        m.update(website1)
        website = m.hexdigest()

        addr = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[1]/text()')).strip('：') #地址
        #谷歌api显示省市
        # map_url = 'http://restapi.amap.com/v3/geocode/geo?address={}&output=JSON&key=cc6578ea2a51b8f06cfe3d929ef4a51f'.format(name1)
        # map_response = requests.get(map_url, headers).json()
        # if map_response['geocodes'] != []:
        #     try:
        #         province = map_response['geocodes'][0].get('province', '-')
        #     except:
        #         pass
        #     try:
        #         city = map_response['geocodes'][0].get('city', '-')
        #     except:
        #         pass

        print(name,type,phone,grade,main,website,addr)
        #将数据存入数据可
        sql = 'insert into hospital1(name,`type`,phone,grade,main,website,addr) values ("{}","{}","{}","{}","{}","{}","{}")'.format(name,type,phone,grade,main,website,addr)
        print(sql)
        #插入数据
        cursor.execute(sql)
        #提交事务
        db.commit()
db.close() #关闭游标cursor和数据库连接

A 宁

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬取医院百科并存入数据库

爬取医院百度百科数据并存入数据库百度百科是没有加密的，获取到的医院官网有的超出数据库字段长度，所以用了md5加密固定长度代码import requestsimport osimport pymysqlfrom lxml import etreefrom pymysql.converters import escape_stringimport hashlibm = hashlib.md5()headers = {'User-Agent': 'Mozilla/5.0 (Windows
复制链接

扫一扫

专栏目录