爬取医院百度百科数据并存入数据库
百度百科是没有加密的,获取到的医院官网有的超出数据库字段长度,所以用了md5加密固定长度
- 代码
import requests
import os
import pymysql
from lxml import etree
from pymysql.converters import escape_string
import hashlib
m = hashlib.md5()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
db = pymysql.connect(host='XXX',user='root',password='root',database='XXX')
cursor = db.cursor() #获取游标
# #添加
url = 'http://www.yixue.com/'
province_name = [
'北京市', '天津市', '河北省', '山西省', '辽宁省', '吉林省', '黑龙江省', '上海市',
'江苏省', '浙江省', '安徽省', '福建省', '江西省', '山东省', '河南省', '湖北省',
'湖南省', '广东省', '内蒙古自治区', '广西壮族自治区', '海南省', '重庆市', '四川省', '贵州省',
'云南省', '西藏自治区', '陕西省', '甘肃省', '青海省', '宁夏回族自治区', '新疆维吾尔自治区'
]
#拼接各省市医院列表url
for b in province_name:
demo = str(url)+str(b)+'医院列表'
source = requests.get(demo).text
base = etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/ul[1]/li/b/a/text()')
url1 = []
#医院url
for j in base:
yyurl = str(url)+str(j)
url1.append(yyurl)
for a in url1:
source1 = requests.get(a).text
name = ''.join(etree.HTML(source1).xpath('//*[@id="firstHeading"]/text()')).strip(':') #中文名
type = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[4]/a/text()')).strip(':') #医院类型
phone = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[2]/text()')).strip(':') #电话
grade = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[3]/a/text()')).strip(':') #等级
# abs = ''.join(etree.HTML(source).xpath('//*[@id="mw-content-text"]/div/p[5]/text()')).strip(':') #医院概况
# ment = etree.HTML(source1).xpath('') #主管部门
# time = etree.HTML(source1).xpath('') #创建时间
main = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[5]/text()|//*[@id="mw-content-text"]/div/ul[1]/li[5]/a/text()')).strip(':').replace("、", ',') #主要科室
website1 = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[10]/a/text()')).encode(encoding='utf-8') #官网
m.update(website1)
website = m.hexdigest()
addr = ''.join(etree.HTML(source1).xpath('//*[@id="mw-content-text"]/div/ul[1]/li[1]/text()')).strip(':') #地址
#谷歌api显示省市
# map_url = 'http://restapi.amap.com/v3/geocode/geo?address={}&output=JSON&key=cc6578ea2a51b8f06cfe3d929ef4a51f'.format(name1)
# map_response = requests.get(map_url, headers).json()
# if map_response['geocodes'] != []:
# try:
# province = map_response['geocodes'][0].get('province', '-')
# except:
# pass
# try:
# city = map_response['geocodes'][0].get('city', '-')
# except:
# pass
print(name,type,phone,grade,main,website,addr)
#将数据存入数据可
sql = 'insert into hospital1(name,`type`,phone,grade,main,website,addr) values ("{}","{}","{}","{}","{}","{}","{}")'.format(name,type,phone,grade,main,website,addr)
print(sql)
#插入数据
cursor.execute(sql)
#提交事务
db.commit()
db.close() #关闭游标cursor和数据库连接