2021-04-25

爬取国家统计局数据

import re
from bs4 import BeautifulSoup
import requests
import time
import string


def geturl(url):
    headers={
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Mobile Safari/537.36 Edg/89.0.774.76'
        }
    html = requests.get(url,headers=headers)
    html.encoding=html.apparent_encoding
    return html.text




def province_parser(url):
        if geturl(url) is None:
            raise Exception('Html is None')
        
        soup = BeautifulSoup(geturl(url), 'html.parser')
        # 找出“北京市”、“天津市”等<td>标签
        url_tds = soup.find_all('a', href=re.compile(r'\d+.html'))
        time.sleep(0.5)
        # 生成包含省名称、下级url、省编码(在后续拼装区级网址需要用到)的元组的列表
        urls = [(td.text, url + td['href'], td['href'].replace('.html', '')) for td in url_tds]
        return urls

def city_parser(url):
    if geturl(url) is None:
        raise Exception('Html is None')
    soup = BeautifulSoup(geturl(url), 'html.parser')
        # 找出“杭州市”、“温州市”等<tr>标签
    time.sleep(0.2)
    url_trs = soup.find_all('tr', 'citytr')
        # 生成包含市名称、下级url、市级12位编码的元组的列表
        #
    urls = [(tr.contents[1].text if tr.contents[1].a is None else tr.contents[1].a.text,
                  None if tr.contents[0].a is None else root_url + tr.contents[0].a['href'],
                 tr.contents[0].text if tr.contents[0].a is None else tr.contents[0].a.text)
                for tr in url_trs]
        
    return urls

def county_parser(url):
    if geturl(url) is None:
        raise Exception('Html is None')
    soup = BeautifulSoup(geturl(url), 'html.parser')
        # 找出“上城区”、“下城区”等<tr>标签
    time.sleep(0.2)

    url_trs = soup.find_all('tr', 'countytr')
        # 生成包含区名称、下级url、区级12位编码的元组的列表
    urls = [(tr.contents[1].text if tr.contents[1].a is None else tr.contents[1].a.text,
                  None if tr.contents[0].a is None else url[0:-9]+tr.contents[0].a['href'],
                 tr.contents[0].text if tr.contents[0].a is None else tr.contents[0].a.text)
                for tr in url_trs]
        #python特有的三目运算的表达方式,意为“当条件成立时取A,否则取B”,
        #本爬虫中的条件为tr.contents[1].a is None,
        #是因为例如”直辖市”没有下级页面,<tr>中不包含<a>,同样用tr.contents[1].a.get_text()去获取数据就会报错。
    return urls

def town_parser(url):
    #if geturl(url) is None:
        #raise Exception('Html is None')
    soup = BeautifulSoup(geturl(url), 'html.parser')
        # 找出“西湖街道”、“留下街道”等<tr>标签
    url_trs = soup.find_all('tr', 'towntr')
        # 生成包含乡镇街道名称、下级url、乡镇街道级12位编码的元组的列表
    urls = [(tr.contents[1].text if tr.contents[1].a is None else tr.contents[1].a.text,
                  None if tr.contents[0].a is None else url[0:-11]+tr.contents[0].a['href'],#此处的url[0:-11]为对上一级网址(区)做切片处理和得到的下一级的链接代码做拼接,生成下一级的完整网址
                 tr.contents[0].text if tr.contents[0].a is None else tr.contents[0].a.text)
                for tr in url_trs]
    return urls
 
def villagetr(url):
    #if geturl(url) is None:
        #raise Exception('Html is None')
    soup = BeautifulSoup(geturl(url), 'html.parser')
        # 找出“西湖街道”、“留下街道”等<tr>标签
    url_trs = soup.find_all('tr', 'villagetr')
    urls = [tr.contents[2].text for tr in url_trs]
    return urls




url='http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/'
for itema in province_parser(url):
    with open(itema[0]+".txt", "w",encoding='utf-8') as f:#itema[0]为省(直辖市)名,作为文件名
        f.write(itema[0])
    for itemb in city_parser(itema[1]):   #itema[1]表示下一级地址链接
        with open(itema[0]+".txt", "a",encoding='utf-8') as f:
            f.write(itemb[0])
        for itemc in county_parser(itemb[1]): 
            with open(itema[0]+".txt", "a",encoding='utf-8') as f:
                f.write(itemc[0])
            time.sleep(0.5)
            for itemd in town_parser(itemc[1]):
                with open(itema[0]+".txt", "a",encoding='utf-8') as f:
                    f.write(itemd[0])
                for iteme in villagetr(itemd[1]):
                    with open(itema[0]+".txt", "a",encoding='utf-8') as f:
                        f.write(iteme)
    print('完成一个省(市)的爬取!')

运行结果:在这里插入图片描述

下图为爬取到并保存的命名文件内容:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用python中的pymsql完成如下:表结构与数据创建 1. 建立 `users` 表和 `orders` 表。 `users` 表有用户ID、用户名、年龄字段,(id,name,age) `orders` 表有订单ID、订单日期、订单金额,用户id字段。(id,order_date,amount,user_id) 2 两表的id作为主键,`orders` 表用户id为users的外键 3 插入数据 `users` (1, '张三', 18), (2, '李四', 20), (3, '王五', 22), (4, '赵六', 25), (5, '钱七', 28); `orders` (1, '2021-09-01', 500, 1), (2, '2021-09-02', 1000, 2), (3, '2021-09-03', 600, 3), (4, '2021-09-04', 800, 4), (5, '2021-09-05', 1500, 5), (6, '2021-09-06', 1200, 3), (7, '2021-09-07', 2000, 1), (8, '2021-09-08', 300, 2), (9, '2021-09-09', 700, 5), (10, '2021-09-10', 900, 4); 查询语句 1. 查询订单总金额 2. 查询所有用户的平均年龄,并将结果四舍五入保留两位小数。 3. 查询订单总数最多的用户的姓名和订单总数。 4. 查询所有不重复的年龄。 5. 查询订单日期在2021年9月1日至9月4日之间的订单总金额。 6. 查询年龄不大于25岁的用户的订单数量,并按照降序排序。 7. 查询订单总金额排名前3的用户的姓名和订单总金额。 8. 查询订单总金额最大的用户的姓名和订单总金额。 9. 查询订单总金额最小的用户的姓名和订单总金额。 10. 查询所有名字中含有“李”的用户,按照名字升序排序。 11. 查询所有年龄大于20岁的用户,按照年龄降序排序,并只显示前5条记录。 12. 查询每个用户的订单数量和订单总金额,并按照总金额降序排序。
06-03

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值