获取某TAX的最新税收政策信息

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

(注:文章仅供学习,严禁做非法用途)


# 前言

学习如何通过Python代码实现获取某TAX局最新税收政策文件,应用到的模块有bs4


提示:以下是本篇文章正文内容,下面案例可供参考

一、获取思路

1、查看主网站结构及下一页链接
2、查看下一页网页结构
3、通过爬取数据保存到本地

二、获取步骤

1.模块和请求头数据

代码如下(示例):

from urllib import request, parse
from bs4 import BeautifulSoup

headers = {
    'cookie': '====cookie内容====',
    'User-Agent': '====浏览器请求头===='}
url = "http://www.chinatax.gov.cn/chinatax/n810341/n810755/index.html"

2.读取网页数据

代码如下(示例):

# 请求链接,打开网页读取内容
req = request.Request(url=url, headers=headers)
res = request.urlopen(req)
content = res.read().decode("utf-8")

3.解析页面链接和标题

代码如下(示例):

tax_soup = BeautifulSoup(content, 'lxml')
# 获取所有的章节链接
tax_list = tax_soup.select(".common_list > ul > li > a")
num_list = tax_soup.select(".common_list > ul > li > span")  # 字号

4.遍历读取到的链接和标题

代码如下(示例):

# 
for (tax, num) in zip(tax_list, num_list):
    # print(tax, num)
    title = tax.get_text()  # 获取标题
    href = "http://www.chinatax.gov.cn" + tax.get("href")
    url_list.append(href)

注意下一页面的URL拼接

5.读取下一网页并解析

代码如下(示例):

next_req = request.Request(url=href, headers=headers)
next_content = request.urlopen(next_req).read().decode("utf-8")
# 解析出章节详情页的内容
soup = BeautifulSoup(next_content, 'lxml')
str_tax = ''
p_list = soup.select("#fontzoom > p")
for text in p_list:
    # print('==========', text.get_text() + '\n')
    a = text.get_text()

总结

1、该网站采用了cookie机制反爬,在请求头是需要带入cookie,否则无法访问;
2、注意URL的拼接情况;
3、注意下一页面的解析,获取到的p元素是一个列表集;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值