Python解析HTML实例

最新推荐文章于 2024-06-08 11:12:05 发布

00M

最新推荐文章于 2024-06-08 11:12:05 发布

阅读量1.9k

点赞数 3

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/yu422560654/article/details/53164708

版权

# coding:utf-8
import urllib.request
import re
import xlwt
import time
from xlwt import Workbook
from html.parser import HTMLParser
from tempfile import TemporaryFile
info = ''
zhPattern = re.compile(u'[\u4e00-\u9fa5]+')
#结果目录
inforst = 'C:/Users/玲玲/PycharmProjects/untitled/***/'
#写入Excel(定义Excel表头)
book = Workbook()
#自动换行
style = xlwt.easyxf('align: wrap on')
#设置时间格式
ISOTIMEFORMAT='%Y-%m-%d %X'
''''' 
HTMLParser的成员函数: 

    handle_startendtag  处理开始标签和结束标签 
    handle_starttag     处理开始标签，比如<xx> 
    handle_endtag       处理结束标签，比如</xx> 
    handle_charref      处理特殊字符串，就是以&#开头的，一般是内码表示的字符 
    handle_entityref    处理一些特殊字符，以&开头的，比如   
    handle_data         处理数据，就是<xx>data</xx>中间的那些数据 
    handle_comment      处理注释 
    handle_decl         处理<!开头的，比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN” 
    handle_pi           处理形如<?instruction>的东西 

'''
class myHtmlParser(HTMLParser):
    # 处理初始化数据结构 
    def  __init__(self):
        HTMLParser.__init__(self)
        self.pflag = 0
        self.showflag = 1
        self.scores = []
        self.names = []
        self.addresses = []
        self.areacodes = []
    #处理标签
    def handle_starttag(self, tag, attrs):
        if tag == 'p' or tag == 'br':
            self.pflag =

最低0.47元/天解锁文章

00M

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python解析HTML实例

# coding:utf-8import urllib.requestimport reimport xlwtimport timefrom xlwt import Workbookfrom html.parser import HTMLParserfrom tempfile import TemporaryFileinfo = ''zhPattern = re.compile(u
复制链接

扫一扫