爬虫
橙晨_D
这个作者很懒,什么都没留下…
展开
-
UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0xaa in position 28315: illegal multibyte sequence
python爬虫用decode解码,报错信息如下: UnicodeDecodeError:‘gbk’ codec can’t decode byte 0xaa in position 28315: illegal multibyte sequence这是网页数据中有错误的字符无法解码,decode有参数errors,设置一下就行response=res.content.decode('gbk',errors = 'ignore')...原创 2020-10-29 16:49:03 · 586 阅读 · 0 评论 -
Python爬虫lxml的xpath二次匹配
Python爬虫lxml的xpath二次匹配from lxml import etree''' 在爬取多级分类,并且需要逐级对应时用到'''html = '''<div> <div class="content_box" id="divnewslist"> <ul> <li><a ...原创 2019-09-10 15:01:49 · 2097 阅读 · 0 评论