爬虫Spider遇到的问题汇总篇

找不到元素

先打印html或soup看一下 是不是和f12展示的一样的结构
有明显id的可能有record /record 标签
eg.天/津/市/卫/健/委健/康知识

看看是不是post请求
eg.天/津/市/卫/健/委健/康知识

可能返回的是json文件(如下图)直接解析json
res = requests.get(self.url)
html = res.json()
在这里插入图片描述

url没有显示换页

会有iframe 找到它的src属性 用这个url值

中文乱码

.encode(“ISO_8859_1”).decode(“utf-8”)

请求页面的时候加上一句编码的话
res = requests.get(self.url,headers = self.header,verify=False)
res.encoding = res.apparent_encoding

要下载文档的话

from urllib.request import urlretrieve
file=os.path.splitext(a[‘href’])
filename,type=file
file_name = a.text + type
urlretrieve(new_url, file_name)

a.text里面不能有特殊字符
不然报错:
tfp = open(filename, ‘wb’)
FileNotFoundError: [Errno 2] No such file or directory: ‘饮用水水源保护区标志技术要求(HJ/T 433-2008).pdf’

driver语句

self.driver = webdriver.Chrome()
self.driver.get(self.url)
time.sleep(random.uniform(3, 5))
self.list_parase()

点击下一页
self.driver.find_element_by_xpath(“XXX”).click()
time.sleep(random.uniform(2, 3))
self.list_parase()

时间戳转日期格式

timeStamp = li[“date”]
timeArray = time.localtime(timeStamp)
date = time.strftime("%Y-%m-%d", timeArray)
print(date)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值