![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spider
Spider
也无渢雨也无晴
回首向来萧瑟处,归去。
展开
-
转义&编码&加密
文章目录转义编码字符编码URL编码base64编码加密加密分类&特点MD5DES3DESAESRSA转义每种语言都有其关键字和保留字符,这样为了能这些特殊字符能正常显示,就需要转义,如:HTML中的 代表空格;Python中的\n代表回车换行;\t代表制表符;\\代表\字符本身;\u代表Unicode;Unicode转义:string = '杰克'#1. Unicode转义string_u = string.encode('unicode-escape').de原创 2021-11-14 10:17:41 · 1108 阅读 · 0 评论 -
企**Spider
仅供学习。# coding=utf-8import osimport requestsfrom lxml import etreeimport refrom urllib.parse import quoteclass QiChaChaSpider(object): """" Spider class""" def __init__(self, kwd): self.query_url = "https://www.qcc.com/web/search.原创 2021-11-07 13:30:24 · 1150 阅读 · 0 评论 -
天**Spider
仅供学习。# coding=utf-8import requestsfrom lxml import etreeimport reimport datetimeclass TYChaSpider(object): """" Spider class""" def __init__(self, kw): self.kw = kw self.cookie_values = 'TYCID=28646c20d32611eb8874e3b09d789.原创 2021-11-03 16:25:44 · 549 阅读 · 0 评论 -
大***Spider
大***数据爬取,仅供学习。# coding=utf-8import requestsfrom lxml import etreeimport timeimport csvdef getLink(url): headers = { "Referer": "http://www.dpfile.com/", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHT.原创 2021-11-02 14:47:14 · 73 阅读 · 0 评论 -
常见问题
网站的编码格式可根据如下的方法获取,res为响应对象。print(res.encoding)print(res.headers['content-type'])print(res.apparent_encoding)print(requests.utils.get_encodings_from_content(res.text))原创 2021-11-02 13:41:20 · 48 阅读 · 0 评论 -
Spider模板
个人总结的Spider模板。import requestsfrom lxml import etreeimport threadingimport queue# 获取网页源数据,返回element objectdef get_page(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome.原创 2021-11-01 15:04:42 · 102 阅读 · 0 评论